ATi R600

blastarr · 23 de Maio de 2006

DJ_PAPA disse:
A intel ja os tem há algum tempo, mas a AMD so os vai inserir no final do ano. Altura que coincide com o lançamento do R600. A nivel com a AMD é um empate.
Penso que é a 1ª vez que vai acontecer......

Athlon XP Barton - Geforce FX 5800/5900 Ultra

Ambos feitos em 130nm, por volta do início de 2003.

JPgod · 24 de Maio de 2006

Antes de existir barton, existia uma coisinha chamada t-bred A que foi o 1º AMD 0,13

blastarr · 24 de Maio de 2006

destr0yer disse:
Antes de existir barton, existia uma coisinha chamada t-bred A que foi o 1º AMD 0,13

Mas também, esse e o T'bred-B "só" tinham 37.5 Milhões de transístores, pelo que fabricá-los com menos componentes era muito mais simples num processo completamente novo (para a altura).
Uma analogia moderna foi o processo 90nm que a Nvidia estreou há 6 meses, não com uma GPU de topo, mas sim com uma solução integrada, a 6100/6150, com um máximo de... 2 pixel shaders e 1 vertex shader.

O "Barton" foi o único Athlon XP com 54 Milhões de transístores (um salto considerável, tendo em conta que a única adição foi aumentar em 256KB a quantidade de memória Cache L2, para um total de 512KB).
Aí a comparação já é mais ou menos justa (embora a GFFX aínda tivesse... 125 Milhões

)

JPgod · 24 de Maio de 2006

Mesmo que tivesse 1 transistor era em 0,13 e foi antes da FX e pronto...

blastarr · 24 de Maio de 2006

destr0yer disse:
Mesmo que tivesse 1 transistor era em 0,13 e foi antes da FX e pronto...

130nm é uma média aproximada do tamanho global dos transístores.
Há componentes a 130nm já dentro do Athlon XP "Palomino" desde Setembro de 2001...

ToTTenTranz · 24 de Maio de 2006

blastarr disse:
130nm é uma média aproximada do tamanho global dos transístores.
Há componentes a 130nm já dentro do Athlon XP "Palomino" desde Setembro de 2001...

Disseste que o Barton foi o 1º CPU 130nm da AMD. Como disse o destr0yer está errado. A nVidia não lançou o seu primeiro chip a 130nm ao mesmo tempo que a AMD.

theinquirer disse:
Even though many have assumed the chip will be the same as the one ATI supplies for the Xbox 360, it won’t be. It will share a similar design but won’t have the integrated memory on die.

Sem memória embutida?

Lá se vai um possível free AA4x..
Um passo atrás na minha opinião.. Talvez necessário por causa do tamanho do chip.. mas não deixa de ser um passo atrás.
E tem outro problema. Num futuro onde a performance do R600 já não fosse por aí além os 4xAA seriam um peso morto num GPU que estivesse a lutar por mais uns fps em qualidade "média".

blastarr · 24 de Maio de 2006

Ter eDRAM embutida numa placa para PC é um peso-morto, isso sim.
Um desperdício de transístores que poderiam ser aplicados em pixel shaders e outras funções programáveis.
Se não tem, a ATI não foi burra, o que é bom.

Só faz sentido ter eDRAM em arquitecturas monolíticas, cuja API não está sujeita a updates (como uma consola, ou dispositivos móveis).

Ansatsu · 24 de Maio de 2006

ToTTenTranz disse:
Disseste que o Barton foi o 1º CPU 130nm da AMD. Como disse o destr0yer está errado. A nVidia não lançou o seu primeiro chip a 130nm ao mesmo tempo que a AMD.

Sem memória embutida? Lá se vai um possível free AA4x..
Um passo atrás na minha opinião.. Talvez necessário por causa do tamanho do chip.. mas não deixa de ser um passo atrás.
E tem outro problema. Num futuro onde a performance do R600 já não fosse por aí além os 4xAA seriam um peso morto num GPU que estivesse a lutar por mais uns fps em qualidade "média".

Gastar 100 Milhões de transitors para ter 4xAA, na realidade nem dá para 4.

Se eles gastasse, 100 milhões nisso, em vez de ter 64 sahders unificados, secalhar tinha apenas uns 48 ou menos. E agora qual seria mais rapido?

Eu penso k para já, gastar 100 milhões de transistors para ter 4xAA de borla é um desperdicio.

blastarr · 24 de Maio de 2006

Ansatsu disse:
Gastar 100 Milhões de transitors para ter 4xAA, na realidade nem dá para 4.

Se eles gastasse, 100 milhões nisso, em vez de ter 64 sahders unificados, secalhar tinha apenas uns 48 ou menos. E agora qual seria mais rapido?

Eu penso k para já, gastar 100 milhões de transistors para ter 4xAA de borla é um desperdicio.

Claro.
Exactamente o que eu penso.
Julgo que só o consumo de energia estimado é que impediu que eles o fizessem (memória eDRAM gasta muito menos do que ter pixel/vertex shaders adicionais), pois no limite que é imposto a uma consola em termos de espaço, etc, ter GPU's de 200, 250+ Watts era suicídio.
Já assim aquecem bastante...

Se fizéssemos uma simples extrapolação da R520/R580, esta última ganhou 32 pixel shaders com mais ~50 milhões de transístores.
Mesmo tendo em conta os transístores extra de dupla função gastos na unificação (vertex/pixel), a ATI facilmente metia 64 ou mesmo 96 shaders na Xbox 360, caso eliminasse a eDRAM e tivesse um power budget no nível de um PC de topo.
Mais do que suficiente para compensar o suposto "free-AA" da eDRAM, e com a vantagem de se poder usar os shaders noutras funções, quando o aliasing não fosse um problema em certas aplicações.

ToTTenTranz · 24 de Maio de 2006

Ansatsu disse:
Gastar 100 Milhões de transitors para ter 4xAA, na realidade nem dá para 4.

Se eles gastasse, 100 milhões nisso, em vez de ter 64 sahders unificados, secalhar tinha apenas uns 48 ou menos. E agora qual seria mais rapido?

Eu penso k para já, gastar 100 milhões de transistors para ter 4xAA de borla é um desperdicio.

Se visses uma hipotética R600 com 64 shaders e 24Mb EDRAM a correr o Oblivion e o Crysis a 1600*1200 4xAA e 16xAF a uns 60fps constantes já não chamavas desperdício

blastarr · 24 de Maio de 2006

ToTTenTranz disse:
Se visses uma hipotética R600 com 64 shaders e 24Mb EDRAM a correr o Oblivion e o Crysis a 1600*1200 4xAA e 16xAF a uns 60fps constantes já não chamavas desperdício

Humm, 24MB de eDRAM, certo...
Isso daria uns 220~240 milhões de transístores, mais ou menos.
Ou seja, dava para ter duas Xenos lado a lado.

Gastar 220 milhões de transístores só para ter 24MB de eDRAM, que poderiam ser gastos em muito mais ALU's, TMU's e pixel/vertex shaders era de facto uma solução inteligente...not ! :rolleyes:

Se eu estou errado, pergunto-te qual é a tua teoria para não ter existido eDRAM nas GPU's de PC's até hoje.
Eu dei a minha, baseada em factos.

Ansatsu · 24 de Maio de 2006

ToTTenTranz disse:
Se visses uma hipotética R600 com 64 shaders e 24Mb EDRAM a correr o Oblivion e o Crysis a 1600*1200 4xAA e 16xAF a uns 60fps constantes já não chamavas desperdício

Se visses uma hipotetica R600 com 128 shaders sem EDRAM a correr Oblivion e o Crysis a 1600*1200 4xAA e 16xAF a 120fps constantes, tu pensavas... Que desperdicio, quero jogos que puxem mais, já

MaLok0 · 24 de Maio de 2006

Thread limpa...
Aconselho-vos a ler a thread "Biasing" num fórum acima :rolleyes:

ToTTenTranz · 24 de Maio de 2006

blastarr disse:
Se eu estou errado, pergunto-te qual é a tua teoria para não ter existido eDRAM nas GPU's de PC's até hoje.
Eu dei a minha, baseada em factos.

Já a dei:

ToTTenTranz disse:
E tem outro problema. Num futuro onde a performance do R600 já não fosse por aí além os 4xAA seriam um peso morto num GPU que estivesse a lutar por mais uns fps em qualidade "média".

A performance de um GPU não se mede com a quantidade de ROPs, shaders e ALUs. A eficácia de um gpu depende muito da gestão de memória.
Por alguma razão é que vês uma X1800XT a bater as 7900GTX no Oblivion, nos outdoors em zonas com muitas árvores (a zona do jogo que mais puxa pelas gráficas).
As 7900GTX têm 24 pixel shaders e TMUs ao passo que a X1800XT só tem 16.
Aqui cai por terra a teoria de que mais shaders e TMUs equivale forçosamente a mais performance.

Dizer que se tem um número grande de pipes, TMUs e ROPs é muito bonito no papel. É muito eficiente em marketing, para deixar as pessoas a dizer "ena que revolução, tantos shaders!"..
Mas quando chega à altura de programar e por as coisas a correr a eficácia do chip, gestão interna dos recursos acabam por vir ao de cima.

O Flipper oferece essa eficácia e o Xenos tambem.

Chamar à EDRAM um "desperdício" é o mesmo que dizer que num CPU ter 2Mb de cache é um desperdício pois podiam por só 512Kb e gastar os transístores a mais em unidades FP. As coisas não funcionam assim.

blastarr · 24 de Maio de 2006

ToTTenTranz disse:
Já a dei:

A performance de um GPU não se mede com a quantidade de ROPs, shaders e ALUs. A eficácia de um gpu depende muito da gestão de memória.
Por alguma razão é que vês uma X1800XT a bater as 7900GTX no Oblivion, nos outdoors em zonas com muitas árvores (a zona do jogo que mais puxa pelas gráficas).
As 7900GTX têm 24 pixel shaders e TMUs ao passo que a X1800XT só tem 16.
Aqui cai por terra a teoria de que mais shaders e TMUs equivale forçosamente a mais performance.

Dizer que se tem um número grande de pipes, TMUs e ROPs é muito bonito no papel. É muito eficiente em marketing, para deixar as pessoas a dizer "ena que revolução, tantos shaders!"..
Mas quando chega à altura de programar e por as coisas a correr a eficácia do chip, gestão interna dos recursos acabam por vir ao de cima.

O Flipper oferece essa eficácia e o Xenos tambem.

Sabes para que serve a memória cache, qualquer um dos vários tipos ?
Para tentar compensar de algum modo as ineficiências internas da arquitectura dos chips (inerente à ISA básica).
Um exemplo primário disso mesmo foi o Pentium 4, cuja arquitectura criava uma latência tal que só com memória cache em grande quantidade era possível manter o chip a uma velocidade mínimamente aceitável.
Noas A64 é precisamente o contrário, a arquitectura eficiente pouco beneficia com mais memória cache, pois não existe tanta latência por clock.
Isso denota menos laxismo na concepção do chip, com TLB's eficientes, poucos stall's de instruções, enfim, mais aplicação na resolução dos problemas fundamentais em vez de criar "remendos" temporários que terão inevitavelmente de ser aumentados à medida que o chip se torna mais complexo.
Precisamente aquilo que a Intel copiou com o Conroe, que provavelmente nem precisava de ter 2 MB de cache unificada, não fosse o facto de depender de um controlador de RAM externo muito mais ineficiente, através do velhinho FSB GTL+, e precisar de mitigar de algum modo essa situação com cache L2 adicional.
Já o actual Celeron M denota essa fraqueza em relação ao Pentium M, onde a cache L2 menor faz de facto bastante diferença (precisa de ir mais vezes à RAM principal buscar dados)...

E, por favor, não me venhas com essa da gestão de memória.
Estar a comparar uma X1800 XT com uma 7900 GTX é muito interessante..., não fora o facto de que cada pixel shader da G70/G71 não ter absolutamente nada a ver com o equivalente nominal da R520/R580.
Já se viu como pouca vantagem trouxe à ATI ter um controlador de memória deste tipo numa arquitectura que não passa de DirectX9, e, portanto, sujeita a overhead da própria API de software DX9, para além de o nº de operações por pixel estar limitado de algum modo.
Só faz sentido ter algo tão complexo em GPU's DX10 ou superior.

Senão, como explicas que a X1800 XT tenha 335 milhões de transístores e a 7900 GTX apenas 278 Milhões, sendo fabricados na mesma fábrica a 90nm ?
A 7800 GTX já tinha 302 milhões, pelo que foi possível reduzir a complexidade do chip para 278 e aínda assim ser competitivo com a nova e monstruosa R580 de 384 milhões de transístores...

É o mesmo que comparar laranjas com maçãs.
São shader pipelines de concepção diferente, logo, de comparação impossível.

ToTTenTranz disse:
Chamar à EDRAM um "desperdício" é o mesmo que dizer que num CPU ter 2Mb de cache é um desperdício pois podiam por só 512Kb e gastar os transístores a mais em unidades FP. As coisas não funcionam assim.

Tem graça, ía jurar que foi precisamente isso que a MS quis na CPU da Xbox 360, pois inicialmente estava previsto um dual-core PPC com mais memória cache L2, e no fim decidiram-se por 3 cores muito simplificados (em relação aos G5) com apenas 1MB partilhado.
Ou seja, mais potência com menos latência = menor necessidade de cache L2 a servir de buffer para instruções que aínda não foram processadas e estão em "lista de espera".

A prova de que a menor complexidade estrutural resultou foi o facto de se ter retirado o suporte ao processamento Out-of-Order que existía no PPC G5.
Numa arquitectura estritamente in-order, as alturas onde a memória cache fica saturada aumentariam fortemente, mas o que se vê na Xbox é precisamente o contrário.
Não é precisa muita memória cache L2 para partilhar pelos 3 cores e 6 threads, pois estes foram (e bem) simplificados na sua operação, mitigando esse problema de data collision desde a raíz.

Ansatsu · 24 de Maio de 2006

ToTTenTranz O pessoal da ATI não é burrito, e por isso é que não pos EDRAM, senão punham, n duvides. Aliás no Xenos a Microsoft é que impigiu á ATI para por EDRAM.

Tu tas a dizer que se trabalhasses na ATI querias gastar 220 Milhões de transistors só para ter 4xAA? Eram os 220 milhões mais mal gastos da tua vida, só par veres a 7900gtx tem pouco mais k esses 220 milhões de transistors lol

Com esses 220 milhões, eles gastavam noutars features da placa grafica, que no final iam po-la bastante mais potente para superar esses 4xAA e ainda ter mais performance.

Eu não sei, mas a R600 deve ter uns 500 Milhões de transistors mais coisa menos coisa. agora retiravas 220Milhões para teres a edram e 4xAA de borla. Ficavas com 280 Milhões de transistors... Menos que a actual R580.

DJ_PAPA · 24 de Maio de 2006

blastarr disse:
Senão, como explicas que a X1800 XT tenha 335 milhões de transístores e a 7900 GTX apenas 278 Milhões, sendo fabricados na mesma fábrica a 90nm ?
A 7800 GTX já tinha 302 milhões, pelo que foi possível reduzir a complexidade do chip para 278 e aínda assim ser competitivo com a nova e monstruosa R580 de 384 milhões de transístores...

Isso ja foi explicado muitas vezes em muitos sites. Nomeadamente a maior qualidade de imagem da ATI e versatilidade do AVIVO. Maior performance com filtros AA e AF ligados.
Suporte para mais features: AA+HDR, HQ AF.
Tudo isso consome transistores e engordou a geraçao R5xx. Por mim se tem + ou - transistores nao me interessa. O que me interessa é ver o produto final.

O outro causador do maior numero de transistores é que o controlador ondie da R520/R580 ja suporta GDDR-4 e foi um investimento a longo termo. Neste caso a preparar terreno para o R580+:

ATI's R580+ prepares for DDR 4

Need for speed

IF ALL goes as planned, ATI might steal a march on arch-rival Nvidia, and produce the leading high-end chip by the end of this summer.

We say 'might' as Nvidia might have its G80 ready before then. In which case it''ll be a whole different soupe de poisson.

ATI's R580+ uses the same 90 nanometre marchitecture as the cutrrent generation, but it will be modified to accommodate GDDR 4. According to ATI, the R520, Radeon 10K generation can also support GDDR4 but the company will have to tweak a thing or two to make it possible.

We still don’t know enough about the upcoming G80 but it looks to us that it should kick the current R580's butt and possibly even R580+'s, but we know that ATI plans to fight the new chip with its upcoming R600 monster.

We still don’t know the clock speeds for the new R580+ card, it's just too early for that. Give it a month or two. µ

http://www.theinquirer.net/?article=31864

Para alem que a 7900gtx saiu depois da X1900XTX, logo tiveram mais tempo para afinar e optimizar algumas coisas.

Crusher · 24 de Maio de 2006

blastarr,

"Só faz sentido ter eDRAM em arquitecturas monolíticas, cuja API não está sujeita a updates (como uma consola, ou dispositivos móveis)."

Quer dizer... para haver suporte de eDRAM é necessário haver uma API actualizada? Não estou a perceber. O eDRAM não passa de uma maneira de obter mais performance por hardware tal como acontece com o Crossbar Memory Controler introduzida na GeForce3 ou o Ring Bus no R520, entre outros. Neste caso, o eDRAM não passa de memória interna que aproveita a massiva quantidade de largura de banda no interior do chip para teoricamente usar 4xAA de forma a não diminuir a performance.

Acho que o eDRAM pode vir a vingar e acho que será necessário para teoricamente ter 4xAA "free". Já imaginastes o que era fazer toda a vegetação do Oblivion apenas com polígonos e não apenas com texturas alpha? Se assim fosse quem é não queria 4xAA "free" ou mais se necessário.

Basta por exemplo ver como é feita a vegetação no GT4 do 3DMark 2003 é feita... ou o Firefly Forest no 2005/2006.

EDIT: Só para acrescentar mais alguma coisa.

"A 7800 GTX já tinha 302 milhões, pelo que foi possível reduzir a complexidade do chip para 278 e aínda assim ser competitivo com a nova e monstruosa R580 de 384 milhões de transístores...

É o mesmo que comparar laranjas com maçãs.
São shader pipelines de concepção diferente, logo, de comparação impossível."

Comparas o número de transístores, shader pipelines e no fim dizes comparação impossível?

Se bem li por aí para além dos shaders pipelines engrossarem o tamanho do R580, também foi por causa do novo controlador de memória já introduzido no R520.

No R580 também tens que somar o facto de suportar o uso simultâneo de AA com HDR, e isso deve custar alguns bons transístores. Não sei que número e nem ninguém sabe, pelo que só podemos andar cá com especulação, mas em todo o caso para a Nvidia não o ter feito já na G71 terá a suas razões.

Mas o Oblivion parece correr bastante bem na X1900XTX com o uso de AA e HDR. Mais para o fim deste ano/início do próximo deverão sair mais títulos que darão o uso de HDR, e no meu ponto de vista acho que esta funcionalidade dá uma nova vida aos gráficos apesar de custar muita performance por enquanto. Penso que o Oblivion já deverá representar o tipo de performance de alguns jogos ques sairão até ao fim do ano/início do próximo.

Até lá, quando o G80 sair espero eu que já suporte o uso de AA+HDR. Depois falaremos dos transístores então que este terá. Ainda não houve nenhuns números deste G80 leaked pois não?

blastarr · 24 de Maio de 2006

Crusher disse:
blastarr,

"Só faz sentido ter eDRAM em arquitecturas monolíticas, cuja API não está sujeita a updates (como uma consola, ou dispositivos móveis)."

Quer dizer... para haver suporte de eDRAM é necessário haver uma API actualizada? Não estou a perceber. O eDRAM não passa de uma maneira de obter mais performance por hardware tal como acontece com o Crossbar Memory Controler introduzida na GeForce3 ou o Ring Bus no R520, entre outros. Neste caso, o eDRAM não passa de memória interna que aproveita a massiva quantidade de largura de banda no interior do chip para teoricamente usar 4xAA de forma a não diminuir a performance.

Acho que o eDRAM pode vir a vingar e acho que será necessário para teoricamente ter 4xAA "free". Já imaginastes o que era fazer toda a vegetação do Oblivion apenas com polígonos e não apenas com texturas alpha? Se assim fosse quem é não queria 4xAA "free" ou mais se necessário.

Basta por exemplo ver como é feita a vegetação no GT4 do 3DMark 2003 é feita... ou o Firefly Forest no 2005/2006.

OT: Postei... lol

Não estás a perceber bem o que é monolítico...

Uma API monolítica diz respeito a hardware que, basicamente, não muda ao longo de toda a vida útil e não ganha nada em programabilidade.
Isto é, tu podes ter a capacidade de programar e a flexibilidade de suportar OpenGL com uma GPU DX9, mas numa consola, ou tens esse suporte desde o início, ou não tens de todo.
Uma consola não tem ciclos de evolução de 6 meses como os PC's.

Um exemplo:
Com uma 7900 GTX ou uma X1900 XTX tu tens mais capacidade de ter AA em modos que não precisem de full-scene SSAA, como o MSAA, etc.
Isto é conseguido com a flexibilidade dos pipelines para ter potência suficiente nesses casos, mas também podem ser usados em jogos que não sofram de AA (o que, à medida que o HDR ganhar precisão de 32bits, vai tornar-se normal).

Numa consola, como aspectos tais como a CPU, quantidade de RAM e GPU não mudam, os transístores da eDRAM não se podem reconfigurar para velocidade e adaptar-se a novas aplicações (aquilo que permite ter perfis de performance específicos jogo-a-jogo para SLI e Crossfire, por exemplo).
Ou seja, ou tens AA, ou não tens nada mais do que um monte de transístores parados.

AA não é para aumentar a qualidade de imagem, é um disfarce da falta de precisão de rendering logo desde o início.
O HDR em precisão de 32bit (que aínda não é usado por ser muito, mas mesmo muito pesado) vai virtualmente eliminar as formas mais comuns de Aliasing.

Crusher disse:
Comparas o número de transístores, shader pipelines e no fim dizes comparação impossível?

O que eu estava a dizer é que, provavelmente, a ATI teria os mesmos resultados de performance se tivesse usado um controlador crossbar normal, e poupasse os transístores extra que o ring-bus exige para outra altura.

Um exemplo foi a Geforce 2 Ultra, que era mais rápida em muitas situações que a Geforce 3 com o, na altura novo, crossbar.
Quando começaram a sair aplicações com shaders, já a Geforce 3 tinha sido ultrapassada pela GF4 e a primeira era considerada lenta demais para ser usável.

Crusher · 24 de Maio de 2006

Nessas tuas últimas linhas estás a querer dizer que quando surgir o HDR a 32bits não vais precissar de usar AA para esconder o "jaggies"? É isso?

Que precisão de cor usam aqueles filmes de animação gerados por computador? FP16 ou FP32?

"O que eu estava a dizer é que, provavelmente, a ATI teria os mesmos resultados de performance se tivesse usado um controlador crossbar normal, e poupasse os transístores extra que o ring-bus exige para outra altura."

Bem basta ver como exemplo nesta review a diferença entre a X1300Pro e a X600XT:

http://beyond3d.com/reviews/ati/rv5xx/index.php?p=15

"The X1300 has between a 30% to 44% performance advantage over the X600, which is again a little over the theoretical differences between them, and well above their bandwidth differences, indicating that the architectural differences are helping out fairly sigificantly."

Claro que não é só o Ring Bus a ajudar aqui. Mas se vires os benchs com o uso de AA o beneficio é maior.

ATi R600

Power Member

Moderador

Power Member

Moderador

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member

Power Member