Gráfica AMD CDNA GPU Architecture: Dedicated GPU for Data Centers

Nemesis11 · 2 de Dezembro de 2022

But with what we announced at we've rolled out with our next-generation instinct that we're already have back in the labs, our MI 300. It is a true Data Center APU. It's a CPU and a GPU acceleration which is leveraging the Infinity architecture to share the same memory fully coherently. It's all sharing a high-bandwidth memory.

https://seekingalpha.com/article/45...s-fargo-6th-annual-2022-tmt-summit-transcript

A MI300 já está no Lab.

Dark Kaeser · 16 de Dezembro de 2022

Já tinha falado disto algures, a Samsung tem vários tipos de PIM.

Samsung Soups Up 96 AMD MI100 GPUs With Radical Computational Memory

Samsung has built the world's first large scale computing system using GPUs with built in processing-in-memory (PIM) chips. These memory modules, which were loaded onto 96 AMD Instinct MI100 GPUs, increased AI training performance by 2.5x, according to a report by Business Korea.

PIM is a new generation of computer memory that can speed up computationally complex workflows handled by processors such as CPUs and GPUs. As the name suggests, each memory module is capable of processing data on its own, reducing the amount of data needed to travel between the memory and the processor.

Samsung originally demonstrated the PIM-modified GPUs in October, but only recently combined 96 PIM-modified GPUs in a cluster. Compared to normal video memory, these modified MI100 chips not only performed 2.5x better, they also cut power consumption by 2.67x, drastically increasing the GPUs' efficiency at running AI algorithms.

Samsung has been developing PIM for some time now. The company demoed several implementations in 2021, involving several different memory types including DDR4, LPDDR5X, GDDR6, and HBM2. In LPDDR5 form, Samsung saw a 1.8x increase in performance with a 42.6% reduction in power consumption and a 70% reduction in latency on a test program involving a Meta AI workload. Even more impressive, these results were from a standard server system with no modifications to the motherboard or CPU (all that changed was a swap to PIM-enabled LPDDR5 DIMMs).

https://www.tomshardware.com/news/samsung-modifies-amd-mi100-accelerator-gpus-with-pim

Dark Kaeser · 5 de Janeiro de 2023

24 zen4 CPU cores (zen4 ou zen 4c?) + xx CDNA3 cores + 128 GB HBM3

https://www.hardwareluxx.de/index.p...-stellt-instinct-mi300-beschleuniger-vor.html

Estava a contar que chip fosse maior

Nemesis11 · 5 de Janeiro de 2023

Dark Kaeser disse:
Estava a contar que chip fosse maior

Isso é porque não estás a ver o Package na "vertical".

- nine 5nm chiplets on top of four 6nm chiplets (3D stacking)

https://twitter.com/i/web/status/1610848210758647808

- CDNA 3 compute architecture
- 24 Zen 4 cores
- 128 GB HBM3
- 146 Billion transistors
- nine 5nm chiplets on top of four 6nm chiplets (3D stacking)
- currently in the labs

Isto sim, é um APU "à homem".

Agora é coloca-lo em algo no formato de um NUC.

Dark Kaeser · 5 de Janeiro de 2023

Não queres dizer que me faltam os óculos 3D :coolshad:

Ainda falta saber o TDP disso, e claro que não use o "vapor chamber cooling" :rolleyes:

Dark Kaeser · 5 de Janeiro de 2023

AMD Instinct MI300 Data Center APU Pictured Up Close: 13 Chiplets, 146 Billion Transistors

https://www.tomshardware.com/news/a...-up-close-15-chiplets-146-billion-transistors

Nemesis11 · 5 de Janeiro de 2023

Small slivers of structural silicon are placed between these HBM stacks to ensure stability when a cooling solution is torqued down atop the package.

The computing portion of the chip consists of nine 5nm chiplets that are either CPU or GPU cores, but AMD hasn't given us details on how many of each are employed. Zen 4 cores are typically deployed as eight-core dies, so we could be looking at three CPU dies and six GPU dies.

Estranho. Na foto parecem ser apenas 4 dies bastante grandes, 8 chips HBM, mais as restantes dies que só estão lá por uma questão mecânica. No entanto, eles dizem que estão 9 dies 5 nm na parte de cima.

Those nine dies are 3D-stacked atop four 6nm base dies that are not merely passive interposers - we're told these dies are active and handle I/O and various other functions. AMD representatives showed us another MI300 sample that had the top dies sanded off with a belt sander to reveal the architecture of the four active interposer dies. There we could clearly see the structures that enable communication not only between the I/O tiles, but also the memory controllers that interface with the HBM3 stacks. We were not allowed to photograph this second sample.

As 4 dies 6 nm inferiores são para IO e outras coisas.

Esta foto também é interessante.

LGA, isto é, usa um socket. Não é soldado.

JPgod · 5 de Janeiro de 2023

Carago isso é uma besta de "APU"

Será amostra do futuro? botar a IO die por baixo e os computer dies por cima?

Nemesis11 · 7 de Janeiro de 2023

JPgod disse:
Será amostra do futuro? botar a IO die por baixo e os computer dies por cima?

É uma amostra do passado.

Com uma produção muito baixa, tiveste exactamente isso (Uma die IO inferior e uma die Compute por cima) no Intel Lakefield, em 2020.

Aliás esse processador "inaugurou" algumas mudanças na Intel. Big-Little, 3D Stacking, etc.
Também tens 3D Stacking nos processadores com VCache da AMD.

Sim, desde que os custos permitam, acho que irá ver mais produtos a usar 3D Stacking.

JPgod · 7 de Janeiro de 2023

Pois, mas ficou por isso mesmo...

eu me refiro nos proximos zen5 e afins, os CCD serem stacked por cima da IoD. vai reduzir ainda mais a latencia, se bem que teria o problema do calor da IoD que não deve ser pouco, ainda mais se usar o IGP

ToTTenTranz · 8 de Janeiro de 2023

Nemesis11 disse:
mais as restantes dies que só estão lá por uma questão mecânica

Não serão IO dies? Os chips HBM são normalmente chamados de memória externa portanto não costumam contar como chiplets.

Nemesis11 · 9 de Janeiro de 2023

JPgod disse:
Pois, mas ficou por isso mesmo...

eu me refiro nos proximos zen5 e afins, os CCD serem stacked por cima da IoD. vai reduzir ainda mais a latencia, se bem que teria o problema do calor da IoD que não deve ser pouco, ainda mais se usar o IGP

Devido aos problemas que levanta, acho que será algo que irá aparecer progressivamente e em alguns segmentos do mercado.
Por exemplo o Vache da AMD, apesar de ser memória e não compute. Numa primeira geração só existiu num SKU e com 1 CCD. Nesta segunda geração, já existem mais SKUs e versões com 2 CCDs, mas ainda só com 1 chip de VCache e outras limitações (Tjmax, etc).

O TDP será um problema. O nextplatform fez umas contas por alto nesta MI300:

Now, let’s talk about that 5X better performance per watt figure Su and others have talked about. The MI250X runs at 560 watts to deliver peak performance, and if you do the math, if the MI300A has 8X the performance and 5X better performance per watt, then that means the MI300A complex will weigh in at 900 watts. That is presumably including that 128 GB of HBM3 memory, which can run pretty hot across eight stacks.

Até para o mercado HPC, 900W num package, vai levantar problemas.

ToTTenTranz disse:
Não serão IO dies? Os chips HBM são normalmente chamados de memória externa portanto não costumam contar como chiplets.

Não me parece que sejam IO dies, porque a informação que quelas dies não têm uso aparecem em mais que um site e também não me parece que contem com os chips HBM, porque HBM não é compute.
Além disso, tanto aquelas dies "mecânicas", como os chips HBM, são 8, o que não bate certo com os valores dados. Os valores dados são de 9 chiplets 5 nm compute, na parte superior e 4 chiplets 6 nm IO, na parte inferior. Se algum daqueles contasse, ficava a restar 1 chiplet, na parte superior, o que nem sequer me parece possível, devido à área ocupada.

Se tivesse que apostar, acho que o nextplatform está perto da verdade.

That sure looks like six GPU chiplets, plus two CPU chiplets, plus an I/O die chiplet on the top, with four underlying chiplets that link two banks of HBM3 memory to the complex at eight different points and to each other. That would mean AMD re-implemented the I/O and memory die in 5 nanometer processes, rather than the 6 nanometer process used in the I/O and memory die in the Genoa Epyc 9004 complex.

Nesta teoria, cada CPU chiplet teria que ter 12 Cores e a AMD ter reinplementado o IO a 5 nm.
Acho que há uma hipótese mais simples. 6 GPU chiplets + 3 CPU chiplets, na parte superior, a 5 nm e o IO estar nas 4 dies inferiores a 6nm. Assim, cada CPU chiplet teria os habituais 8 Cores e não teriam reimplementado o IO a 5nm.

Artigos sobre o MI300:
https://www.nextplatform.com/2023/01/05/amd-teases-details-on-future-mi300-hybrid-compute-engines/
https://semiaccurate.com/2023/01/06/amds-instinct-mi300-is-much-more-than-a-gpu/
https://www.anandtech.com/show/1872...ilicon-in-hand-146b-transistors-shipping-h223

Dark Kaeser · 9 de Janeiro de 2023

Já tinha postado algures que no ano passado os aderente ao OCP tinham aumentado nas especificações o "TDP" do formato OAM v2.0 para os 1000w

https://forum.zwame.pt/threads/intel-arc-discrete-gpus.1003031/page-26#post-17488536

isto a propósito do Rialto Bridge da Intel - o substituto do Ponte Vecchio, o mais certo é que o Falcon Shores da Intel - o equivalente a este SuperAPU (x86 + Xe) deva entrar na mesma equação.

Dark Kaeser · 9 de Janeiro de 2023

@Nemesis11, patente de há coisa de 2 anos atrás

Screenshot-2023-01-09-at-18-21-15-GPU-CHIPLETS-USING-HIGH-BANDWIDTH-CROSSLINKS.png

https://twitter.com/i/web/status/1458868974448431111

Nemesis11 · 11 de Janeiro de 2023

Umas contas por alto. Cada top die (Se a die tiver mesmo aquela área toda) terá 365.62 mm², o que multiplicado pelas 4 que aparecem na foto, dá 1462.48 mm². O interposer terá perto de 3000 mm² ao todo. Grandito.

Tenho duvidas é que toda aquela área sejam dies, porque na foto aparecem 4 e a AMD fala em 9.

O Socket parece que se chama SH5 e terá as mesmas dimensões do Socket SP5(?).

Parece que além da memória HBM integrada no Package, pode ter memória DDR5 externa em DIMMs e por isso, além dos controladores de memória HBM, também terá que ter controladores de memória DDR.
Imagino que os controladores de memória estejam nas IO dies na parte inferior.

https://twitter.com/i/web/status/1611048510949888007

https://twitter.com/i/web/status/1610869292542877701

Nemesis11 · 21 de Fevereiro de 2023

Uns slides interessantes da ISSCC:

Em relação à MI300, o primeiro slide parece confirmar que o CPU e GPU acedem directamente à memória HBM.

Dark Kaeser · 21 de Fevereiro de 2023

Sim, era mais ao menos expectável pelas patentes que já tinham sido submetidas.

As outras imagens interessantes, que apontam o "futuro" é a última imagem com o "co-packaged optics" e outra que já tinha referido algumas vezes a do "PiM" - Processor in Memory, em ambas a importância é a do ganho energético.

No caso do co-packaged optics será para a breve substituir os tradicionais interconnects.

https://twitter.com/i/web/status/1627612385241341952

Relacionado com um tópico que já tinha aberto relacionado com o anúncio da Globalfoundries.

https://forum.zwame.pt/threads/globalfoundries-fotonixtm.1070933/

No caso do PiM a ideia é minimizar a movimentação de dados

https://twitter.com/i/web/status/1627720985104220168

Pode ser aplicada a qualquer tipo de memória, além da HBM, como GDDR ou LPDDR.

https://semiconductor.samsung.com/insights/technology/pim/

Tinha sido apresentado durante o Hot Chips 33 (Agosto 2021) com os Xilinx Alveo U280
https://www.servethehome.com/samsung-hbm2-pim-and-aquabolt-xl-at-hot-chips-33/

Dark Kaeser · 1 de Março de 2023

https://twitter.com/i/web/status/1630793348368703488

Dark Kaeser · 9 de Maio de 2023

The live stream will start at 10 a.m. PT on Tuesday, June 13 at www.amd.com/datacenter as well as the AMD YouTube channel.

https://ir.amd.com/news-events/pres...o-showcase-next-generation-data-center-and-ai

Dark Kaeser · 16 de Maio de 2023

https://twitter.com/i/web/status/1658533195254489097

Gráfica AMD CDNA GPU Architecture: Dedicated GPU for Data Centers

Power Member

Colaborador

Samsung Soups Up 96 AMD MI100 GPUs With Radical Computational Memory​

Colaborador

Power Member

Colaborador

Colaborador

AMD Instinct MI300 Data Center APU Pictured Up Close: 13 Chiplets, 146 Billion Transistors​

Power Member

Moderador

Power Member

Moderador

Power Member

Power Member

Colaborador

Colaborador

Power Member

Power Member

Colaborador

Colaborador

Colaborador

Colaborador

Samsung Soups Up 96 AMD MI100 GPUs With Radical Computational Memory

AMD Instinct MI300 Data Center APU Pictured Up Close: 13 Chiplets, 146 Billion Transistors