Processador Curiosidades de hardware

Muda o nome Thread "Porn Informática" , agr serio esse video o trabalho que o home teve com o cabo a ler acerca dos pinos que ligar..Um senhor autentico...:P

Cps
 
Aqui ficam mais algumas coisas. :)

A Pixar, no inicio, também criou computadores. Tinham o nome de "Pixar Image Computer". Também como curiosidade, usavam processadores AMD, mas não eram processadores x86:
W7ZIU3v.png


A primeira Placa Gráfica com aceleração 3D, para PCs, 3DLabs GLiNT 300SX. O alvo era o mercado profissional:
8ZbTg9S.jpg


O primeiro Chip da Intel. Intel 3101. A Intel começou como uma empresa de memória. Este 3101 era um chip com uns enormes 8 Bytes de SRAM. :D
QAJT07l.png


Muitas pessoas conhecem o Intel 286, 386 e 486. Muitas delas não sabem que também existiu o 186. Isso acontece porque ele não era virado para o mercado PC Consumidor:
L03K40f.png


O primeiro processador ARM, o ARM1. Ao contrário do que acontece nos dias de hoje, foi criado para ser usado num Personal Computer:
ZvWbnSs.jpg


Um Processador com 8 Cores e 144 MB de Cache L3. Só que não é um AMD Ryzen e foi lançado em 2004. :) IBM Power5 MCM:
pK4He4e.png


O ultimo Alpha. Alpha EV7z @ 1.3 Ghz:
cgBGyNS.png
 
Última edição:
Descobri este tópico e lembrei me deste vídeo do Linus. Supostamente são processadores i9 Extreme Edition, com PVP de 2000$ e comprou 3 por 1000$. Serão verdadeiros? Ou scam?
 
Descobri este tópico e lembrei me deste vídeo do Linus. Supostamente são processadores i9 Extreme Edition, com PVP de 2000$ e comprou 3 por 1000$. Serão verdadeiros? Ou scam?
Um Vídeo com 1.6 milhões de views de alguém a comprar processadores retail antigos a um preço mais baixo no Ebay. Fantástico.
 
Uma das curiosidades que vem de há umas décadas, Vector Engines, em que era algo mais "normal", hoje é algo de nicho e acho que só há mesmo estas.

NEC SX-Aurora Type 20

Screenshot-2021-07-04-Power-Point-slides-nec-pdf.png

Screenshot-2021-07-04-Power-Point-slides-nec-pdf-1.png

Screenshot-2021-07-04-Power-Point-slides-nec-pdf-2.png

http://wscad.sbc.org.br/2020/artigos/palestras/slides-nec.pdf

A NEC diz numa das imagens incluídas no PDF que vendeu ~17k unidades em 2020

Do die só se arranja dos Type 10 (1ª geração)

Aurora-chip.png

300px-nec-ve-type-10-front.jpg


Creio que as variantes se mantêm as mesmas, air cooling activo, passivo e watercooling

NEC-Vector-Engine-Variants.jpg


Artigo recente

U.S. Military Looks to NEC to Salvage (Way) Legacy Codes​

The era of vector supercomputing might sound like ancient history to some but it’s still deeply rooted in major commercial and government institutions.
The U.S. Naval Research Laboratory is among organizations hoping to salvage long-used vector codes on modern systems without high-overhead code refactoring. Specifically, they’ve looked at a deeply legacy computational fluid dynamics (CFD) solver created at the U.S. Air Force research hub, which was written in Fortran and has been added to over the years via Fortran 90 and MPI tweaks.
NEC’s vector history goes all the way back to 1983, just as some of the codes still used today do but they’ve managed to scale compute capability in the NEC Vector Engine in way most modern. Each Vector Engine has 8 total cores for a combined 2.15 teraflops of double-precision performance with all you might expect from other leading processors (six HBM memory modules/48GB, for instance). The secret sauce is in NEC’s scalar processing unit, which takes in all the non-vector instructions on each code while the vectorized C, C++, and Fortran with MPI run on the VE. These units are scalable with each host handling up to 8 VE machines (in the case of the Naval Research Lab these were housed in an HPE Apollo 6500 Gen 10 8 VE system).
https://www.nextplatform.com/2021/06/22/u-s-military-looks-to-nec-to-salvage-way-legacy-codes/
 
Estes processadores têm grande capacidade de cálculo. O "truque" é que eles têm capacidade de realizar a mesma operação em múltiplos dados, em paralelo (SIMD = Single-Instruction on Multiple Data).
Eles são usados, normalmente, em computadores/supercomputadores onde os problemas são enormes, mas onde é possível paralelizar esses cálculos, fazendo com que se tenha o resultado muito mais rapidamente que num processador tradicional.
Pelo tipo de calculo, internamente são bastante parecidos com GPUs "normais" e é por isso que se começou a usar GPUs para outros usos sem ser gráficos. Mesmo no mercado consumidor é possível usar o GPU para calculos fora do tradicional ambito de gráficos. Decoding/Enconding de video (Embora muitas vezes esse processamento seja feito por unidades ainda mais especializadas, no GPU), Rendering, etc.
No mercado PC x86, os processadores tradicionais, também têm unidades/instruções vectoriais desde há muito tempo, para ajudar neste tipo de calculos. MMX, SSE, AVX, existem para acelerar este tipo de calculos.

E já que estamos numa de "pornografia" com Hardware, um dos primeiros computadores vectoriais e um dos mais famosos, a ser criado para este tipo de calculos, foi o Cray 1, em 1975:
cs4xbOj.jpg


zWI6PDl.png


80 Mhz, 8 MB de memória, 300 MB de Storage, 160 MFlops. Pesava 5,5 Toneladas e consumia 115 KW.

E existiram também outros computadores vectoriais fantásticos a nível de aspecto, como os Thinking machines:
1z5Va4L.jpg


OFMEGan.png


co36hph.png


Infelizmente, também foi nesta altura que os Cientistas descobriram o "poder" dos RGBs e o resto é história....... :D


Em relação aqueles processadores da NEC, é uma família que já existe quase há 40 anos. Existem desde 1983:
BTYmdba.jpg


Um ES do NEC SX-ACE de 2013:
H9BvwCc.png


yjiHTcS.png


DeBSg4n.jpg


2 mil milhões de transistores, 570 mm2 de área usando 28 nm. 256 GFLOPs. Máximo de 1 TB de RAM e 256 GB/s de Bandwidth.
 
Última edição:
O Nemesis11 já respondeu, mas isto já estava em andamento, por isso cá vai.

Isto não é bem um processador, é um co-processador ou acelerador, e conceptualmente está próximo do Intel Knights/Phi, tal como aliás os FPGA da Intel e Xilinx.

Ou seja apesar de necessitar de um CPU (Host) e estar desenhado para executar essencialmente as tais Vector instructions, daí o nome, também tem Scalar Engines e executa esse tipo de instruções, que por norma num como CPU + GPU são executadas no CPU Host, sendo as Vector enviadas para cálculo no GPU.

Está aqui mais ou menos resumido

Compare Benefits of CPUs, GPUs, and FPGAs for Different oneAPI Compute Workloads​

https://software.intel.com/content/...cpus-gpus-and-fpgas-for-oneapi.html#gs.51i8qp

Mas depois há as diferenças de pormenor.

A designação "8 core" é que é enganadora, pois só olhando para o que é um "core" se percebe o porquê da eficiência

Isto é o tal chip 8 core

350px-sx-aurora_overview.svg.png


mas isto é um core, com as respectivas unidades de execução

300px-sx-aurora_vector_core_overview.svg.png


o Scalar Processor Unit só executa uma instrução por ciclo, (e ainda enviar a informação dos endereços de memória ao VPU) mas a Vector Processor Unit é constituída por 32 elementos

400px-sx-aurora-vpu.svg.png

Each VPU now has 32 VPPs - all identical.
The VPP is designed such that all three FMAs can execute each cycle – each one can be independently operated by a different vector instruction. Every FMA unit is 64-bit wide and can support narrower packed operation such as 32-bit for double the peak theoretical performance.
The peak theoretical performance that can be achieved is 3 FMAs per VPP per cycle. With 32 VPPs per VPU, there are a total of 96 FMAs/cycle for a total of 192 DP FLOPs/cycle. With a peak frequency of 1.6 GHz for the SX-Aurora Tsubasa vector processor, each VPU has a peak performance of 307.2 gigaFLOPS. Each FMA can perform operations on packed data types. That is, the single-precision floating-point is doubled through the packing of 2 32-bit elements for a peak performance of 614.4 gigaFLOPS.
https://en.wikichip.org/wiki/nec/microarchitectures/sx-aurora


A questão em relação a este VPU vs GPU, apesar da vantagem teórica relativamente ao poder de computação do GPU ser maior, resume-se a alguns tipos de workloads em particular.

Este VPU da NEC tem a vantagem de não precisar de realizar as tradicionais "trocas de dados" entre o CPU e GPU e vice versa, que torna a largura de banda do PCIe num bottleneck do sistema, pois é tudo enviado para o VPU

Screenshot-2021-07-05-28th-WSSP-key-WSSP28-HKobayashi-pdf.png

https://fs.hlrs.de/projects/teraflop/28thWorkshop_talks/WSSP28_HKobayashi.pdf

a outra vantagem, em alguns workloads, é a nível de memória - SKL (Intel Skylake), KNL (Intel Knight Landing)

nec-tsubasa-aurora-stream-linpack-perf.jpg

https://www.nextplatform.com/2017/11/22/deep-dive-necs-aurora-vector-engine/

O artigo é de 2017, a V100 já foi substituída mas o VE também é o VE 1.0 e já há o VE 2.0.

Mas pelo menos 3 destes sistemas estão na lista do Top500, só um tem as recentes Type20 ou seja as VE 2.0

#39 - Earth Simulator - Japan Agency for Marine-Earth Science and Technology - SX-Aurora TSUBASA A401-8, Vector Engine Type20B
https://www.top500.org/system/179927/

#54 - Plasma Simulator - National Institute for Fusion Science - SX-Aurora TSUBASA A412-8, Vector Engine Type10AE
https://www.top500.org/system/179871/

#105 - Deutscher Wetterdienst - SX-Aurora TSUBASA A412-8, Vector Engine Type10AE
https://www.top500.org/system/179928/

há pelo menos a agência meterológica da República Checa que também tem um encomendado.

Mas no fundo isto é apenas um de muitos "sistemas peculiares" que existem e há mais alguns a sair dedicados a AI

- Xilinx Versal
https://www.servethehome.com/xilinx-versal-premium-fpga-overview-at-hot-chips-32/

- Google TPUv3
https://www.servethehome.com/google-tpuv3-discussed-at-hot-chips-32/

- Graphcore C2 IPU
https://www.servethehome.com/hands-on-with-a-graphcore-c2-ipu-pcie-card-at-dell-tech-world/

isto já para não entrar no Cerebras CS-2
https://www.anandtech.com/show/1662...ne-two-wse2-26-trillion-transistors-100-yield
 
Storage nunca é pouca e é sempre melhor em múltiplos de 16 :D:
oTBJE7c.jpg


3j5ruRd.jpg


S15d5X7.jpg


O Computador que foi à lua:
y8Kw7nc.jpg


JV57bCN.jpg


Um Package TCM de um IBM ES/9000:
HJk1HZ6.jpg


fXZ9buu.jpg


Uz8vttT.jpg


Outro Package TCM de um IBM 3090. Este com Water Cooling:
F7FDYaa.jpg


Chip, Substrato, Package, Board:
EJPJ8XD.jpg


Uma placa de rede Token Ring da IBM:
Ksymt1R.jpg


A Motherboard do 1º IBM PC (Onde é que estão os RGBs? :D):
bVZqTnB.jpg


A 1ª FPGA da Xilinx, XC2064:
Z1BB9Sn.jpg
 
E os sistemas exótico começam a ir ganhando forma, pela mão dos National Labs americanos, geralmente associados ao Departamento de Energia ou da Defesa.
O Argonne National Labs acaba de acrecentar mais um dos inúmeros sistemas de AI/ML de startups

Argonne Cuts Through the Noise with SambaNova System​

The lab has a number of systems from AI chip upstarts, including Cerebras (CS-1 system), a Graphcore machine, and a SambaNova appliance. The list will be extended with Groq hardware coming online soon, along with other devices over the course of the next year or two.

One of the goals of Argonne’s stretch across the AI startup ecosystem is to understand where more general purpose GPU-accelerated HPC might be better served by more AI-specific hardware—not to mention how these systems mesh with Argonne’s existing fleet of supercomputers.
Prasanna Balaprakash, computer scientist at Argonne National Lab says that when it comes to “noisy” projects with this surrogate-level role in larger HPC applications, the SambaNova system has performed well with some clear advantages over GPUs in terms of data movement and avoiding context switching.
“SambaNova addresses these two issues via their DataFlow execution mechanism. The data from memory enters into the PMU (memory) and the PCU (compute) units. The convolutions are pooling are mapped onto these and the data flows from convolution to pooling without going back into main memory.”
argonne1.png

“By the time we’ve moved into the second convolution, the other data sample required for the first one can be pipelined and staged and operating at the convolution one layer. That means there’s no data movement from the PMUs to the PCUs to main memory and context switching doesn’t need to happen as much as it would with a GPU.”
Another area of interest for Balaprakash is doing forecasting across very large graphs, which would have to be heavily segmented to fit onto GPU memory.
https://www.nextplatform.com/2021/07/06/argonne-cuts-through-the-noise-with-sambanova-system/

A base de tudo

Screenshot-2021-07-09-ATPESC-2020-Track-1-Talk-6-Asberger-Accelerating-Software-pdf.png

Screenshot-2021-07-09-ATPESC-2020-Track-1-Talk-6-Asberger-Accelerating-Software-pdf-1.png

Screenshot-2021-07-09-ATPESC-2020-Track-1-Talk-6-Asberger-Accelerating-Software-pdf-2.png

Screenshot-2021-07-09-ATPESC-2020-Track-1-Talk-6-Asberger-Accelerating-Software-pdf-3.png

Screenshot-2021-07-09-ATPESC-2020-Track-1-Talk-6-Asberger-Accelerating-Software-pdf-4.png

https://press3.mcs.anl.gov//atpesc/...k-1-Talk-6-Asberger-Accelerating-Software.pdf

Para quem se quiser entreter
This material is based on research sponsored by Air Force Research laboratory (AFRL) and the Defense AdvancedResearch Agency (DARPA) under agreement number FA8650-18-2-7865.
ABSTRACT
We have developed hardware and software for a universal data analytics accelerator called Plasticine. Plasticine hardware is basedon the novel concept of a reconfigurable dataflow architecture (RDA) which has both reconfigurable memories and reconfigurablecompute. RDAs provide high energy efficiency without sacrificing programmability. We have fabricated a 7nm chip implementationof Plasticine I that provides significant performance and energy improvements compared to GPUs and FPGAs. Architecture studiesfor Plasticine II include support for dynamic on-chip networks, sparse-matrix computations and graph analytics. Plasticine softwareincludes high-level and low-level compilers for converting TensorFlow machine learning applications into optimized configurationsfor Plasticine.
https://apps.dtic.mil/sti/pdfs/AD1092828.pdf

A Anandtech em Abril tinha feito um apanhado das startups e dos financiamentos que as mesmas tinham conseguido
AIPure-Play.png
 
Se alguém precisar de leitura para a praia

The Graphics Chip Chronicles​

Jon Peddie has put together short overviews of graphics chips that have made a major impact over the years. It is a fun look back at how we got to where GPGPUs are the norm.
https://www.electronicdesign.com/graphics-chip-chronicles
 
Bom por acaso até sei, foi um post do Andreas Schilling, da Hardwareluxx

A despropósito de uma notícia acerca de um CPU multicore RISC-V que a Russia estará a desenvolver, fiquei a saber que ainda produzem os Elbrus

photo3.jpg

photo1.jpg

It supports eight channels of DDR4-3200 ECC RAM and 32 PCIe 3.0 lanes along with four SATA III channels. It’s networking capabilities include 10 Gbit and 2.5 Gbit Ethernet controllers. The processor is based on a 16nm process node and is the first chip in the Elbrus family with support for virtualization and a peak operating frequency of 2GHz.

The Elbrus-16S packs a decent 12 billion transistors, with a rated performance of 1.5 TFLOPs FP32 and 750 GFLOPs FP64. The chip is designed for multi-socket systems with up to four nodes and memory support of up to 16TB.
https://www.hardwaretimes.com/meet-...pu-2ghz-designed-in-russia-on-a-16nm-process/

Supostamente existe uma versão 32 core em desenvolvimento, DDR5, PCIe 5, e possivelmente @16nm TSMC.

É um processador estranho na medida em que a sua ISA é proprietária e assemelhasse a VLIW-4,

el1.jpg

layout do Elbrus 8C
 

NEC SX-Aurora TSUBASA Vector Supercomputer Sets Record in Processing Performance in STAC-A2 Benchmarks​

STAC-A2 Benchmark tests, which measure the computational performance of Monte Carlo-based risk simulations common in financial markets. An independent audit conducted in April 2021 by the Securities Technology Analysis Center (STAC) showed that in cold runs of a workload that calculates options Greeks for a large problem size, this solution had the fastest time of any system STAC has publicly reported to date.
https://www.hpcwire.com/off-the-wir...processing-performance-in-stac-a2-benchmarks/
 
Não sei se isto conta. É um Datacenter em cima de uma KAMAZ. :D

QYPO025.png


Bq7Z0nh.png


Infelizmente, o vídeo está em russo. :)


Aqui fica também fotos/vídeo interessantes de ferrugem giratória. :D

3,75 MB em 52 pratos de 24 polegadas, em 1956:
NlmeM3X.png


1 GB em 1981:
fOGahVN.jpg


Teradown de um parecido, de 1989, que deverá ter entre 1 a 10 GB (O video fala em MB, mas será na ordem dos GB):

20 MB num disco de 8 Polegadas:
lFBt0BK.png


110 MB num disco 5.25 Polegadas:
5HPp97n.png


Foto de familia. 8, 5.25, 3.5, 2.5, 1.8 e 1 Polegadas:
oT90oO3.png
 
Back
Topo