[SC17] Nvidia gaat SaturnV supercomputer uitbreiden met vijfduizend V100-GPU's

Door


Vanmiddag stipten we het al even kort aan bij de bekendmaking van de Top500 lijst: Nvidia heeft zijn tweede eigen supercomputer gebouwd. De variant die in de lijst verschenen was echter nog niet af, met 36 DGX-1 nodes wist het bedrijf plaats 149 te bereiken. Daar waren slechts 288 Tesla V100 GPU's voor nodig. CEO Jen-Hsun Huang heeft echter in een presentatie verteld dat de computer veel groter moet worden: 660 nodes met 5280 GPU's.

De DGX SaturnV Volta haalt met de 36 DGX-1-nodes nu iets meer dan duizend TFLOPS in de Linpack-benchmark. Met de uitbreiding naar de volledige 660 nodes wordt de supercomputer ruim 18 maal zo krachtig en zou bij lineaire schaling bijna 20 miljoen TFLOPS moeten kunnen halen. Daarmee zou het plek drie van de Top500 lijst kunnen veroveren.

Linpack test echter FP32-performance, waar de SaturnV Volta echt in uitblinkt is deep learning. Dankzij de Tensor-cores in de Tesla V100-GPU's kunnen ondersteunde frameworks 125 TFLOPS per GPU halen. Met 8 GPU's per node en 660 nodes resulteert dat in 660 PFLOPS aan theoretische FP16-rekenkracht. Op dit moment is er geen supercomputer zo krachtig in deep learning.

Als je de andere getallen bij elkaar optelt zijn deze ook indrukwekkend: 26400 Intel Xeon-cores, 338 TB DDR4-werkgeheugen en 5,07 petabyte aan NVMe SSD-opslag. De GPU bevat 27 miljoen Tensor-cores, 216 miljoen CUDA-kernen en 84 terabyte HBM2-geheugen. Als Nvidia de supercomputer van zichzelf had moeten kopen had dat ongeveer 100 miljoen dollar gekost.

  DGX-1 Volta DGX SaturnV Volta*
GPUs 8x Tesla V100 5280x Tesla V100
CUDA cores 40960 216 miljoen
Tensor Cores 5120 27 miljoen
HBM2-geheugen 128 GB 84 TB
CPU Dual 20-core Xeon
(40 cores)
1320 20-core Xeon
(26400 cores)
Geheugen 512 GB DDR4 338 TB DDR4
Opslag 4X 1.92 TB SSD
(7,68 TB)
2640X 1.92 TB SSD
(5,07 PB)
TDP 3200 watt 2 megawatt
FP64 (double-precision) 62 TFLOPS 40 PFLOPS
FP32 (single-precision) 125 TFLOPS 80 PFLOPS
FP16 (half-precision) 250 TFLOPS 160 PFLOPS
FP16 (tensor) 1000 TFLOPS 660 PFLOPS

*berekend op 660 DGX-1 nodes


Vandaag in het nieuws

Hardware.Info maakt gebruik van cookies.
*