Nvidia DGX es una línea de servidores y estaciones de trabajo producidos por NVIDIA que se especializan en el uso de GPGPU para acelerar las aplicaciones de aprendizaje profundo .
Los servidores DGX-1 cuentan con 8 GPU basadas en las tarjetas secundarias Pascal o Volta [1] con memoria HBM 2 , conectadas por una red de malla NVLink . [2]
La línea de productos está destinada a cerrar la brecha entre las GPU y los aceleradores de inteligencia artificial, ya que el dispositivo tiene características específicas que lo especializan para cargas de trabajo de aprendizaje profundo. [3] El DGX-1 basado en Pascal inicial entregó 170 teraflops de procesamiento de precisión media , [4] mientras que la actualización basada en Volta aumentó esto a 960 teraflops . [5]
La sucesora de la Nvidia DGX-1 es la Nvidia DGX-2, que utiliza 16 tarjetas V100 de 32 GB (segunda generación) en una sola unidad. Esto aumenta el rendimiento de hasta 2 Petaflops con 512 GB de memoria compartida para abordar problemas más grandes y utiliza NVSwitch para acelerar la comunicación interna.
Además, hay una versión de mayor rendimiento del DGX-2, el DGX-2H con una diferencia notable siendo el reemplazo del Dual Intel Xeon Platinum 8168 a 2.7 GHz con Dual Intel Xeon Platinum 8174 a 3.1 GHz [6]
Anunciado y lanzado el 14 de mayo, 2020 fue la tercera generación de servidor de DGX, incluyendo 8 amperios -basado A100 aceleradores. [7] También se incluyen 15 TB de almacenamiento NVMe PCIe gen 4 , [8] dos CPU AMD Rome 7742 de 64 núcleos , 1 TB de RAM e interconexión HDR InfiniBand con tecnología Mellanox . El precio inicial del servidor DGX A100 fue de 199.000 dólares. [7]
Comparación de aceleradores utilizados en DGX: [7]
Acelerador |
---|
A100 |
V100 |
P100 |
Arquitectura | Núcleos FP32 CUDA | Impulsar el reloj | Reloj de la memoria | Ancho del bus de memoria | ancho de banda de memoria | VRAM | Precisión simple | Precisión doble | Tensor INT8 | Tensor FP16 | Tensor FP32 | Interconectar | GPU | Tamaño de matriz de GPU | Recuento de transistores | TDP | Proceso de manufactura |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amperio | 6912 | ~ 1410 MHz | 2,4 Gbps HBM2 | 5120 bits | 1,6 TB / seg | 40 GB | 19.5 TFLOP | 9.7 TFLOP | 624 TFLOP | 312 TFLOP | 156 TFLOP | 600 GB / seg | A100 | 826 mm2 | 54,2B | 400W | TSMC 7N |
Volta | 5120 | 1530 MHz | 1,75 Gbps HBM2 | 4096 bits | 900 GB / s | 16 GB / 32 GB | 15.7 TFLOP | 7.8 TFLOP | N / A | 125 TFLOP | N / A | 300 GB / seg | GV100 | 815 mm2 | 21.1B | 300W / 350W | TSMC 12nm FFN |
Pascal | 3584 | 1480 MHz | 1,4 Gbps HBM2 | 4096 bits | 720 GB / seg | 16 GB | 10.6 TFLOP | 5.3 TFLOP | N / A | N / A | N / A | 160 GB / seg | GP100 | 610 mm2 | 15,3 mil millones | 300W | TSMC FinFET de 16 nm |
Arquitectura de malla de cubo híbrido de ocho GPU con NVLink
NVIDIA DGX-1 ofrece un entrenamiento 75 veces más rápido ... Nota: Caffe benchmark con AlexNet, entrenamiento de imágenes de 1,28 millones con 90 épocas