Ampere es el nombre en clave de una microarquitectura de unidad de procesamiento de gráficos (GPU) desarrollada por Nvidia como sucesora de las arquitecturas Volta y Turing , anunciada oficialmente el 14 de mayo de 2020. Lleva el nombre del matemático y físico francés André-Marie Ampère . [1] [2] Nvidia anunció las GPU de consumo de la serie GeForce 30 de próxima generación en un evento especial de GeForce el 1 de septiembre de 2020. [3] [4] Nvidia anunció la GPU A100 de 80 GB en SC20 el 16 de noviembre de 2020. [5] Las tarjetas gráficas RTX móviles y la RTX 3060 se revelaron el 12 de enero de 2021. [6] Nvidia también anunció los sucesores de Ampere, tentativamente con el nombre en código "Ampere Next" para un lanzamiento de 2022 y "Ampere Next Next" para un lanzamiento de 2024 en la GPU Technology Conference 2021.
Fecha de lanzamiento | 14 de mayo de 2020 |
---|---|
Proceso de fabricación | |
Historia | |
Predecesor | |
Sucesor |
|
Detalles
Las mejoras arquitectónicas de la arquitectura Ampere incluyen lo siguiente:
- Capacidad de cómputo CUDA 8.0 para A100 y 8.6 para la serie GeForce 30 [7]
- TSMC 's 7 nm FinFET proceso para A100
- Versión personalizada de Samsung 's 8nm proceso (8N) para la serie GeForce 30 [8]
- Tensor Cores de tercera generación con FP16, bfloat16, TensorFloat-32 (TF32) y compatibilidad con FP64 y aceleración de la dispersión [9]
- Núcleos de trazado de rayos de segunda generación; trazado de rayos, sombreado y cálculo simultáneos para la serie GeForce 30
- Memoria de alto ancho de banda 2 (HBM2) en A100 de 40 GB y A100 de 80 GB
- Memoria GDDR6X para GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti
- Doble núcleo FP32 por SM en GPU GA10x
- NVLink 3.0 con un rendimiento de 50 Gbit / s por par [9]
- PCI Express 4.0 con soporte SR-IOV (SR-IOV está reservado solo para A100)
- Virtualización de GPU de instancias múltiples (MIG) y función de partición de GPU en A100 que admite hasta siete instancias
- Conjunto de funciones de PureVideo Decodificación de video por hardware K con decodificación de hardware AV1 [10] para la serie GeForce 30 y conjunto de características J para A100
- 5 NVDEC para A100
- Agrega una nueva decodificación JPEG de 5 núcleos basada en hardware ( NVJPG ) con YUV420, YUV422, YUV444, YUV400, RGBA. No debe confundirse con Nvidia NVJPEG ( biblioteca acelerada por GPU para codificación / decodificación JPEG)
Papas fritas
- GA100
- GA102
- GA104
- GA106
- GA107
Comparación de la capacidad informática: GP100 frente a GV100 frente a GA100 [11]
Funciones de la GPU | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 |
---|---|---|---|
Nombre en clave de GPU | GP100 | GV100 | GA100 |
Arquitectura de GPU | NVIDIA Pascal | NVIDIA Volta | Amperio de NVIDIA |
Capacidad de cómputo | 6.0 | 7.0 | 8.0 |
Hilos / Urdimbre | 32 | 32 | 32 |
Max Warps / SM | 64 | 64 | 64 |
Hilos máximos / SM | 2048 | 2048 | 2048 |
Bloques de rosca máx. / SM | 32 | 32 | 32 |
Registros máx. De 32 bits / SM | 65536 | 65536 | 65536 |
Max registros / bloque | 65536 | 65536 | 65536 |
Max registros / hilo | 255 | 255 | 255 |
Tamaño máximo del bloque de hilo | 1024 | 1024 | 1024 |
Núcleos FP32 / SM | 64 | 64 | 64 |
Relación de registros SM a núcleos FP32 | 1024 | 1024 | 1024 |
Tamaño de memoria compartida / SM | 64 KB | Configurable hasta 96 KB | Configurable hasta 164 KB |
Comparación de la matriz de soporte de precisión [12] [13]
Precisiones de núcleo CUDA compatibles | Precisiones de núcleo de tensor compatibles | |||||||||||||||
FP16 | FP32 | FP64 | INT1 (binario) | INT4 | INT8 | TF32 | bfloat16 (BF16) | FP16 | FP32 | FP64 | INT1 (binario) | INT4 | INT8 | TF32 | bfloat16 (BF16) | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
NVIDIA Tesla P4 | No | sí | sí | No | No | sí | No | No | No | No | No | No | No | No | No | No |
NVIDIA P100 | sí | sí | sí | No | No | No | No | No | No | No | No | No | No | No | No | No |
NVIDIA Volta | sí | sí | sí | No | No | sí | No | No | sí | No | No | No | No | No | No | No |
NVIDIA Turing | sí | sí | sí | No | No | sí | No | No | sí | No | No | sí | sí | sí | No | No |
NVIDIA A100 | sí | sí | sí | No | No | sí | No | sí | sí | No | sí | sí | sí | sí | sí | sí |
Comparación del rendimiento de decodificación
Streams concurrentes | Decodificación H.264 (1080p30) | Decodificación H.265 (HEVC) (1080p30) | Decodificación VP9 (1080p30) |
---|---|---|---|
V100 | dieciséis | 22 | 22 |
A100 | 75 | 157 | 108 |
Acelerador A100 y DGX A100
Anunciado y lanzado el 14 de mayo de 2020 fue el acelerador A100 basado en Ampere. [9] El A100 cuenta con 19,5 teraflops de rendimiento FP32, 6912 núcleos CUDA, 40 GB de memoria gráfica y 1,6 TB / s de ancho de banda de memoria gráfica. [14] Inicialmente, el acelerador A100 solo estaba disponible en la tercera generación del servidor DGX , incluidos 8 A100. [9] También se incluyen en el DGX A100 15 TB de almacenamiento NVMe PCIe gen 4 , [14] dos CPU AMD Rome 7742 de 64 núcleos , 1 TB de RAM e interconexión HDR InfiniBand con tecnología Mellanox . El precio inicial del DGX A100 fue de 199.000 dólares. [9]
Comparación de aceleradores utilizados en DGX: [9] [15]
Acelerador |
---|
A100 de 80 GB |
A100 |
V100 |
P100 |
Arquitectura | Núcleos FP32 CUDA | Núcleos FP64 (sin tensor) | Núcleos INT32 | Impulsar el reloj | Reloj de la memoria | Ancho del bus de memoria | ancho de banda de memoria | VRAM | Precisión simple | Precisión doble (FP64) | INT8 (sin tensor) | Tensor INT8 | INT32 | FP16 | Tensor FP16 | bfloat16 Tensor | TensorFloat-32 (TF32) Tensor | Tensor FP64 | Interconectar | GPU | Tamaño de caché L1 | Tamaño de caché L2 | Tamaño de matriz de GPU | Recuento de transistores | TDP | Proceso de manufactura |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amperio | 6912 | 3456 | 6912 | 1410 MHz | HBM2 de 3,2 Gbit / s | 5120 bits | 2039 GB / s | 80 GB | 19.5 TFLOP | 9.7 TFLOP | N / A | 624 TOP | 19.5 TOP | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19.5 TFLOP | 600 GB / seg | GA100 | 20736 KB (192 KB x 108) | 40960 KB | 826 mm2 | 54,2B | 400W | TSMC 7 nm N7 |
Amperio | 6912 | 3456 | 6912 | 1410 MHz | HBM2 de 2,4 Gbit / s | 5120 bits | 1555GB / seg | 40 GB | 19.5 TFLOP | 9.7 TFLOP | N / A | 624 TOP | 19.5 TOP | 78 TFLOP | 312 TFLOP | 312 TFLOP | 156 TFLOP | 19.5 TFLOP | 600 GB / seg | GA100 | 20736 KB (192 KB x 108) | 40960 KB | 826 mm2 | 54,2B | 400W | TSMC 7 nm N7 |
Volta | 5120 | 2560 | 5120 | 1530 MHz | 1,75 Gbit / s HBM2 | 4096 bits | 900 GB / s | 16 GB / 32 GB | 15.7 TFLOP | 7.8 TFLOP | 62 TOP | N / A | 15.7 TOP | 31.4 TFLOP | 125 TFLOP | N / A | N / A | N / A | 300 GB / s | GV100 | 10240 KB (128 KB x 80) | 6144 KB | 815 mm2 | 21.1B | 300W / 350W | TSMC 12 nm FFN |
Pascal | 3584 | 1792 | N / A | 1480 MHz | 1,4 Gbit / s HBM2 | 4096 bits | 720 GB / seg | 16 GB | 10.6 TFLOP | 5.3 TFLOP | N / A | N / A | N / A | 21.2 TFLOP | N / A | N / A | N / A | N / A | 160 GB / s | GP100 | 1344 KB (24 KB x 56) | 4096 KB | 610 mm2 | 15,3 mil millones | 300W | TSMC FinFET + de 16 nm |
Productos que utilizan Ampere
- Serie GeForce 30
- GeForce RTX 3050 (GA107)
- GeForce RTX 3050 Ti (GA107)
- GeForce RTX 3060 (GA106)
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3070 Ti (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3080 Ti (GA102)
- GeForce RTX 3090 (GA102)
- GPU de estación de trabajo Nvidia (anteriormente Quadro)
- RTX A2000 (móvil) (GA10?)
- RTX A3000 (móvil) (GA104)
- RTX A4000 (móvil) (GA104)
- RTX A5000 (móvil) (GA104)
- RTX A4000 (GA104)
- RTX A5000 (GA102)
- RTX A6000 (GA102)
- GPU de centro de datos de Nvidia (anteriormente Tesla)
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 de 80 GB (GA100)
Ver también
- Lista de unidades de procesamiento de gráficos Nvidia
- Nvidia NVENC
- Nvidia NVDEC
Referencias
- ^ Sala de redacción, NVIDIA. "Nueva GPU Ampere Data Center de NVIDIA en plena producción" . Sala de prensa de NVIDIA Sala de prensa .
- ^ "Arquitectura de NVIDIA Ampere en profundidad" . Blog para desarrolladores de NVIDIA . 14 de mayo de 2020.
- ^ Sala de redacción, NVIDIA. "NVIDIA ofrece el mayor salto generacional con las GPU de la serie GeForce RTX 30" . Sala de prensa de NVIDIA Sala de prensa .
- ^ "Cuenta atrás de NVIDIA GeForce Ultimate" . NVIDIA .
- ^ https://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing
- ^ https://www.nvidia.com/en-us/geforce/special-event/
- ^ "I.7. Capacidad de cálculo 8.x" . docs.nvidia.com . Consultado el 23 de septiembre de 2020 .
- ^ B., Dominik. "La vieja tecnología de 8nm de Samsung en el corazón de las monstruosas tarjetas Ampere de NVIDIA" . SamMobile . Consultado el 19 de septiembre de 2020 .
- ^ a b c d e f Smith, Ryan (14 de mayo de 2020). "NVIDIA Ampere Unleashed: NVIDIA anuncia nueva arquitectura de GPU, GPU A100 y acelerador" . AnandTech.
- ^ "GPU de la serie GeForce RTX 30: introduciendo una nueva era de contenido de vídeo con decodificación AV1" . NVIDIA .
- ^ "Arquitectura de GPU NVIDIA A100 Tensor Core" (PDF) . www.nvidia.com . Consultado el 18 de septiembre de 2020 .
- ^ "NVIDIA Tensor Cores: Versatilidad para HPC y AI" . NVIDIA .
- ^ "Resumen" . docs.nvidia.com .
- ^ a b Tom Warren; James Vincent (14 de mayo de 2020). "La primera GPU Ampere de Nvidia está diseñada para centros de datos e inteligencia artificial, no para su PC" . The Verge.
- ^ "NVIDIA Tesla V100 probado: casi increíble potencia de GPU" . TweakTown . 17 de septiembre de 2017.
enlaces externos
- Informe técnico de la arquitectura de GPU NVIDIA A100 Tensor Core
- Informe técnico de la arquitectura de la GPU Nvidia Ampere GA102
- Arquitectura de Nvidia Ampere
- GPU Nvidia A100 Tensor Core
- Arquitectura NVIDIA Ampere en profundidad