Ampere (microarquitectura)

Ampere es el nombre en clave de una microarquitectura de unidad de procesamiento de gráficos (GPU) desarrollada por Nvidia como sucesora de las arquitecturas Volta y Turing , anunciada oficialmente el 14 de mayo de 2020. Lleva el nombre del matemático y físico francés André-Marie Ampère . ^[1]^[2] Nvidia anunció las GPU de consumo de la serie GeForce 30 de próxima generación en un evento especial de GeForce el 1 de septiembre de 2020. ^[3]^[4] Nvidia anunció la GPU A100 de 80 GB en SC20 el 16 de noviembre de 2020. ^[5] Las tarjetas gráficas RTX móviles y la RTX 3060 se revelaron el 12 de enero de 2021. ^[6] Nvidia también anunció los sucesores de Ampere, tentativamente con el nombre en código "Ampere Next" para un lanzamiento de 2022 y "Ampere Next Next" para un lanzamiento de 2024 en la GPU Technology Conference 2021.

Nvidia Ampere
Historia
Fecha de lanzamiento	14 de mayo de 2020 ( 14 de mayo de 2020 )
Proceso de fabricación	TSMC 7 nm (profesional) Samsung 8 nm (consumidor)
Predecesor	Turing (consumidor) Volta (profesional)
Sucesor	Lovelace (consumidor) Hopper (profesional)

Detalles

Las mejoras arquitectónicas de la arquitectura Ampere incluyen lo siguiente:

Capacidad de cómputo CUDA 8.0 para A100 y 8.6 para la serie GeForce 30 ^[7]
TSMC 's 7 nm FinFET proceso para A100
Versión personalizada de Samsung 's 8nm proceso (8N) para la serie GeForce 30 ^[8]
Tensor Cores de tercera generación con FP16, bfloat16, TensorFloat-32 (TF32) y compatibilidad con FP64 y aceleración de la dispersión ^[9]
Núcleos de trazado de rayos de segunda generación; trazado de rayos, sombreado y cálculo simultáneos para la serie GeForce 30
Memoria de alto ancho de banda 2 (HBM2) en A100 de 40 GB y A100 de 80 GB
Memoria GDDR6X para GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti
Doble núcleo FP32 por SM en GPU GA10x
NVLink 3.0 con un rendimiento de 50 Gbit / s por par ^[9]
PCI Express 4.0 con soporte SR-IOV (SR-IOV está reservado solo para A100)
Virtualización de GPU de instancias múltiples (MIG) y función de partición de GPU en A100 que admite hasta siete instancias
Conjunto de funciones de PureVideo Decodificación de video por hardware K con decodificación de hardware AV1 ^[10] para la serie GeForce 30 y conjunto de características J para A100
5 NVDEC para A100
Agrega una nueva decodificación JPEG de 5 núcleos basada en hardware ( NVJPG ) con YUV420, YUV422, YUV444, YUV400, RGBA. No debe confundirse con Nvidia NVJPEG ( biblioteca acelerada por GPU para codificación / decodificación JPEG)

Papas fritas

GA100
GA102
GA104
GA106
GA107

Comparación de la capacidad informática: GP100 frente a GV100 frente a GA100 ^[11]

Funciones de la GPU	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA A100
Nombre en clave de GPU	GP100	GV100	GA100
Arquitectura de GPU	NVIDIA Pascal	NVIDIA Volta	Amperio de NVIDIA
Capacidad de cómputo	6.0	7.0	8.0
Hilos / Urdimbre	32	32	32
Max Warps / SM	64	64	64
Hilos máximos / SM	2048	2048	2048
Bloques de rosca máx. / SM	32	32	32
Registros máx. De 32 bits / SM	65536	65536	65536
Max registros / bloque	65536	65536	65536
Max registros / hilo	255	255	255
Tamaño máximo del bloque de hilo	1024	1024	1024
Núcleos FP32 / SM	64	64	64
Relación de registros SM a núcleos FP32	1024	1024	1024
Tamaño de memoria compartida / SM	64 KB	Configurable hasta 96 KB	Configurable hasta 164 KB

Comparación de la matriz de soporte de precisión ^[12]^[13]

	FP16	FP32	FP64	INT1 (binario)	INT4	INT8	TF32	bfloat16 (BF16)	FP16	FP32	FP64	INT1 (binario)	INT4	INT8	TF32	bfloat16 (BF16)
	Precisiones de núcleo CUDA compatibles								Precisiones de núcleo de tensor compatibles
NVIDIA Tesla P4	No	sí	sí	No	No	sí	No	No	No	No	No	No	No	No	No	No
NVIDIA P100	sí	sí	sí	No	No	No	No	No	No	No	No	No	No	No	No	No
NVIDIA Volta	sí	sí	sí	No	No	sí	No	No	sí	No	No	No	No	No	No	No
NVIDIA Turing	sí	sí	sí	No	No	sí	No	No	sí	No	No	sí	sí	sí	No	No
NVIDIA A100	sí	sí	sí	No	No	sí	No	sí	sí	No	sí	sí	sí	sí	sí	sí

Comparación del rendimiento de decodificación

Streams concurrentes	Decodificación H.264 (1080p30)	Decodificación H.265 (HEVC) (1080p30)	Decodificación VP9 (1080p30)
V100	dieciséis	22	22
A100	75	157	108

Acelerador A100 y DGX A100

Anunciado y lanzado el 14 de mayo de 2020 fue el acelerador A100 basado en Ampere. ^[9] El A100 cuenta con 19,5 teraflops de rendimiento FP32, 6912 núcleos CUDA, 40 GB de memoria gráfica y 1,6 TB / s de ancho de banda de memoria gráfica. ^[14] Inicialmente, el acelerador A100 solo estaba disponible en la tercera generación del servidor DGX , incluidos 8 A100. ^[9] También se incluyen en el DGX A100 15 TB de almacenamiento NVMe PCIe gen 4 , ^[14] dos CPU AMD Rome 7742 de 64 núcleos , 1 TB de RAM e interconexión HDR InfiniBand con tecnología Mellanox . El precio inicial del DGX A100 fue de 199.000 dólares. ^[9]

Comparación de aceleradores utilizados en DGX: ^[9]^[15]

Acelerador
A100 de 80 GB
A100
V100
P100

Arquitectura	Núcleos FP32 CUDA	Núcleos FP64 (sin tensor)	Núcleos INT32	Impulsar el reloj	Reloj de la memoria	Ancho del bus de memoria	ancho de banda de memoria	VRAM	Precisión simple	Precisión doble (FP64)	INT8 (sin tensor)	Tensor INT8	INT32	FP16	Tensor FP16	bfloat16 Tensor	TensorFloat-32 (TF32) Tensor	Tensor FP64	Interconectar	GPU	Tamaño de caché L1	Tamaño de caché L2	Tamaño de matriz de GPU	Recuento de transistores	TDP	Proceso de manufactura
Amperio	6912	3456	6912	1410 MHz	HBM2 de 3,2 Gbit / s	5120 bits	2039 GB / s	80 GB	19.5 TFLOP	9.7 TFLOP	N / A	624 TOP	19.5 TOP	78 TFLOP	312 TFLOP	312 TFLOP	156 TFLOP	19.5 TFLOP	600 GB / seg	GA100	20736 KB (192 KB x 108)	40960 KB	826 mm2	54,2B	400W	TSMC 7 nm N7
Amperio	6912	3456	6912	1410 MHz	HBM2 de 2,4 Gbit / s	5120 bits	1555GB / seg	40 GB	19.5 TFLOP	9.7 TFLOP	N / A	624 TOP	19.5 TOP	78 TFLOP	312 TFLOP	312 TFLOP	156 TFLOP	19.5 TFLOP	600 GB / seg	GA100	20736 KB (192 KB x 108)	40960 KB	826 mm2	54,2B	400W	TSMC 7 nm N7
Volta	5120	2560	5120	1530 MHz	1,75 Gbit / s HBM2	4096 bits	900 GB / s	16 GB / 32 GB	15.7 TFLOP	7.8 TFLOP	62 TOP	N / A	15.7 TOP	31.4 TFLOP	125 TFLOP	N / A	N / A	N / A	300 GB / s	GV100	10240 KB (128 KB x 80)	6144 KB	815 mm2	21.1B	300W / 350W	TSMC 12 nm FFN
Pascal	3584	1792	N / A	1480 MHz	1,4 Gbit / s HBM2	4096 bits	720 GB / seg	16 GB	10.6 TFLOP	5.3 TFLOP	N / A	N / A	N / A	21.2 TFLOP	N / A	N / A	N / A	N / A	160 GB / s	GP100	1344 KB (24 KB x 56)	4096 KB	610 mm2	15,3 mil millones	300W	TSMC FinFET + de 16 nm

Productos que utilizan Ampere

Serie GeForce 30
- GeForce RTX 3050 (GA107)
- GeForce RTX 3050 Ti (GA107)
- GeForce RTX 3060 (GA106)
- GeForce RTX 3060 Ti (GA104)
- GeForce RTX 3070 (GA104)
- GeForce RTX 3070 Ti (GA104)
- GeForce RTX 3080 (GA102)
- GeForce RTX 3080 Ti (GA102)
- GeForce RTX 3090 (GA102)
GPU de estación de trabajo Nvidia (anteriormente Quadro)
- RTX A2000 (móvil) (GA10?)
- RTX A3000 (móvil) (GA104)
- RTX A4000 (móvil) (GA104)
- RTX A5000 (móvil) (GA104)
- RTX A4000 (GA104)
- RTX A5000 (GA102)
- RTX A6000 (GA102)
GPU de centro de datos de Nvidia (anteriormente Tesla)
- Nvidia A10 (GA102)
- Nvidia A16 (4 × GA107)
- Nvidia A30 (GA100)
- Nvidia A40 (GA102)
- Nvidia A100 (GA100)
- Nvidia A100 de 80 GB (GA100)

Ver también

Lista de unidades de procesamiento de gráficos Nvidia
Nvidia NVENC
Nvidia NVDEC

Referencias

^ Sala de redacción, NVIDIA. "Nueva GPU Ampere Data Center de NVIDIA en plena producción" . Sala de prensa de NVIDIA Sala de prensa .
^ "Arquitectura de NVIDIA Ampere en profundidad" . Blog para desarrolladores de NVIDIA . 14 de mayo de 2020.
^ Sala de redacción, NVIDIA. "NVIDIA ofrece el mayor salto generacional con las GPU de la serie GeForce RTX 30" . Sala de prensa de NVIDIA Sala de prensa .
^ "Cuenta atrás de NVIDIA GeForce Ultimate" . NVIDIA .
^ https://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing
^ https://www.nvidia.com/en-us/geforce/special-event/
^ "I.7. Capacidad de cálculo 8.x" . docs.nvidia.com . Consultado el 23 de septiembre de 2020 .
^ B., Dominik. "La vieja tecnología de 8nm de Samsung en el corazón de las monstruosas tarjetas Ampere de NVIDIA" . SamMobile . Consultado el 19 de septiembre de 2020 .
^ a b c d e f Smith, Ryan (14 de mayo de 2020). "NVIDIA Ampere Unleashed: NVIDIA anuncia nueva arquitectura de GPU, GPU A100 y acelerador" . AnandTech.
^ "GPU de la serie GeForce RTX 30: introduciendo una nueva era de contenido de vídeo con decodificación AV1" . NVIDIA .
^ "Arquitectura de GPU NVIDIA A100 Tensor Core" (PDF) . www.nvidia.com . Consultado el 18 de septiembre de 2020 .
^ "NVIDIA Tensor Cores: Versatilidad para HPC y AI" . NVIDIA .
^ "Resumen" . docs.nvidia.com .
^ a b Tom Warren; James Vincent (14 de mayo de 2020). "La primera GPU Ampere de Nvidia está diseñada para centros de datos e inteligencia artificial, no para su PC" . The Verge.
^ "NVIDIA Tesla V100 probado: casi increíble potencia de GPU" . TweakTown . 17 de septiembre de 2017.

enlaces externos

Informe técnico de la arquitectura de GPU NVIDIA A100 Tensor Core
Informe técnico de la arquitectura de la GPU Nvidia Ampere GA102
Arquitectura de Nvidia Ampere
GPU Nvidia A100 Tensor Core
Arquitectura NVIDIA Ampere en profundidad

[1] Sala de redacción, NVIDIA. "Nueva GPU Ampere Data Center de NVIDIA en plena producción" . Sala de prensa de NVIDIA Sala de prensa .

[2] "Arquitectura de NVIDIA Ampere en profundidad" . Blog para desarrolladores de NVIDIA . 14 de mayo de 2020.

[3] Sala de redacción, NVIDIA. "NVIDIA ofrece el mayor salto generacional con las GPU de la serie GeForce RTX 30" . Sala de prensa de NVIDIA Sala de prensa .

[4] "Cuenta atrás de NVIDIA GeForce Ultimate" . NVIDIA .

[5] ttps://nvidianews.nvidia.com/news/nvidia-doubles-down-announces-a100-80gb-gpu-supercharging-worlds-most-powerful-gpu-for-ai-supercomputing

[6] ttps://www.nvidia.com/en-us/geforce/special-event/

[7] "I.7. Capacidad de cálculo 8.x" . docs.nvidia.com . Consultado el 23 de septiembre de 2020 .

[8] B., Dominik. "La vieja tecnología de 8nm de Samsung en el corazón de las monstruosas tarjetas Ampere de NVIDIA" . SamMobile . Consultado el 19 de septiembre de 2020 .

[anand-A100-9] Smith, Ryan (14 de mayo de 2020). "NVIDIA Ampere Unleashed: NVIDIA anuncia nueva arquitectura de GPU, GPU A100 y acelerador" . AnandTech.

[10] "GPU de la serie GeForce RTX 30: introduciendo una nueva era de contenido de vídeo con decodificación AV1" . NVIDIA .

[11] "Arquitectura de GPU NVIDIA A100 Tensor Core" (PDF) . www.nvidia.com . Consultado el 18 de septiembre de 2020 .

[12] "NVIDIA Tensor Cores: Versatilidad para HPC y AI" . NVIDIA .

[13] "Resumen" . docs.nvidia.com .

[verge-A100-14] Tom Warren; James Vincent (14 de mayo de 2020). "La primera GPU Ampere de Nvidia está diseñada para centros de datos e inteligencia artificial, no para su PC" . The Verge.

[15] "NVIDIA Tesla V100 probado: casi increíble potencia de GPU" . TweakTown . 17 de septiembre de 2017.

[1]