Tesla (microarquitectura)

Tesla es el nombre en clave de una microarquitectura de GPU desarrollada por Nvidia y lanzada en 2006, como sucesora de la microarquitectura Curie . Lleva el nombre del ingeniero eléctrico pionero Nikola Tesla . Como la primera microarquitectura de Nvidia en implementar sombreadores unificados, se usó con las GPU GeForce 8 Series , GeForce 9 Series , GeForce 100 Series , GeForce 200 Series y GeForce 300 Series fabricadas colectivamente en 90 nm, 80 nm, 65 nm, 55 nm, y 40 nm. También estaba en la GeForce 405 y en la QuadroMódulos informáticos FX, Quadro x000, Quadro NVS y Nvidia Tesla .

Nvidia Tesla
Historia

Fecha de lanzamiento	Noviembre de 2006
Proceso de fabricación	90 nm, 80 nm, 65 nm, 55 nm y 40 nm
Predecesor	Curie
Sucesor	Fermi

Tesla reemplazó las antiguas microarquitecturas de tubería fija , representadas en el momento de la introducción por la serie GeForce 7 . Compitió directamente con la primera microarquitectura de sombreado unificada de AMD llamada TeraScale , un desarrollo del trabajo de ATI en la Xbox 360 que usaba un diseño similar. Tesla fue seguido por Fermi .

Descripción general

Tesla es la primera microarquitectura de Nvidia que implementa el modelo de sombreado unificado . El controlador es compatible con la arquitectura Direct3D 10 Shader Model 4.0 / OpenGL 2.1 (los controladores posteriores son compatibles con OpenGL 3.3). El diseño es un cambio importante para NVIDIA en la funcionalidad y capacidad de la GPU, el cambio más obvio es el cambio de las unidades funcionales separadas (sombreadores de píxeles, sombreadores de vértices) dentro de las GPU anteriores a una colección homogénea de procesadores de punto flotante universales (llamados "procesadores de flujo ") que puede realizar un conjunto de tareas más universal.

GPU NVIDIA G80

Disparo de la GPU GT200 que se encuentra dentro de las tarjetas NVIDIA GeForce GTX 280, basada en la microarquitectura de Tesla

La arquitectura de sombreado unificada de GeForce 8 consta de varios procesadores de flujo (SP). A diferencia del enfoque de procesamiento vectorial adoptado con unidades de sombreado más antiguas, cada SP es escalar y, por lo tanto, solo puede operar en un componente a la vez. Esto los hace menos complejos de construir y, al mismo tiempo, siguen siendo bastante flexibles y universales. Las unidades de sombreado escalar también tienen la ventaja de ser más eficientes en varios casos en comparación con las unidades de sombreado vectorial de generaciones anteriores que se basan en una combinación de instrucciones ideal y en el orden para alcanzar el rendimiento máximo. El menor rendimiento máximo de estos procesadores escalares se compensa con la eficiencia y su ejecución a una alta velocidad de reloj (lo que es posible gracias a su simplicidad). GeForce 8 ejecuta las diversas partes de su núcleo a diferentes velocidades de reloj (dominios de reloj), similar al funcionamiento de las GPU anteriores de la serie GeForce 7 . Por ejemplo, los procesadores de flujo de GeForce 8800 GTX funcionan a una frecuencia de reloj de 1,35 GHz, mientras que el resto del chip funciona a 575 MHz. ^[1]

GeForce 8 realiza un filtrado de texturas significativamente mejor que sus predecesores que utilizaron varias optimizaciones y trucos visuales para acelerar el renderizado sin afectar la calidad del filtrado. La línea GeForce 8 representa correctamente un algoritmo de filtrado anisotrópico independiente del ángulo junto con un filtrado de textura trilineal completo . G80, aunque no es su hermano menor, está equipado con mucha más capacidad aritmética de filtrado de texturas que la serie GeForce 7. Esto permite un filtrado de alta calidad con un impacto de rendimiento mucho menor que antes. ^[1]

NVIDIA también ha introducido nuevos borde polígono anti-aliasing métodos, incluyendo la capacidad de de la GPU ROPs para realizar tanto multimuestra anti-aliasing (MSAA) y la iluminación HDR, al mismo tiempo, la corrección de varias limitaciones de las generaciones anteriores. GeForce 8 puede realizar MSAA con formatos de textura FP16 y FP32. GeForce 8 admite renderizado HDR de 128 bits , un aumento con respecto al soporte de 64 bits de las tarjetas anteriores. La nueva tecnología anti-aliasing del chip, llamada muestreo de cobertura AA (CSAA), utiliza información de cobertura, color y Z para determinar el color final del píxel. Esta técnica de optimización del color permite que 16X CSAA se vea nítido y definido. ^[2]

Actuación

La potencia de procesamiento teórica de precisión simple supuesta para las tarjetas basadas en Tesla dada en FLOPS puede ser difícil de alcanzar en cargas de trabajo del mundo real. ^[3]

En G80 / G90 / GT200, cada multiprocesador de transmisión (SM) contiene 8 procesadores Shader (SP o Unified Shader o CUDA Core) y 2 Unidades de función especial (SFU). Cada SP puede realizar hasta dos operaciones de precisión simple por reloj: 1 multiplicar y 1 sumar, utilizando una única instrucción MAD . Cada SFU puede realizar hasta cuatro operaciones por reloj: cuatro instrucciones MUL (Multiplicar). Entonces, un SM en su conjunto puede ejecutar 8 MAD (16 operaciones) y 8 MUL (8 operaciones) por reloj, o 24 operaciones por reloj, que es (relativamente hablando) 3 veces el número de SP. Por lo tanto, para calcular el rendimiento teórico de doble problema MAD + MUL en operaciones de punto flotante por segundo [ FLOPS _{sp + sfu} , GFLOPS ] de una tarjeta gráfica con recuento de SP [ n ] y frecuencia de sombreado [ f , GHz], la fórmula es: FLOPS _{sp + sfu} = 3 × n × f . ^[4]^[5]

Sin embargo, aprovechar el rendimiento de doble problema como MAD + MUL es problemático:

El MUL de doble emisión no está disponible en modo gráfico en G80 / G90, ^[6] aunque se mejoró mucho en GT200. ^[7]
No todas las combinaciones de instrucciones como MAD + MUL se pueden ejecutar en paralelo en el SP y SFU, porque la SFU es bastante especializada ya que solo puede manejar un subconjunto específico de instrucciones: multiplicación de coma flotante de 32 bits, funciones trascendentales, interpolación de parámetros mezcla, recíproco, recíproco raíz cuadrada, seno, coseno, etc. ^[8]
La SFU podría estar ocupada durante muchos ciclos al ejecutar estas instrucciones, en cuyo caso no estará disponible para instrucciones MUL de emisión dual. ^[4]

Por estas razones, para estimar el rendimiento de las cargas de trabajo del mundo real, puede ser más útil ignorar la SFU y asumir solo 1 MAD (2 operaciones) por SP por ciclo. En este caso, la fórmula para calcular el rendimiento teórico en operaciones de coma flotante por segundo se convierte en: FLOPS _sp = 2 × n × f .

La potencia de procesamiento teórica de doble precisión de una GPU Tesla es 1/8 del rendimiento de precisión simple en GT200; no hay soporte de doble precisión en G8x y G9x. ^[9]

Compresión / descompresión de video

NVDEC

NVENC

NVENC solo se introdujo en chips posteriores.

Papas fritas

Tesla 1.0

• 8800 GT

• 8800 GTS

• 8800 GTX

• 8800 Ultra

Tesla 2.0

GT200
GT215
GT216
GT218

Ver también

Lista de unidades de procesamiento de gráficos Nvidia
CUDA
Interfaz de enlace escalable (SLI)
Qualcomm Adreno

Referencias

^ a b Wasson, Scott. Procesador gráfico NVIDIA GeForce 8800 Archivado el 15 de julio de 2007 en Wayback Machine , Informe técnico, 8 de noviembre de 2007.
^ Sommefeldt, Rys. NVIDIA G80: Image Quality Analysis , Beyond3D, 12 de diciembre de 2006.
^ "Beyond3D - Análisis de arquitectura y GPU NVIDIA GT200" .
^ a b Anand Lal Shimpi y Derek Wilson. "Derek se vuelve técnico: la tecnología de telar del siglo XV regresa - La GPU de transistores de 1.400 millones de NVIDIA: GT200 llega como GeForce GTX 280 y 260" .
^ Anand Lal Shimpi y Derek Wilson. "G80: Descripción general de una milla de altura - GeForce 8800 (G80) de NVIDIA: GPU rediseñadas para DirectX 10" .
^ Sommefeldt, Rys. NVIDIA G80: Arquitectura y análisis de GPU - Página 11 , Beyond3D, 8 de noviembre de 2006
^ "Resumen técnico de la arquitectura de la GPU NVIDIA GeForce GTX 200" (PDF) . Mayo de 2008. p. 15 . Consultado el 5 de diciembre de 2015 . Los núcleos de procesamiento de transmisión individuales de las GPU GeForce GTX 200 ahora pueden realizar operaciones de doble emisión casi a toda velocidad de operaciones de adición múltiple (MAD) y MUL (3 flops / SP)
^ Kanter, David (8 de septiembre de 2008). "GT200 de NVIDIA: dentro de un procesador paralelo" . Tecnología del mundo real . pag. 9.
^ Smith, Ryan (17 de marzo de 2015). "La revisión de NVIDIA GeForce GTX Titan X" . AnandTech . pag. 2.

enlaces externos

[8800GTXTechReport-1] Wasson, Scott. Procesador gráfico NVIDIA GeForce 8800 Archivado el 15 de julio de 2007 en Wayback Machine , Informe técnico, 8 de noviembre de 2007.

[B3DG80IQ-2] Sommefeldt, Rys. NVIDIA G80: Image Quality Analysis , Beyond3D, 12 de diciembre de 2006.

[beyond3d_gt200-3] "Beyond3D - Análisis de arquitectura y GPU NVIDIA GT200" .

[nvidiaanandtechGT200-4] Anand Lal Shimpi y Derek Wilson. "Derek se vuelve técnico: la tecnología de telar del siglo XV regresa - La GPU de transistores de 1.400 millones de NVIDIA: GT200 llega como GeForce GTX 280 y 260" .

[nvidiaanandtechG80-5] Anand Lal Shimpi y Derek Wilson. "G80: Descripción general de una milla de altura - GeForce 8800 (G80) de NVIDIA: GPU rediseñadas para DirectX 10" .

[6] Sommefeldt, Rys. NVIDIA G80: Arquitectura y análisis de GPU - Página 11 , Beyond3D, 8 de noviembre de 2006

[gt200_tech_brief-7] "Resumen técnico de la arquitectura de la GPU NVIDIA GeForce GTX 200" (PDF) . Mayo de 2008. p. 15 . Consultado el 5 de diciembre de 2015 . Los núcleos de procesamiento de transmisión individuales de las GPU GeForce GTX 200 ahora pueden realizar operaciones de doble emisión casi a toda velocidad de operaciones de adición múltiple (MAD) y MUL (3 flops / SP)

[sp_perf_gt200-8] Kanter, David (8 de septiembre de 2008). "GT200 de NVIDIA: dentro de un procesador paralelo" . Tecnología del mundo real . pag. 9.

[dp_perf_g80_to_gm200-9] Smith, Ryan (17 de marzo de 2015). "La revisión de NVIDIA GeForce GTX Titan X" . AnandTech . pag. 2.

[1]