Kepler es el nombre en clave de una microarquitectura de GPU desarrollada por Nvidia , presentada por primera vez en el comercio minorista en abril de 2012, [1] como sucesora de la microarquitectura Fermi . Kepler fue la primera microarquitectura de Nvidia que se centró en la eficiencia energética. La mayoría de las GPU de la serie GeForce 600 , la mayoría de las series GeForce 700 y algunas GPU de la serie GeForce 800M se basaron en Kepler, todas fabricadas en 28 nm. Kepler también encontró uso en el GK20A, el componente GPU del Tegra K1 SoC , así como en la serie Quadro Kxxx, Quadro NVS 510 y Nvidia Tesla. módulos de computación. A Kepler le siguió la microarquitectura Maxwell y se utilizó junto con Maxwell en las series GeForce 700 y GeForce 800M .
Fecha de lanzamiento | Abril de 2012 |
---|---|
Proceso de fabricación | TSMC 28 nm |
Historia | |
Predecesor | Fermi |
Sucesor | Maxwell |
La arquitectura lleva el nombre de Johannes Kepler , un matemático alemán y figura clave de la revolución científica del siglo XVII .
Descripción general
Mientras que el objetivo de la arquitectura anterior de Nvidia era el diseño centrado en aumentar el rendimiento en computación y teselación, con la arquitectura Kepler, Nvidia se centró en la eficiencia, la capacidad de programación y el rendimiento. [2] [3] El objetivo de eficiencia se logró mediante el uso de un reloj GPU unificado, una programación estática simplificada de instrucción y un mayor énfasis en el rendimiento por vatio. [4] Al abandonar el reloj de sombreado que se encontraba en sus diseños anteriores de GPU, la eficiencia aumenta, aunque se requieren núcleos adicionales para lograr niveles más altos de rendimiento. Esto no solo se debe a que los núcleos son más amigables con la energía (dos núcleos Kepler que usan el 90% de la energía de un núcleo Fermi, según los números de Nvidia), sino que también el cambio a un esquema de reloj de GPU unificado ofrece una reducción del 50% en el consumo de energía en esa area. [5]
El objetivo de programabilidad se logró con Hyper-Q de Kepler, Dynamic Parallelism y múltiples funciones nuevas de Compute Capabilities 3.x. Con él, se pudo lograr una mayor utilización de la GPU y una administración de código simplificada con las GPU GK, lo que permitió una mayor flexibilidad en la programación de las GPU Kepler. [6]
Finalmente, con el objetivo de rendimiento, el recurso de ejecución adicional (más CUDA Core, registro y caché) y con la capacidad de Kepler para lograr una velocidad de reloj de memoria de 6 GHz, aumenta el rendimiento de Kepler en comparación con las GPU Nvidia anteriores. [5]
Características
La GPU de la serie GK contiene características tanto de las generaciones anteriores de Fermi como de las nuevas de Kepler. Los miembros basados en Kepler agregan las siguientes características estándar:
- Interfaz PCI Express 3.0
- DisplayPort 1.2
- Salida de video HDMI 1.4a 4K x 2K
- Aceleración de video por hardware Purevideo VP5 (decodificación de hasta 4K x 2K H.264)
- Bloque de aceleración de codificación de hardware H.264 (NVENC)
- Admite hasta 4 pantallas 2D independientes o 3 pantallas estereoscópicas / 3D (NV Surround)
- Multiprocesador de transmisión de próxima generación (SMX)
- Polymorph-Engine 2.0
- Programador de instrucciones simplificado
- Texturas sin ataduras
- Capacidad de cómputo CUDA 3.0 a 3.5
- GPU Boost (actualizado a 2.0 en GK110)
- Soporte TXAA
- Fabricado por TSMC en un proceso de 28 nm
- Nuevas instrucciones de reproducción aleatoria
- Paralelismo dinámico
- Hyper-Q (reserva de funcionalidad MPI de Hyper-Q solo para Tesla)
- Unidad de gestión de la red
- NVIDIA GPUDirect (reserva de funcionalidad RDMA de GPU Direct solo para Tesla)
Multiprocesador de transmisión de próxima generación (SMX)
La arquitectura de Kepler emplea una nueva arquitectura de multiprocesador de transmisión denominada "SMX". Los SMX son la razón de la eficiencia energética de Kepler, ya que toda la GPU utiliza una única velocidad de reloj unificada. [5] Aunque el uso de SMX de un solo reloj unificado aumenta la eficiencia energética debido al hecho de que varios núcleos Kepler CUDA de reloj inferior consumen un 90% menos de energía que varios núcleos Fermi CUDA de reloj superior, se necesitan unidades de procesamiento adicionales para ejecutar una deformación completa por ciclo . Duplicar de 16 a 32 por matriz CUDA resuelve el problema de ejecución de warp, el front-end SMX también se duplica con programadores de warp, unidad de despacho y el archivo de registro duplicado a 64K entradas para alimentar las unidades de ejecución adicionales. Con el riesgo de inflar el área de la matriz, los motores SMX PolyMorph se mejoran a 2.0 en lugar de duplicarse junto con las unidades de ejecución, lo que le permite estimular el polígono en ciclos más cortos. [7] Los núcleos FP64 CUDA dedicados también se utilizan ya que todos los núcleos Kepler CUDA no son capaces de FP64 para ahorrar espacio en el dado. Con la mejora que hizo Nvidia en la SMX, los resultados incluyen un aumento en el rendimiento y la eficiencia de la GPU. Con GK110, la caché de textura de 48 KB se desbloquea para cargas de trabajo informáticas. En la carga de trabajo informática, la caché de texturas se convierte en una caché de datos de solo lectura, que se especializa en cargas de trabajo de acceso a memoria no alineadas. Además, se han agregado capacidades de detección de errores para que sea más seguro para las cargas de trabajo que dependen de ECC. El número de registros por hilo también se duplica en GK110 con 255 registros por hilo.
Programador de instrucciones simplificado
Se logró una reducción adicional del espacio de troquel y ahorro de energía mediante la eliminación de un bloque de hardware complejo que manejaba la prevención de peligros de datos. [3] [5] [8] [9]
Impulso de GPU
GPU Boost es una nueva característica que es aproximadamente análoga a la aceleración turbo de una CPU. La GPU siempre está garantizada para funcionar a una velocidad de reloj mínima, conocida como "reloj base". Esta velocidad de reloj se establece en el nivel que garantizará que la GPU se mantenga dentro de las especificaciones de TDP , incluso con cargas máximas. [3] Sin embargo, cuando las cargas son menores, hay espacio para aumentar la velocidad del reloj sin exceder el TDP. En estos escenarios, GPU Boost aumentará gradualmente la velocidad del reloj en pasos, hasta que la GPU alcance un objetivo de energía predefinido (que es 170 W por defecto). [5] Al adoptar este enfoque, la GPU aumentará o disminuirá su reloj dinámicamente, de modo que proporcione la máxima velocidad posible sin dejar de cumplir con las especificaciones de TDP.
El objetivo de potencia, así como el tamaño de los pasos de aumento de reloj que tomará la GPU, son ajustables a través de utilidades de terceros y proporcionan un medio de overclocking de tarjetas basadas en Kepler. [3]
Soporte de Microsoft Direct3D
Las GPU Nvidia Fermi y Kepler de la serie GeForce 600 admiten la especificación Direct3D 11.0. Nvidia declaró originalmente que la arquitectura Kepler tiene soporte completo para DirectX 11.1, que incluye la ruta Direct3D 11.1. [10] Sin embargo, las siguientes funciones de Direct3D 11.1 de "IU moderna" no son compatibles: [11] [12]
- Rasterización independiente del objetivo (solo renderizado 2D).
- Rasterización 16xMSAA (solo renderizado 2D).
- Modo de representación de línea ortogonal.
- UAV (Vista de acceso desordenado) en etapas sin sombreado de píxeles.
Según la definición de Microsoft, el nivel de característica de Direct3D 11_1 debe estar completo; de lo contrario, la ruta de Direct3D 11.1 no se puede ejecutar. [13] Las características Direct3D integradas de la arquitectura Kepler son las mismas que las de la arquitectura Fermi de la serie GeForce 400. [12]
Siguiente Soporte de Microsoft Direct3D
Las GPU NVIDIA Kepler de la serie GeForce 600/700 admiten el nivel de función 11_0 de Direct3D 12. [14]
Soporte TXAA
Exclusivo de las GPU Kepler, TXAA es un nuevo método anti-aliasing de Nvidia que está diseñado para implementación directa en motores de juegos. TXAA se basa en la técnica MSAA y filtros de resolución personalizados. Está diseñado para abordar un problema clave en los juegos conocido como shimmering o aliasing temporal . TXAA resuelve eso suavizando la escena en movimiento, asegurándose de que cualquier escena del juego se elimine de cualquier alias y brillo. [3]
Instrucciones de reproducción aleatoria
En un nivel bajo, GK110 ve instrucciones y operaciones adicionales para mejorar aún más el rendimiento. Las nuevas instrucciones de reproducción aleatoria permiten que los subprocesos dentro de una deformación compartan datos sin volver a la memoria, lo que hace que el proceso sea mucho más rápido que el método anterior de carga / uso compartido / almacenamiento. Las operaciones atómicas también se revisaron, acelerando la velocidad de ejecución de las operaciones atómicas y agregando algunas operaciones FP64 que anteriormente solo estaban disponibles para datos FP32. [8]
Hyper-Q
Hyper-Q expande las colas de trabajo de hardware GK110 de 1 a 32. La importancia de esto es que tener una sola cola de trabajo significaba que Fermi podía estar poco ocupado en ocasiones ya que no había suficiente trabajo en esa cola para llenar todos los SM. Al tener 32 colas de trabajo, GK110 puede, en muchos escenarios, lograr una mayor utilización al poder colocar diferentes flujos de tareas en lo que de otro modo sería un SMX inactivo. La naturaleza simple de Hyper-Q se ve reforzada por el hecho de que se asigna fácilmente a MPI, una interfaz de paso de mensajes común que se usa con frecuencia en HPC. Dado que los algoritmos heredados basados en MPI que se diseñaron originalmente para sistemas de múltiples CPU que se volvieron atascados por falsas dependencias ahora tienen una solución. Al aumentar la cantidad de trabajos MPI, es posible utilizar Hyper-Q en estos algoritmos para mejorar la eficiencia sin cambiar el código en sí. [8]
Paralelismo dinámico
La capacidad de paralelismo dinámico es para que los núcleos puedan distribuir otros núcleos. Con Fermi, solo la CPU podría enviar un kernel, lo que incurre en una cierta cantidad de sobrecarga al tener que comunicarse con la CPU. Al dar a los núcleos la capacidad de distribuir sus propios núcleos secundarios, GK110 puede ahorrar tiempo al no tener que volver a la CPU y, en el proceso, liberar la CPU para trabajar en otras tareas. [8]
Unidad de gestión de la red
Habilitar el paralelismo dinámico requiere un nuevo sistema de control de distribución y gestión de la red. La nueva Grid Management Unit (GMU) gestiona y prioriza las redes a ejecutar. La GMU puede pausar el envío de nuevas cuadrículas y poner en cola las cuadrículas pendientes y suspendidas hasta que estén listas para ejecutarse, lo que brinda la flexibilidad para permitir tiempos de ejecución potentes, como el paralelismo dinámico. El distribuidor de trabajo CUDA en Kepler tiene redes que están listas para despachar y puede despachar 32 redes activas, que es el doble de la capacidad del Fermi CWD. El Kepler CWD se comunica con la GMU a través de un enlace bidireccional que permite a la GMU pausar el envío de nuevas redes y mantener las redes pendientes y suspendidas hasta que se necesiten. La GMU también tiene una conexión directa a las unidades Kepler SMX para permitir que las cuadrículas que lanzan trabajo adicional en la GPU a través del Paralelismo Dinámico envíen el nuevo trabajo de regreso a GMU para que sea priorizado y enviado. Si el kernel que envió la carga de trabajo adicional se detiene, la GMU lo mantendrá inactivo hasta que se complete el trabajo dependiente. [9]
NVIDIA GPUDirect
NVIDIA GPUDirect es una capacidad que permite que las GPU dentro de una sola computadora, o las GPU en diferentes servidores ubicados en una red, intercambien datos directamente sin necesidad de ir a la memoria de la CPU / sistema. La función RDMA en GPUDirect permite que dispositivos de terceros, como SSD, NIC y adaptadores IB, accedan directamente a la memoria en varias GPU dentro del mismo sistema, lo que reduce significativamente la latencia de envío y recepción de mensajes MPI hacia / desde la memoria de la GPU. [15] También reduce las demandas sobre el ancho de banda de la memoria del sistema y libera los motores GPU DMA para que los utilicen otras tareas CUDA. Kepler GK110 también es compatible con otras funciones de GPUDirect, incluidas Peer-to-Peer y GPUDirect for Video.
Compresión / descompresión de video
NVDEC
NVENC
NVENC es la codificación de función fija de bajo consumo de energía de Nvidia que puede tomar códecs, decodificar, preprocesar y codificar contenido basado en H.264. Los formatos de entrada de la especificación NVENC están limitados a la salida H.264. Pero aún así, NVENC, a través de su formato limitado, puede admitir codificación de hasta 4096x4096. [dieciséis]
Al igual que Quick Sync de Intel, NVENC se expone actualmente a través de una API patentada, aunque Nvidia tiene planes de proporcionar el uso de NVENC a través de CUDA. [dieciséis]
Actuación
La potencia teórica de procesamiento de precisión simple de una GPU Kepler en GFLOPS se calcula como 2 (operaciones por instrucción FMA por núcleo CUDA por ciclo) × número de núcleos CUDA × velocidad de reloj del núcleo (en GHz). Tenga en cuenta que, al igual que la generación anterior de Fermi , Kepler no puede beneficiarse de una mayor potencia de procesamiento mediante MAD + MUL de doble emisión como Tesla era capaz de hacer.
La potencia de procesamiento teórica de doble precisión de una GPU Kepler GK110 / 210 es 1/3 de su rendimiento de precisión simple. Sin embargo, esta potencia de procesamiento de doble precisión solo está disponible en tarjetas GeForce profesionales de marca Quadro , Tesla y TITAN de gama alta , mientras que los controladores para tarjetas GeForce de consumo limitan el rendimiento a 1/24 del rendimiento de precisión simple. [17] Los chips GK10x de menor rendimiento tienen un límite similar a 1/24 del rendimiento de precisión simple. [18]
Chips de Kepler
- GK104
- GK106
- GK107
- GK110
- GK208
- GK210
- GK20A ( Tegra K1 )
Ver también
- Lista de unidades de procesamiento de gráficos Nvidia
- Nvidia NVDEC
Referencias
- ^ Mujtaba, Hassan (18 de febrero de 2012). "Se espera que NVIDIA lance ocho nuevas GPU Kepler de 28 nm en abril de 2012" .
- ^ "Dentro de Kepler" (PDF) . Consultado el 19 de septiembre de 2015 .
- ^ a b c d e "Presentamos la GPU GeForce GTX 680" . Nvidia. 22 de marzo de 2012 . Consultado el 19 de septiembre de 2015 .
- ^ Nividia. "Arquitectura de cómputo CUDATM de próxima generación de NVIDIA: Kepler TM GK110" (PDF) . www.nvidia.com .
- ^ a b c d e Smith, Ryan (22 de marzo de 2012). "Revisión de NVIDIA GeForce GTX 680: retomando la corona de rendimiento" . AnandTech . Consultado el 25 de noviembre de 2012 .
- ^ "Eficiencia a través de Hyper-Q, paralelismo dinámico y más" . Nvidia. 12 de noviembre de 2012 . Consultado el 19 de septiembre de 2015 .
- ^ "Revisión de GeForce GTX 680 2 GB: Kepler envía a Tahití de vacaciones" . Tom; s Hardware. 22 de marzo de 2012 . Consultado el 19 de septiembre de 2015 .
- ^ a b c d "NVIDIA lanza Tesla K20 y K20X: GK110 llega por fin" . AnandTech. 2012-11-12 . Consultado el 19 de septiembre de 2015 .
- ^ a b "Informe técnico de la arquitectura NVIDIA Kepler GK110" (PDF) . Consultado el 19 de septiembre de 2015 .
- ^ "NVIDIA lanza las primeras GPU GeForce basadas en la arquitectura Kepler de próxima generación" . Nvidia. 22 de marzo de 2012. Archivado desde el original el 14 de junio de 2013.
- ^ Edward, James (22 de noviembre de 2012). "Las afirmaciones de NVIDIA son compatibles parcialmente con DirectX 11.1" . TechNews. Archivado desde el original el 28 de junio de 2015 . Consultado el 19 de septiembre de 2015 .
- ^ a b "Nvidia no es totalmente compatible con DirectX 11.1 con GPU Kepler, pero ... (enlace de archivo web)" . BSN. Archivado desde el original el 29 de diciembre de 2012.
- ^ "Enumeración D3D_FEATURE_LEVEL (Windows)" . MSDN . Consultado el 19 de septiembre de 2015 .
- ^ Henry Moreton (20 de marzo de 2014). "DirectX 12: un gran paso para los juegos" . Consultado el 19 de septiembre de 2015 .
- ^ "NVIDIA GPUDirect" . Desarrollador NVIDIA . 2015-10-06 . Consultado el 5 de febrero de 2019 .
- ^ a b Chris Angelini (22 de marzo de 2012). "Resultados de referencia: NVEnc y MediaEspresso 6.5" . Hardware de Tom . Consultado el 19 de septiembre de 2015 .
- ^ Angelini, Chris (7 de noviembre de 2013). "Revisión de Nvidia GeForce GTX 780 Ti: GK110, completamente desbloqueada" . Hardware de Tom . pag. 1 . Consultado el 6 de diciembre de 2015 .
El controlador de la tarjeta opera deliberadamente las unidades FP64 de GK110 a 1/8 de la frecuencia de reloj de la GPU. Cuando multiplica eso por la proporción de 3: 1 de núcleos CUDA de precisión simple a doble, obtiene una tasa de 1/24
- ^ Smith, Ryan (13 de septiembre de 2012). "La revisión de NVIDIA GeForce GTX 660: GK106 completa la familia Kepler" . AnandTech . pag. 1 . Consultado el 6 de diciembre de 2015 .