POWER10 designa una familia propuesta de multiprocesadores simétricos , superescalares y de múltiples subprocesos , basada en el Power ISA de código abierto , y anunciada en agosto de 2020 en la conferencia Hot Chips ; Los sistemas con CPU POWER10 están destinados a llegar a los clientes en el cuarto trimestre de 2021.
Información general | |
---|---|
Lanzado | 2020 |
Diseñada por | IBM , socios de OpenPower |
Fabricante (s) común (es) | |
Actuación | |
Max. Frecuencia de reloj de la CPU | +3,5 GHz a +4 GHz |
Cache | |
Caché L1 | 48 + 32 KB por núcleo |
Caché L2 | 2 MB por núcleo |
Caché L3 | 120 MB por chip |
Arquitectura y clasificación | |
Min. tamaño de la característica | 7 millas náuticas |
Microarquitectura | P10 |
Conjunto de instrucciones | Power ISA ( Power ISA v.3.1 ) |
Especificaciones físicas | |
Núcleos |
|
Paquete (s) |
|
Enchufe (s) |
|
Historia | |
Predecesor | PODER9 |
El procesador está diseñado para tener 15 núcleos disponibles, pero se incluirá un núcleo de repuesto durante la fabricación para permitir de manera rentable problemas de rendimiento .
Los procesadores basados en POWER10 serán fabricados por Samsung utilizando un proceso de 7 nm con 18 capas de metal y 18 mil millones de transistores en una matriz de silicio de 602 mm 2 . [1] [2] [3] [4]
Las principales características de POWER10 son un mayor rendimiento por vatio y una mejor memoria y arquitecturas de E / S , con un enfoque en las cargas de trabajo de inteligencia artificial (IA). [5]
Diseño
Cada núcleo POWER10 se ha duplicado en la mayoría de las unidades funcionales en comparación con su predecesor POWER9 . El núcleo es multiproceso de ocho vías (SMT8) y tiene instrucciones de 48 KB y cachés L1 de datos de 32 KB , una caché L2 grande de 2 MB y un búfer de traducción automática (TLB) muy grande con 4096 entradas. [3] Los ciclos de latencia para las diferentes etapas de caché y TLB se han reducido significativamente. Cada núcleo tiene ocho segmentos de ejecución, cada uno con una unidad de punto flotante (FPU), unidad aritmética lógica (ALU), predictor de rama , unidad de almacenamiento de carga y motor SIMD , capaz de recibir instrucciones de 128 bits (64 + 64) desde las nuevas instrucciones de prefijo / fusible de Power ISA v.3.1. Cada segmento de ejecución puede manejar 20 instrucciones cada uno, respaldado por una tabla de instrucciones compartida de 512 entradas y enviado a una cola de carga de 128 entradas (64 de un solo subproceso) y una cola de almacenamiento de 80 entradas (40 de un solo subproceso). Las mejores funciones de predicción de ramas han duplicado la precisión. Un núcleo tiene cuatro motores de asistencia matemática matricial (MMA), para un mejor manejo del código SIMD, especialmente para las instrucciones de multiplicación de matrices donde las cargas de trabajo de inferencia de IA tienen un aumento de rendimiento de 20 veces. [6]
Todo el procesador tiene dos "hemisferios" con ocho núcleos, compartiendo un caché L3 de 64 MB para un total de 16 núcleos y cachés L3 de 128 MB. Debido a problemas de rendimiento, al menos un núcleo siempre está deshabilitado, lo que reduce la caché L3 en 8 MB a un total utilizable de 15 núcleos y 120 MB de caché L3. Cada chip también tiene ocho aceleradores de cifrado que descargan algoritmos comunes como AES y SHA-3 .
El aumento de la sincronización del reloj y la microarquitectura reelaborada en cada etapa, junto con las instrucciones de fusible / prefijo que permiten más trabajo con menos unidades de trabajo, y un caché más inteligente con latencias de memoria más bajas y etiquetado de direcciones efectivo que reduce las pérdidas de caché, permite que el núcleo POWER10 consuma la mitad de energía que POWER9 . Combinado con las mejoras en las instalaciones de cómputo hasta en un 30%, todo el procesador funciona 2.6 veces mejor por vatio que su predecesor. Y en el caso de montar dos núcleos en el mismo módulo, hasta 3 veces más rápido en el mismo presupuesto de energía.
Como los núcleos pueden actuar como ocho procesadores lógicos, el procesador de 15 núcleos parece 120 núcleos para el sistema operativo . En un módulo de doble chip, eso se convierte en 240 subprocesos simultáneos por zócalo .
E / S
Los chips tienen arquitecturas de memoria y E / S completamente reelaboradas. La Interfaz de memoria abierta ( OMI ) permite una latencia extremadamente baja y una RAM de gran ancho de banda. El uso de comunicaciones de memoria en serie con controladores fuera de chip reduce las líneas de señalización hacia y desde el chip, aumenta el ancho de banda y hace que el procesador sea independiente de la tecnología que se encuentra en el extremo de la memoria, lo que hace que el sistema sea flexible y esté preparado para el futuro. [4]
La RAM puede ser cualquier cosa, desde DDR3 a DDR5 hasta GDDR y HBM o memoria de almacenamiento persistente , todo dependiendo de lo que sea práctico para la aplicación.
- DDR4 : admite hasta 4 TB de RAM, 410 GB / s, latencia de 10 ns
- GDDR6 : hasta 800 GB / s
- Almacenamiento persistente: hasta 2 PB
POWER10 permite el cifrado de datos sin penalización del rendimiento en cada etapa, desde RAM, a través de aceleradores y nodos de clúster hasta datos en reposo.
POWER10 viene con la función PowerAXON que permite chip a chip, sistema a sistema y bus OpenCAPI para aceleradores, E / S y otros periféricos coherentes de caché de alto rendimiento . Gestiona las comunicaciones entre nodos en un clúster SCM de 16 sockets o un clúster DCM de 4 sockets. También gestiona la semántica de la memoria para la agrupación de sistemas que permiten el acceso de carga / almacenamiento desde el núcleo hasta 2 PB de RAM en todo el clúster POWER10. IBM llama a esta característica Memory Inception .
Tanto OMI como PowerAXON pueden manejar comunicaciones de 1 TB / s fuera del chip.
POWER10 incluye PCIe 5 . El SCM tiene 32x y el DCM tiene 64x PCIe 5 carriles. IBM y Nvidia acordaron que incluir NVLink en POWER10 sería redundante ya que PCIe 5 es lo suficientemente rápido para conectar GPU, por lo que NVLink no está presente. [3] La compatibilidad con NVLink en chip era anteriormente un punto de venta único para POWER8 y POWER9.
Variantes
El POWER10 estará disponible en dos variantes, definidas por firmware en el paquete. Aunque los chips son idénticos y la diferencia se establece en el firmware, ni el usuario ni los propios IBM pueden cambiarlo. [7]
- 15 × núcleos SMT8
- 30 × núcleos SMT4
Módulos
El POWER10 viene en dos paquetes de matriz de rejilla terrestre de plástico de chip abatible (FC-PLGA) , [8] un módulo de chip único (SCM) y un módulo de chip dual (DCM).
- SCM: 4+ GHz, hasta 15 núcleos SMT8. Se pueden agrupar hasta 16 enchufes. x32 PCIe 5 carriles.
- DCM: más de 3,5 GHz, hasta 30 núcleos SMT8. Se pueden agrupar hasta cuatro enchufes. x64 PCIe 5 carriles. El DCM se encuentra en el mismo rango térmico que las ofertas anteriores.
Soporte del sistema operativo
- Linux , versión 5.9 [9]
- PowerVM con máquina virtual basada en kernel anidada (KVM)
- AIX [10]
- IBM i [10]
Comparación con las CPU POWER anteriores
El cambio a un proceso de fabricación de 7 nm da como resultado un rendimiento significativamente mayor por vatio.
La instalación de PowerAXON ahora se extiende hasta 2 PB de espacio de memoria en clúster unificado, compartido en múltiples nodos de clúster e incluye soporte para PCIe 5 .
Nuevas instrucciones SIMD y nuevos tipos de datos, incluidos bfloat16 , INT4 (INTEGER) e INT8 (BIGINT) . [11] [12] tienen como objetivo mejorar las cargas de trabajo de la IA.
Ver también
- Microprocesadores IBM POWER
- Fundación OpenPOWER
- PODER9
Referencias
- ↑ Dr. Cutress, Ian (17 de agosto de 2020). "Blog en vivo de Hot Chips 2020: Procesador POWER10 de IBM en Samsung 7nm" . AnandTech .
- ^ Quach, Katyanna (17 de agosto de 2020). "IBM reduce los procesadores Power10 a 7 nm con Samsung, que se enviará a finales de 2021" . El registro .
- ^ a b c Schilling, Andreas (17 de agosto de 2020). "IBM Power10 ofrece 30 núcleos con SMT8, PCIe 5.0 y DDR5" . Hardware LUXX (en alemán).
- ^ a b Kennedy, Patrick (17 de agosto de 2020). "IBM POWER10 en busca del Santo Grial de la Computación" . ServeTheHome .
- ^ "IBM revela el procesador IBM POWER10 de próxima generación" . IBM . 2020-08-17.
- ^ Russell, John (17 de agosto de 2020). "IBM debuta Power10; promociona nuevo esquema de memoria, seguridad e inferencia" . HPCwire .
- ^ Prickett Morgan, Timothy (31 de agosto de 2020). "Posibles diseños de IBM para sistemas Power10" . IT Jungle .
- ^ Ouimet, Sylvain y Casey, Jon y Marston, Kenneth y Muncy, Jennifer y Corbin, John y Jadhav, Virendra y Wassick, Tom y Depatie, Isabelle (junio de 2008). "Desarrollo de un paquete de matriz de red terrestre de plástico con chip abatible doble de 50 mm para aplicaciones de servidor": 1900-1906. doi : 10.1109 / ECTC.2008.4550241 . Cite journal requiere
|journal=
( ayuda )CS1 maint: varios nombres: lista de autores ( enlace ) - ^ Larabel, Michael (9 de agosto de 2020). "Linux 5.9 ofrece más soporte IBM POWER10, llamada ABI al sistema SCV nuevo / más rápido" . Phoronix .
- ^ a b Prickett Morgan, Timothy (6 de agosto de 2019). "Hablando de gran ancho de banda con el arquitecto POWER10 de IBM" . La próxima plataforma .
- ^ Patrizio, Andy (18 de agosto de 2020). "IBM detalla el procesador POWER10 de próxima generación" . Mundo de la red .
- ^ "Alias de tipo de datos" . 26 de agosto de 2020.