Cray XMT ( Cray eXtreme multihilo , [1] nombre en código Eldorado [2] ) es una escalable multiproceso memoria compartida superordenador arquitectura por Cray , basado en la tercera generación de la Tera MTA arquitectura, dirigida a grandes problemas de gráficos (por ejemplo, bases de datos semánticas, datos grandes , coincidencia de patrones ). [3] [4] [5] Presentado en 2005, reemplaza al anterior Cray MTA-2 que no tuvo éxito . Utiliza las CPU Threadstorm3 dentro de Cray XT3cuchillas. Diseñado para hacer uso de componentes básicos y subsistemas existentes para otros sistemas comerciales, alivió las deficiencias del alto costo de fabricación y soporte totalmente personalizados de Cray MTA-2. [2] Trajo varias mejoras sustanciales sobre Cray MTA-2, sobre todo casi triplicando el rendimiento máximo, y aumentó enormemente el recuento máximo de CPU a 8.192 y la memoria máxima a 128 TB, con un TLB de datos de 512 TB máximo. [2] [3]
Diseñador | Cray |
---|---|
Bits | 64 bits |
Introducido | 2005 |
Versión | Tercera generación de Tera MTA |
Endianidad | Big-endian |
Predecesor | Cray MTA-2 |
Sucesor | Cray XMT2 |
Registros | |
32 de uso general por flujo (4096 por CPU) 8 destinos por flujo (1024 por CPU) |
Cray XMT utiliza un modelo codificado [3] de memoria direccionable por contenido [6] en módulos ECC DDR1 para equilibrar implícitamente el acceso a la memoria en todo el espacio compartido de direcciones globales del sistema. [5] El uso de 4 bits de semántica de memoria extendida adicionales ( lleno / vacío , reenvío y 2 bits de captura ) por palabra de memoria de 64 bits permite una sincronización ligera y detallada en toda la memoria. [7] No hay interrupciones de hardware y los subprocesos de hardware se asignan mediante una instrucción, no el sistema operativo. [5] [7]
Front-end (inicio de sesión, E / S y otros nodos de servicio, utilizando procesadores AMD Opteron y ejecutando SLES Linux ) y back-end (nodos de cómputo, utilizando procesadores Threadstorm3 y ejecutando MTK, un simple microkernel BSD basado en Unix [3] ) comunicarse a través de la interfaz LUC (Lightweight User Communication), una interfaz cliente / servidor bidireccional de estilo RPC . [1] [5]
Threadstorm3
Información general | |
---|---|
Lanzado | 2005 |
Interrumpido | 2011 |
Diseñada por | Cray |
Actuación | |
Max. Frecuencia de reloj de la CPU | 500 MHz |
Velocidades de HyperTransport | hasta 300 GT / s |
Arquitectura y clasificación | |
Conjunto de instrucciones | MTA ISA |
Especificaciones físicas | |
Núcleos |
|
Enchufe (s) |
|
Historia | |
Predecesor | CPU Cray MTA-2 |
Sucesor | Threadstorm4 |
Threadstorm3 (denominado "procesador MT" [2] y Threadstorm antes de XMT2 [8] ) es un procesador de barril VLIW de un solo núcleo de 64 bits (compatible con el Socket 940 de 940 pines utilizado por los procesadores AMD Opteron ) con 128 flujos de hardware , en cada uno se puede mapear un subproceso de software (creando efectivamente 128 subprocesos de hardware por CPU), ejecutándose a 500 MHz y utilizando el conjunto de instrucciones MTA o un superconjunto del mismo. [7] [9] [nb 1] Tiene un búfer de datos asociativo de 4 vías de 128 KB. Cada Threadstorm3 tiene 128 conjuntos de registros separados y contadores de programas (uno por cada flujo), que son bastante [10] completamente conmutados de contexto en cada ciclo. [5] Su rendimiento máximo estimado es de 1,5 GFLOPS . Tiene 3 unidades funcionales (memoria, fusión-suma y control), que reciben operaciones de la misma instrucción MTA y operan dentro del mismo ciclo. [7] Cada flujo tiene 32 registros de propósito general, 8 registros de destino y una palabra de estado, que contiene el contador del programa. [6] No es posible un control de alto nivel de la asignación de trabajos a través de subprocesos. [5] [nb 2] Debido a la longitud de la tubería del MTA de 21, cada flujo se selecciona para ejecutar instrucciones nuevamente no antes de 21 ciclos después. [11] El TDP del paquete de procesador es de 30 W. [12]
Debido a su cambio de contexto a nivel de subproceso en cada ciclo, el rendimiento de las CPU Threadstorm no está limitado por el tiempo de acceso a la memoria. En un modelo simplificado, en cada ciclo de reloj se ejecuta una instrucción de uno de los subprocesos y se pone en cola otra solicitud de memoria con el entendimiento de que para cuando la siguiente ronda de ejecución esté lista, los datos solicitados han llegado. [13] Esto es contrario a muchas arquitecturas convencionales que se estancan en el acceso a la memoria. La arquitectura sobresale en esquemas de caminata de datos donde el acceso posterior a la memoria no se puede predecir fácilmente y, por lo tanto, no sería adecuado para un modelo de caché convencional. [1] El arquitecto principal de Threadstorm fue Burton J. Smith . [1]
Cray XMT2
Diseñador | Cray |
---|---|
Bits | 64 bits |
Introducido | 2011 |
Versión | 4ta generación de Tera MTA |
Endianidad | Big-endian |
Predecesor | Cray XMT |
Registros | |
32 de uso general por flujo (4096 por CPU) 8 objetivos por flujo (1024 por CPU) |
Cray XMT2 [3] (también "XMT de próxima generación" [8] o simplemente XMT [6] ) es un superordenador de memoria compartida multiproceso escalable de Cray , basado en la cuarta generación de la arquitectura Tera MTA . [5] Presentado en 2011, reemplaza a Cray XMT, que tenía problemas con los puntos de acceso de memoria. [8] Utiliza CPU Threadstorm4 dentro de blades Cray XT5 y aumenta ocho veces la capacidad de memoria a 512 TB y triplica el ancho de banda de memoria (300 MHz en lugar de 200 MHz) en comparación con XMT al usar el doble de módulos de memoria por nodo y DDR2. [6] [8] Introduce la conexión inter-Threadstorm de enlace de par de nodos, así como nodos de solo memoria, con los paquetes Threadstorm4 que tienen sus componentes de CPU e HyperTransport 1.x deshabilitados. [5] El modelo subyacente de memoria codificada direccionable por contenido se ha heredado de XMT. XMT2 usa 2 bits EMS adicionales ( lleno / vacío y extendido ) en lugar de 4 como en XMT.
Threadstorm4
Información general | |
---|---|
Lanzado | 2011 |
Interrumpido | 2015? |
Diseñada por | Cray |
Actuación | |
Max. Frecuencia de reloj de la CPU | 500 MHz |
Velocidades de HyperTransport | hasta 400 GT / s |
Arquitectura y clasificación | |
Conjunto de instrucciones | MTA ISA |
Especificaciones físicas | |
Núcleos |
|
Enchufe (s) |
|
Historia | |
Predecesor | Threadstorm3 |
Threadstorm4 (también "Threadstorm IV" [1] y "Threadstorm 4.0" [nb 3] ) es un procesador de barril VLIW de núcleo único de 64 bits (compatible con Socket F de 1207 pines utilizado por los procesadores AMD Opteron ) con 128 flujos de hardware muy similar a su predecesor, Threadstorm3. Cuenta con un controlador de memoria mejorado con capacidad DDR2 y 8 registros de trampa adicionales por flujo. Cray decidió intencionalmente no usar un controlador DDR3, citando la reutilización de la infraestructura Cray XT5 existente [nb 4] y una longitud de ráfaga más corta que DDR3. [nb 5] Aunque la longitud de ráfaga más larga podría compensarse con velocidades más altas de DDR3, también requeriría más potencia, lo que los ingenieros de Cray querían evitar. [8]
Escorpión
Después de lanzar XMT, Cray investigó una posible variante multinúcleo de Threadstorm3, denominada Scorpio . La mayoría de las características de Threadstorm3 se conservarían, incluida la multiplexación de muchos flujos de hardware en una tubería de ejecución y la implementación de bits de estado adicionales para cada palabra de memoria de 64 bits. Más tarde, Cray abandonó a Scorpio y el proyecto no produjo ningún chip fabricado. [3]
Futuro
El desarrollo en Threadstorm4, así como toda la arquitectura MTA, terminó silenciosamente después de XMT2, probablemente debido a la competencia de procesadores básicos como Xeon [14] de Intel y posiblemente Xeon Phi , aunque Cray nunca descontinuó oficialmente ni XMT ni XMT2. A partir de 2020, Cray ha eliminado toda la documentación del cliente sobre XMT y XMT2 de su catálogo en línea.
Usuarios
Cray XMT2 fue comprado por varios laboratorios federales e instalaciones académicas, así como por algunos clientes comerciales de HPC: por ejemplo, CSCS (memoria global de 2 TB con 64 CPU Threadstorm4), [15] Noblis CAHPC. [16] La mayoría de los sistemas basados en XMT y XMT2 se han retirado de servicio en 2020.
Notas
- ^ Tera MTA ISA es de código cerrado y solo debido a una presentación de taller que afirma la compatibilidad con sistemas MTA anteriores, el ISA utilizado en las CPU Threadstorm no puede ser un subconjunto de MTA ISA.
- ^ Aunque no se sabe si es posible a nivel de instrucción.
- ^ En paquete físico.
- ^ Aunque el Cray XT6 basado en DDR3se lanzó en 2009, dos años antes de XMT2.
- ^ Como Cray XMT opera principalmente con accesos aleatorios de palabras de 8 bytes y tiene un canal de memoria de 128 bits, con una longitud de ráfaga DDR2 de 4, la sobrecarga habitual es de 56 bytes. DDR3 con su longitud de ráfaga de 8 aumentaría la sobrecarga habitual a 120 bytes.
Referencias
- ^ a b c d e "¿Por qué uRiKA es tan rápido en consultas orientadas a gráficos?" . Blog de YarcData . 14 de noviembre de 2012. Archivado desde el original el 14 de febrero de 2015.
- ^ a b c d Feo, John; Harper, David; Kahan, Simon; Konecny, Petr (2005). "Eldorado" . Actas de la 2ª conferencia sobre fronteras de la Computación - CF '05 . Ischia, Italia: ACM Press. pag. 28. doi : 10.1145 / 1062261.1062268 . ISBN 978-1-59593-019-4.
- ^ a b c d e f Padua, David, ed. (2011). Enciclopedia de Computación Paralela . Boston, MA: Springer EE. UU. págs. 453–457, 2033. doi : 10.1007 / 978-0-387-09766-4 . ISBN 978-0-387-09765-7.
- ^ Mizell, David; Maschhoff, Kristyn (2009). "Primeras experiencias con sistemas Cray XMT a gran escala" . Simposio internacional de IEEE 2009 sobre procesamiento paralelo y distribuido . págs. 1–9. doi : 10.1109 / IPDPS.2009.5161108 . ISBN 978-1-4244-3751-1. S2CID 1964042 .
- ↑ a b c d e f g h Maltby, James (2012). Modelo de programación multiproceso Cray XMT . "Utilizando el Cray XMT de próxima generación (uRiKA) para análisis de datos a gran escala". Centro Nacional de Supercomputación de Suiza .
- ^ a b c d Descripción general del sistema Cray XMT ™ (S-2466-201) (PDF) . Cray . 2011. Archivado (PDF) desde el original el 3 de diciembre de 2012 . Consultado el 12 de mayo de 2020 .
- ^ a b c d Konecny, Petr (2011). Presentación de Cray XMT (PDF) . Cray.
- ^ a b c d e Kopser A, Vollrath D (mayo de 2011). Descripción general del Cray XMT de próxima generación (PDF) . 53a reunión del Grupo de usuarios de Cray, CUG 2011 . Fairbanks, Alaska . Consultado el 14 de febrero de 2015 .
- ^ Programación del Cray XMT (PDF) . Cray. 2012. p. 14.
- ^ Carter, Larry y Feo, John y Snavely, Allan. (2002). Experiencia de ejecución y programación en Tera MTA .
- ^ Snavely, A .; Carter, L .; Boisseau, J .; Majumdar, A .; Kang Su Gatlin; Mitchell, N .; Feo, J .; Koblenz, B. (1998). "Rendimiento multiprocesador en el Tera MTA" . Actas de la Conferencia IEEE / ACM SC98 . Orlando, FL, Estados Unidos: IEEE. pag. 4. doi : 10.1109 / SC.1998.10049 . ISBN 978-0-8186-8707-5. S2CID 8258396 .
- ^ Folleto de Cray XMT (PDF) . Cray . 2005. Archivado desde el original (PDF) el 24 de diciembre de 2016.
- ^ Nieplocha J, Márquez A, Petrini F, Chavarria-Miranda D (2007). "Arquitecturas no convencionales para ciencias de alto rendimiento" (PDF) . Revisión de SciDAC . Laboratorio Nacional del Noroeste del Pacífico (5, otoño de 2007): 46–50. Archivado desde el original (PDF) el 14 de febrero de 2015 . Consultado el 14 de febrero de 2015 .
- ^ "Cray CTO conecta los puntos en futuras interconexiones" . La próxima plataforma . 8 de enero de 2016 . Consultado el 2 de mayo de 2016 .
Steve Scott: Puedes hacerlo genial con un Xeon. No estamos planeando hacer otro procesador ThreadStorm. Pero se necesita algo de tecnología de software que proviene del legado de ThreadStorm.
- ^ "CSCS Matterhorn" . Centro Nacional de Supercomputación de Suiza .
- ^ Sorin, Nita (16 de diciembre de 2011). "Cray ofrece una supercomputadora XMT con sus propias CPU de 128 subprocesos" . Noticias de Softpedia .