Chip de investigación de teraflops

Intel Teraflops Research Chip (nombre en código Polaris ) es un procesador de muchos núcleos de investigación que contiene 80 núcleos , que utiliza una arquitectura de red en chip , desarrollado por el Programa de investigación de computación Tera-Scale de Intel . ^[1] Fue fabricado utilizando un proceso CMOS de 65 nm con ocho capas de interconexión de cobre y contiene 100 millones de transistores en un troquel de 275 mm ² . ^[2]^[3]^[4] Su objetivo de diseño era demostrar una arquitectura modular capaz de un rendimiento sostenido de 1,0 TFLOPS mientras disipa menos de 100 W. ^[3] La investigación del proyecto se incorporó más tarde a Xeon Phi . El líder técnico del proyecto fue Sriram R. Vangal. ^[4]

El procesador se presentó inicialmente en el Intel Developer Forum el 26 de septiembre de 2006 ^[5] y se anunció oficialmente el 11 de febrero de 2007. ^[6] Se presentó un chip en funcionamiento en la Conferencia Internacional de Circuitos de Estado Sólido IEEE de 2007 , junto con especificaciones técnicas. ^[2]

El chip consta de una red de malla 2D de 10x8 de núcleos y funciona nominalmente a 4 GHz. ^{[nb 1]} Cada núcleo, llamado mosaico (3 mm ² ), contiene un motor de procesamiento y un enrutador wormhole-switched de 5 puertos (0,34 mm ² ) con interfaces mesócronas , con un ancho de banda de 80 GB/s y una latencia de 1,25 ns a 4 GHz. ^[2] El motor de procesamiento de cada mosaico contiene dos unidades independientes de tubería de 9 etapas , acumulador multiplicador de punto flotante de precisión simple (FPMAC), 3 KB de memoria de instrucciones de ciclo único y 2 KB de memoria de datos. ^[3]Cada unidad FPMAC es capaz de realizar 2 operaciones de punto flotante de precisión simple por ciclo . Por lo tanto, cada mosaico tiene un rendimiento máximo estimado de 16 GFLOPS en la configuración estándar de 4 GHz. Una palabra de instrucción muy larga (VLIW) de 96 bits codifica hasta ocho operaciones por ciclo. ^[3] El conjunto de instrucciones personalizadas incluye instrucciones para enviar y recibir paquetes hacia/desde la red del chip, así como instrucciones para dormir y despertar un mosaico en particular. ^[4] Debajo de cada mosaico, se apiló en 3D un módulo SRAM de 256 KB (nombre en código Freya ), acercando así la memoria al procesador para aumentar el ancho de banda total de la memoria a 1 TB/s, a expensas de un mayor costo, estrés térmico y latencia, y una pequeña capacidad total de 20 MB. ^[7] Se demostró que la red de Polaris tiene un ancho de banda de bisección de 1,6 Tbit/s a 3,16 GHz y 2,92 Tbit/s a 5,67 GHz. ^[8]

Otras características destacadas del chip Teraflops Research incluyen su administración de energía de grano fino con 21 regiones de suspensión independientes en un mosaico y suspensión de mosaico dinámico, y una eficiencia energética muy alta con un pico teórico de 27 GFLOPS/W a 0,6 V y 19,4 GFLOPS/W reales para plantilla a 0,75 V. ^[4]^[9]

Intel tenía como objetivo ayudar al desarrollo de software para la nueva arquitectura exótica mediante la creación de un nuevo modelo de programación , especialmente para el chip, llamado Ct . El modelo nunca obtuvo lo que Intel esperaba y finalmente se incorporó a Intel Array Building Blocks , una biblioteca C++ ahora desaparecida.

Diagrama de teselas de Teraflops Research Chip.