Chipkill es la marca registrada de IBM para una forma de tecnología de memoria de computadora avanzada de verificación y corrección de errores (ECC) que protege los sistemas de memoria de computadora de cualquier falla de un solo chip de memoria, así como errores de varios bits de cualquier parte de un solo chip de memoria. [1] [2] Un esquema simple para realizar esta función dispersa los bits de una palabra ECC del código Hamming a través de múltiples chips de memoria, de modo que la falla de cualquier chip de memoria solo afectará a un bit ECC por palabra. Esto permite reconstruir el contenido de la memoria a pesar de la falla total de un chip. Las implementaciones típicas utilizan códigos más avanzados, como un código BCH, que puede corregir varios bits con menos gastos generales.
Chipkill se combina con frecuencia con dirección dinámica de bits , de modo que si un chip falla (o ha excedido un umbral de errores de bits), se usa otro chip de memoria de repuesto para reemplazar el chip fallado. El concepto es similar al de RAID , que protege contra fallas del disco, excepto que ahora el concepto se aplica a chips de memoria individuales. La tecnología fue desarrollada por IBM Corporation a principios y mediados de la década de 1990. Una característica importante de RAS , la tecnología Chipkill se implementa principalmente en SSD , mainframes y servidores de rango medio.
Un sistema equivalente de Sun Microsystems se denomina ECC extendido , mientras que los sistemas equivalentes de HP se denominan ECC avanzado [3] y Chipspare . Un sistema similar de Intel, llamado memoria Lockstep , proporciona la funcionalidad de corrección de datos de dispositivo doble (DDDC). [4] Los sistemas similares de Micron , llamados matriz redundante de NAND independientes (RAIN), y de SandForce , llamado RAISE nivel 2 , protegen los datos almacenados en SSD de cualquier chip flash NAND que se estropee. [5] [6]
Un artículo de 2009 que utilizó datos de los centros de datos de Google [7] proporcionó evidencia que demuestra que en los sistemas observados de Google, los errores de DRAM eran recurrentes en la misma ubicación y que el 8% de los DIMM se veían afectados cada año. En concreto, "En más del 85% de los casos, un error corregible va seguido de al menos un error corregible más en el mismo mes". Los DIMM con corrección de errores chipkill mostraron una fracción menor de DIMM que informan errores incorregibles en comparación con los DIMM con códigos de corrección de errores que solo pueden corregir errores de un solo bit. Un artículo de 2010 de la Universidad de Rochester también mostró que la memoria Chipkill dio errores de memoria sustancialmente menores, utilizando tanto trazas de memoria del mundo real como simulaciones. [8]
Ver también
Referencias
- ↑ Timothy J. Dell (19 de noviembre de 1997). "Un informe técnico sobre los beneficios del ECC Chipkill-Correct para la memoria principal del servidor de PC" (PDF) . IBM . Archivado desde el original (PDF) el 23 de septiembre de 2015 . Consultado el 2 de febrero de 2015 .
- ^ "Mejora de la confiabilidad del servidor IBM Netfinity: memoria IBM Chipkill" (PDF) . IBM . 2000. Archivado desde el original (PDF) el 23 de septiembre de 2015 . Consultado el 2 de febrero de 2015 .
- ^ "Pautas de mejores prácticas para servidores ProLiant con el informe técnico de ingeniería de la serie de procesadores Intel Xeon 5500, primera edición" (PDF) . HP . Mayo de 2009. p. 8 . Consultado el 9 de septiembre de 2014 .
- ^ Thomas Willhalm (11 de julio de 2014). "Canal independiente frente al modo Lockstep: impulsa tu memoria de forma más rápida o segura" . Intel . Consultado el 2 de febrero de 2015 .
- ^ Lee Hutchinson. "Revolución del estado sólido: en profundidad sobre cómo funcionan realmente los SSD" . 2012.
- ^ Eric Slack. "Cómo hacer SSD confiables - Flash NAND confiable" .
- ^ Schroeder, Bianca; Pinheiro, Eduardo; Weber, Wolf-Dietrich (2009). "Errores de DRAM en la naturaleza: un estudio de campo a gran escala" (PDF) . Actas de la XI Conferencia Conjunta Internacional sobre Medición y Modelado de Sistemas Computacionales . SIGMETRICS '09. ACM: 193-204. doi : 10.1145 / 1555349.1555372 . Consultado el 7 de septiembre de 2011 .
- ^ Li, Xin; Huang, Michael; Shen, Kai; Lingkun, Chu (2010). " " Una evaluación realista de los errores de hardware de la memoria y la susceptibilidad del sistema de software ". Conferencia anual de tecnología de Usenix 2010" (PDF) .
enlaces externos
- Implementación y validación de la corrección de datos de un solo dispositivo Intel E7500 MCH Intelx4 (x4 SDDC) , nota de aplicación Intel AP-726, agosto de 2002.
- El estudio de DRAM invierte las suposiciones sobre errores , Ars Technica , 7 de octubre de 2009
- Habilitación de las funciones de confiabilidad, disponibilidad y capacidad de servicio de la memoria en los servidores Dell PowerEdge , 2005
- Arquitectura de memoria correcta de Chipkill , agosto de 2000, por David Locklear
- Las matemáticas de Chipkill ECC , octubre de 2015, por Bob Day