El análisis predictivo de fallas ( PFA ) se refiere a métodos destinados a predecir fallas inminentes de sistemas o componentes (software o hardware) y potencialmente habilitar mecanismos para evitar o contrarrestar problemas de fallas, o recomendar el mantenimiento de sistemas antes de fallas.
Por ejemplo, mecanismos informáticos que analizan tendencias en errores corregidos para predecir fallas futuras de componentes de hardware / memoria y habilitan proactivamente mecanismos para evitarlos. El análisis predictivo de fallas se usó originalmente como término para una tecnología patentada de IBM para monitorear la probabilidad de fallas de las unidades de disco duro , aunque el término ahora se usa genéricamente para una variedad de tecnologías para juzgar la falla inminente de CPU, memoria y dispositivos de E / S. . [1] Véase también la captura de datos del primer fallo .
Discos
IBM introdujo el término PFA y su tecnología en 1992 con referencia a su unidad 0662-S1x (disco Fast-Wide SCSI-2 de 1052 MB que funcionaba a 5400 rpm ).
La tecnología se basa en medir varios parámetros clave (principalmente mecánicos) de la unidad de accionamiento, por ejemplo, la altura de vuelo de las cabezas . El firmware del variador compara los parámetros medidos con los umbrales predefinidos y evalúa el estado de salud del variador. Si parece probable que la unidad falle pronto, el sistema envía una notificación al controlador de disco.
Los principales inconvenientes de la tecnología incluyen:
- el resultado binario: el único estado visible para el host era la presencia o ausencia de una notificación
- las comunicaciones unidireccionales: el firmware del variador envía una notificación
La tecnología se fusionó con IntelliSafe para formar la tecnología de autocontrol, análisis e informes (SMART).
Procesador y memoria
Los recuentos altos de errores intermitentes de RAM corregidos por ECC pueden predecir fallas futuras de DIMM [2] y, por lo tanto, la desconexión automática de memoria y cachés de CPU se puede usar para evitar errores futuros, [3] por ejemplo, bajo el sistema operativo Linux , el demonio mcelog lo hará. eliminará automáticamente de la memoria de uso las páginas que muestran correcciones excesivas y eliminará del uso los núcleos del procesador que muestren errores de memoria corregibles de caché excesiva. [4]
Medios ópticos
En medios ópticos ( CD , DVD y Blu-ray ), se pueden predecir las fallas causadas por la degradación de los medios y se pueden detectar los medios de baja calidad de fabricación antes de que ocurra la pérdida de datos midiendo la tasa de errores de datos corregibles utilizando software como QpxTool o Nero DiscSpeed . Sin embargo, no todos los proveedores y modelos de unidades ópticas permiten el escaneo de errores. [5]
Referencias
- ^ Intel Corp (2011). "Familia de procesadores Intel Xeon E7: compatible con servidores RAS de próxima generación. Libro blanco" . Consultado el 9 de mayo de 2012 .
- ^ Bianca Schroeder; Eduardo Pinheiro; Wolf-Dietrich Weber (2009). "Errores de DRAM en la naturaleza: un estudio de campo a gran escala. Actas SIGMETRICS, 2009" .
- ^ Tang, Arruthers, Totari, Shapiro (2006). " " Evaluación del efecto del retiro de la página de memoria en sistemas RAS contra fallas de hardware ", Actas de la Conferencia Internacional de 2006 sobre redes y sistemas confiables".CS1 maint: varios nombres: lista de autores ( enlace )
- ^ "mcelog - manejo de errores de memoria en el espacio de usuario. Linux Kongress 2010" (PDF) . 2010.
- ^ Lista de dispositivos compatibles con el software de escaneo de calidad dosc QPxTool '