Fiabilidad, disponibilidad y facilidad de servicio

La confiabilidad, disponibilidad y capacidad de servicio ( RAS ), también conocida como confiabilidad , disponibilidad y capacidad de mantenimiento ( RAM ), es un término de ingeniería de hardware de computadora que involucra ingeniería de confiabilidad , alta disponibilidad y diseño de capacidad de servicio . La frase fue utilizada originalmente por International Business Machines ( IBM ) como un término para describir la robustez de sus computadoras mainframe . ^[1]^[2]

Las computadoras diseñadas con niveles más altos de RAS tienen muchas características que protegen la integridad de los datos y los ayudan a permanecer disponibles durante largos períodos de tiempo sin fallas ^[3] Esta integridad de datos y tiempo de actividad es un punto de venta particular para mainframes y sistemas tolerantes a fallas .

Definiciones [ editar ]

Si bien RAS se originó como un término orientado al hardware, el pensamiento de sistemas ha extendido el concepto de confiabilidad-disponibilidad-capacidad de servicio a los sistemas en general, incluido el software . ^[4]

La confiabilidad se puede definir como la probabilidad de que un sistema produzca salidas correctas hasta un tiempo determinado t . ^{[5] La} confiabilidad se ve reforzada por características que ayudan a evitar, detectar y reparar fallas de hardware. Un sistema confiable no continúa silenciosamente y entrega resultados que incluyen datos corruptos no corregidos. En cambio, detecta y, si es posible, corrige la corrupción, por ejemplo: reintentando una operación para errores transitorios ( suaves ) o intermitentes, o bien, para errores incorregibles, aislando la falla y reportándola a mecanismos de recuperación de nivel superior (que puede conmutar por errora hardware de reemplazo redundante, etc.), o bien deteniendo el programa afectado o todo el sistema y notificando la corrupción. La confiabilidad se puede caracterizar en términos de tiempo medio entre fallas (MTBF), con confiabilidad = exp (-t / MTBF). ^[5]
Disponibilidad significa la probabilidad de que un sistema esté operativo en un momento dado, es decir, la cantidad de tiempo que un dispositivo está realmente funcionando como porcentaje del tiempo total que debería estar funcionando. Los sistemas de alta disponibilidad pueden informar la disponibilidad en términos de minutos u horas de inactividad por año. Las características de disponibilidad permiten que el sistema permanezca operativo incluso cuando ocurren fallas. Un sistema de alta disponibilidad inhabilitaría la parte que funciona mal y continuaría operando a una capacidad reducida. Por el contrario, un sistema menos capaz podría fallar y dejar de funcionar por completo. La disponibilidad se da típicamente como un porcentaje del tiempo que se espera que un sistema esté disponible, por ejemplo, 99,999 por ciento (" cinco nueves ").
La facilidad de servicio o mantenibilidad es la simplicidad y velocidad con la que se puede reparar o mantener un sistema; si aumenta el tiempo necesario para reparar un sistema defectuoso, la disponibilidad disminuirá. La capacidad de servicio incluye varios métodos para diagnosticar fácilmente el sistema cuando surgen problemas. La detección temprana de fallas puede disminuir o evitar el tiempo de inactividad del sistema. Por ejemplo, algunos sistemas empresariales pueden llamar automáticamente a un centro de servicio (sin intervención humana) cuando el sistema experimenta una falla del sistema. El enfoque tradicional ha sido realizar las reparaciones correctas con la menor interrupción posible de las operaciones normales.

Tenga en cuenta la distinción entre confiabilidad y disponibilidad: la confiabilidad mide la capacidad de un sistema para funcionar correctamente, incluida la prevención de la corrupción de datos, mientras que la disponibilidad mide la frecuencia con la que el sistema está disponible para su uso, aunque no esté funcionando correctamente. Por ejemplo, un servidor puede funcionar indefinidamente y, por lo tanto, tener una disponibilidad ideal, pero puede no ser confiable, con frecuentes daños en los datos. ^[6]

Tipos de fallas [ editar ]

Las fallas físicas pueden ser temporales o permanentes.

Las fallas permanentes conducen a un error continuo y generalmente se deben a alguna falla física, como la electromigración del metal o la ruptura dieléctrica.
Las fallas temporales incluyen fallas transitorias e intermitentes .
- Las fallas transitorias (también conocidas como suaves ) conducen a errores independientes únicos y no se deben a fallas permanentes de hardware: los ejemplos incluyen partículas alfa que invierten un bit de memoria, ruido electromagnético o fluctuaciones de la fuente de alimentación.
- Las fallas intermitentes ocurren debido a un componente débil del sistema, por ejemplo, la degradación de los parámetros del circuito, lo que conduce a errores que probablemente se repitan. ^[5]

Respuestas fallidas [ editar ]

Las fallas transitorias e intermitentes generalmente se pueden manejar mediante detección y corrección, por ejemplo, mediante códigos ECC o reproducción de instrucciones (ver más abajo). Las fallas permanentes conducirán a errores incorregibles que pueden manejarse reemplazándolos por hardware duplicado, por ejemplo, reemplazando el procesador, o pasando el error incorregible a mecanismos de recuperación de alto nivel. Una falla intermitente corregida con éxito también se puede informar al sistema operativo (SO) para proporcionar información para el análisis predictivo de fallas .

Funciones de hardware [ editar ]

Las características de hardware de ejemplo para mejorar RAS incluyen las siguientes, enumeradas por subsistema:

Procesador :
- Detección de errores de instrucción del procesador (por ejemplo, comprobación de residuos de los resultados ^[7] ) con reintento de instrucciones, por ejemplo , recuperación de procesador alternativo en mainframes IBM, ^[8] o "tecnología de reproducción de instrucciones" en sistemas Itanium . ^[9]
- Procesadores que se ejecutan en paso de bloqueo para realizar esquemas de verificación o de votación.
- Machine Check Architecture e interfaz de errores de la plataforma ACPI para informar errores al sistema operativo.
Memoria :
- Protección de paridad o ECC (incluida la corrección de un solo dispositivo ) de los componentes de la memoria ( caché y memoria principal ); desactivación de la línea de caché incorrecta; depuración de la memoria ; ahorro de memoria, duplicación de memoria; ^[10] página incorrecta fuera de línea; dirección de bits redundante ; matriz redundante de memoria independiente (RAIM).
E / S :
- Sumas de comprobación de comprobación de redundancia cíclica para la transmisión / reintento de datos y el almacenamiento de datos, por ejemplo, Informe avanzado de errores (AER) de PCI Express (PCIe), ^[11] rutas de E / S redundantes .
Almacenamiento :
- Configuraciones RAID para almacenamiento en unidad de disco duro y unidad de estado sólido .
- Registro de sistemas de archivos para la reparación de archivos después de fallas.
- Sumas de comprobación de datos y metadatos, y depuración de antecedentes .
- Tecnología SMART para unidad de disco duro y unidad de estado sólido.
Energía / enfriamiento:
- Duplicar componentes para evitar puntos únicos de falla , por ejemplo, fuentes de alimentación.
- Diseñar en exceso el sistema para los rangos operativos especificados de frecuencia de reloj , temperatura, voltaje y vibración.
- Sensores de temperatura para acelerar la frecuencia de funcionamiento cuando la temperatura se sale de las especificaciones.
- Protector de sobretensión , sistema de alimentación ininterrumpida , de potencia auxiliar .
Sistema:
- Intercambio en caliente de componentes: CPU , RAM , unidades de disco duro y unidades de estado sólido .
- Análisis predictivo de fallas para predecir qué errores intermitentes corregibles conducirán eventualmente a errores graves no corregibles.
- Particionamiento / dominio de los componentes de la computadora para permitir que un sistema grande actúe como varios sistemas más pequeños.
- Máquinas virtuales para disminuir la gravedad de las fallas del software del sistema operativo .
- Dominios de E / S redundantes ^[12] o particiones de E / S ^[13] para proporcionar E / S virtual a las máquinas virtuales invitadas.
- Capacidad de agrupación de computadoras con capacidad de conmutación por error , para una redundancia completa de hardware y software.
- Actualización dinámica de software para evitar la necesidad de reiniciar el sistema para una actualización del software del kernel , por ejemplo, Ksplice en Linux.
- Procesador de gestión independiente para la capacidad de servicio: supervisión, alerta y control remotos.

Los diseños tolerantes a fallas ampliaron la idea al hacer que RAS fuera la característica definitoria de sus computadoras para aplicaciones como las bolsas de valores o el control del tráfico aéreo , donde las fallas del sistema serían catastróficas. Las computadoras tolerantes a fallas (p. Ej., Consulte Computadoras en tándem y tecnologías Stratus ), que tienden a tener componentes duplicados que se ejecutan en un paso de bloqueo para mayor confiabilidad, se han vuelto menos populares debido a su alto costo. Los sistemas de alta disponibilidad , que utilizan técnicas de computación distribuida como clústeres de computadoras , se utilizan a menudo como alternativas más baratas. ^{[ cita requerida]}

Ver también [ editar ]

Arquitectura de verificación de máquina
Redundancia (ingeniería)
Soporte logístico integrado
RAMS

Referencias [ editar ]

^ Siewiorek, Daniel P .; Swarz, Robert S. (1998). Sistemas informáticos fiables: diseño y evaluación . pag. 508 . CS1 maint: parámetro desalentado ( enlace ). "El acrónimo RAS (confiabilidad, accesibilidad y capacidad de servicio) tuvo una amplia aceptación en IBM como reemplazo de la noción de subconjunto de gestión de recuperación".
^ División de procesamiento de datos, International Business Machines Corp., 1970 (1970). "Procesador de datos, problemas 13-17". Cite journal requiere |journal=( ayuda )CS1 maint: multiple names: authors list (link)- "La confiabilidad [...] experimentada por otros usuarios de System / 370 es el resultado de una estrategia basada en RAS (confiabilidad-disponibilidad-capacidad de servicio)"
^ Siewert, Sam (marzo de 2005). "Grandes lecciones de hierro, Parte 2: Fiabilidad y disponibilidad: ¿Cuál es la diferencia?" (PDF) .
^ Por ejemplo: Laros III, James H. (2012). Computación de alto rendimiento energéticamente eficiente: medición y ajuste . SpringerBriefs en Ciencias de la Computación. et al . Springer Science & Business Media. pag. 8. ISBN 9781447144922. Consultado el 8 de julio de 2014 . Históricamente, los proveedores solían proporcionar sistemas de confiabilidad, disponibilidad y capacidad de servicio (RAS) en sistemas de clase mainframe. [...] El sistema RAS será una unión sistemática de software y hardware con el propósito de administrar y monitorear todos los componentes de hardware y software del sistema a su potencial individual. CS1 maint: discouraged parameter (link)
^ a b c E.J. McClusky y S. Mitra (2004). "Tolerancia a fallas" en el Manual de Ciencias de la Computación 2ed. ed. AB Tucker. Prensa CRC .
^ Spencer, Richard H .; Floyd, Raymond E. (2011). Perspectivas de la ingeniería . Bloomington, Indiana: AuthorHouse. pag. 33. ISBN 9781463410919. Consultado el 5 de mayo de 2014 . [...] un servidor de sistema puede tener una excelente disponibilidad (se ejecuta para siempre), pero continúa teniendo frecuentes daños en los datos (no muy confiable). CS1 maint: discouraged parameter (link)
^ Daniel Lipetz y Eric Schwarz (2011). "Autocomprobación en unidades de coma flotante actuales. Actas del 20º Simposio IEEE sobre aritmética informática de 2011" (PDF) . Archivado desde el original (PDF) el 24 de enero de 2012.
^ L. Spainhower & TA Gregg (septiembre de 1999). "Tolerancia a fallas del servidor empresarial paralelo G5 de IBM S / 390: una perspectiva histórica. Revista de investigación y desarrollo de IBM. Volumen 43 Edición 5" (PDF) . CiteSeerX 10.1.1.85.5994 .
^ "La tecnología de reproducción de instrucciones Intel detecta y corrige errores" . Consultado el 7 de diciembre de 2012 . CS1 maint: discouraged parameter (link)
^ HP. "Evolución de la tecnología de la memoria: una descripción general de las tecnologías de la memoria del sistema Resumen tecnológico, novena edición (página 8)" (PDF) . Archivado desde el original (PDF) el 24 de julio de 2011. CS1 maint: discouraged parameter (link)
^ Intel Corp. (2003). "PCI Express proporciona confiabilidad, disponibilidad y facilidad de servicio para las empresas" .
^ "Mejores prácticas para la confiabilidad de los datos con Oracle VM Server para SPARC" (PDF) . Consultado el 2 de julio de 2013 . CS1 maint: discouraged parameter (link)
^ "Consideraciones de redundancia de energía de IBM" . Consultado el 2 de julio de 2013 . CS1 maint: discouraged parameter (link)

Enlaces externos [ editar ]

Características de confiabilidad, disponibilidad y capacidad de servicio (RAS) de Itanium Descripción general de las características de RAS en general y características específicas del procesador Itanium .
POWER7 System RAS Aspectos clave de los sistemas de potencia Fiabilidad, disponibilidad y facilidad de servicio. Daniel Henderson, Jim Mitchell y George Ahrens. 10 de febrero de 2012 Descripción general de las características RAS en los procesadores POWER .
Intel Corp. Confiabilidad, disponibilidad y facilidad de servicio para la empresa Always-on (apéndice B) y la familia de procesadores Intel Xeon E7: compatible con servidores RAS de próxima generación. Papel blanco. Descripción general de las funciones de RAS en los procesadores Xeon .
Descripción general del sistema zEnterprise 196. IBM Corp. (Capítulo 10) Visión general de las características RAS del procesador IBM z196 y el servidor zEnterprise 196 .
Maximización de la confiabilidad y disponibilidad de las aplicaciones con las funciones RAS del servidor SPARC M5-32 del servidor SPARC M5-32 de Oracle

[1] Siewiorek, Daniel P .; Swarz, Robert S. (1998). Sistemas informáticos fiables: diseño y evaluación . pag. 508 . CS1 maint: parámetro desalentado ( enlace ). "El acrónimo RAS (confiabilidad, accesibilidad y capacidad de servicio) tuvo una amplia aceptación en IBM como reemplazo de la noción de subconjunto de gestión de recuperación".

[2] División de procesamiento de datos, International Business Machines Corp., 1970 (1970). "Procesador de datos, problemas 13-17". Cite journal requiere |journal=( ayuda )CS1 maint: multiple names: authors list (link)- "La confiabilidad [...] experimentada por otros usuarios de System / 370 es el resultado de una estrategia basada en RAS (confiabilidad-disponibilidad-capacidad de servicio)"

[3] Siewert, Sam (marzo de 2005). "Grandes lecciones de hierro, Parte 2: Fiabilidad y disponibilidad: ¿Cuál es la diferencia?" (PDF) .

[4] Por ejemplo: Laros III, James H. (2012). Computación de alto rendimiento energéticamente eficiente: medición y ajuste . SpringerBriefs en Ciencias de la Computación. et al . Springer Science & Business Media. pag. 8. ISBN 9781447144922. Consultado el 8 de julio de 2014 . Históricamente, los proveedores solían proporcionar sistemas de confiabilidad, disponibilidad y capacidad de servicio (RAS) en sistemas de clase mainframe. [...] El sistema RAS será una unión sistemática de software y hardware con el propósito de administrar y monitorear todos los componentes de hardware y software del sistema a su potencial individual. CS1 maint: discouraged parameter (link)

[McClusky-5] E.J. McClusky y S. Mitra (2004). "Tolerancia a fallas" en el Manual de Ciencias de la Computación 2ed. ed. AB Tucker. Prensa CRC .

[6] Spencer, Richard H .; Floyd, Raymond E. (2011). Perspectivas de la ingeniería . Bloomington, Indiana: AuthorHouse. pag. 33. ISBN 9781463410919. Consultado el 5 de mayo de 2014 . [...] un servidor de sistema puede tener una excelente disponibilidad (se ejecuta para siempre), pero continúa teniendo frecuentes daños en los datos (no muy confiable). CS1 maint: discouraged parameter (link)

[7] Daniel Lipetz y Eric Schwarz (2011). "Autocomprobación en unidades de coma flotante actuales. Actas del 20º Simposio IEEE sobre aritmética informática de 2011" (PDF) . Archivado desde el original (PDF) el 24 de enero de 2012.

[8] L. Spainhower & TA Gregg (septiembre de 1999). "Tolerancia a fallas del servidor empresarial paralelo G5 de IBM S / 390: una perspectiva histórica. Revista de investigación y desarrollo de IBM. Volumen 43 Edición 5" (PDF) . CiteSeerX 10.1.1.85.5994 .

[9] "La tecnología de reproducción de instrucciones Intel detecta y corrige errores" . Consultado el 7 de diciembre de 2012 . CS1 maint: discouraged parameter (link)

[10] HP. "Evolución de la tecnología de la memoria: una descripción general de las tecnologías de la memoria del sistema Resumen tecnológico, novena edición (página 8)" (PDF) . Archivado desde el original (PDF) el 24 de julio de 2011. CS1 maint: discouraged parameter (link)

[11] Intel Corp. (2003). "PCI Express proporciona confiabilidad, disponibilidad y facilidad de servicio para las empresas" .

[12] "Mejores prácticas para la confiabilidad de los datos con Oracle VM Server para SPARC" (PDF) . Consultado el 2 de julio de 2013 . CS1 maint: discouraged parameter (link)

[13] "Consideraciones de redundancia de energía de IBM" . Consultado el 2 de julio de 2013 . CS1 maint: discouraged parameter (link)

[1]