Alta disponibilidad


La alta disponibilidad ( HA ) es una característica de un sistema que tiene como objetivo garantizar un nivel acordado de rendimiento operativo, generalmente tiempo de actividad , durante un período superior al normal.

La modernización ha dado lugar a una mayor dependencia de estos sistemas. Por ejemplo, los hospitales y los centros de datos requieren una alta disponibilidad de sus sistemas para realizar las actividades diarias de rutina. La disponibilidad se refiere a la capacidad de la comunidad de usuarios para obtener un servicio o bien, acceder al sistema, ya sea para enviar un nuevo trabajo, actualizar o modificar el trabajo existente, o recopilar los resultados del trabajo anterior. Si un usuario no puede acceder al sistema, que es - desde el punto de vista del usuario - no disponible . [1] Generalmente, el término tiempo de inactividad se usa para referirse a períodos en los que un sistema no está disponible.

Hay tres principios de diseño de sistemas en la ingeniería de confiabilidad que pueden ayudar a lograr una alta disponibilidad.

Se puede hacer una distinción entre tiempo de inactividad programado y no programado. Por lo general, el tiempo de inactividad programado es el resultado del mantenimiento que interrumpe el funcionamiento del sistema y, por lo general, no se puede evitar con un diseño de sistema instalado actualmente. Los eventos de tiempo de inactividad programados pueden incluir parches para el software del sistema que requieren un reinicio o cambios en la configuración del sistema que solo surten efecto al reiniciar. En general, el tiempo de inactividad programado suele ser el resultado de algún evento lógico iniciado por la administración. Los eventos de tiempo de inactividad no programados generalmente surgen de algún evento físico, como una falla de hardware o software o una anomalía ambiental. Ejemplos de eventos de tiempo de inactividad no programados incluyen cortes de energía, CPU fallida oComponentes de RAM (o posiblemente otros componentes de hardware con fallas), un apagado relacionado con sobretemperatura, conexiones de red interrumpidas lógica o físicamente, brechas de seguridad o varias fallas de aplicaciones , middleware y sistema operativo .

Si se puede advertir a los usuarios de los tiempos de inactividad programados, entonces la distinción es útil. Pero si el requisito es una verdadera alta disponibilidad, entonces el tiempo de inactividad es el tiempo de inactividad programado o no.

Muchos sitios de computación excluyen el tiempo de inactividad programado de los cálculos de disponibilidad, asumiendo que tiene poco o ningún impacto en la comunidad de usuarios de computación. Al hacer esto, pueden afirmar que tienen una disponibilidad extraordinariamente alta, lo que podría dar la ilusión de una disponibilidad continua . Los sistemas que exhiben una disponibilidad verdaderamente continua son comparativamente raros y de mayor precio, y la mayoría ha implementado cuidadosamente diseños especializados que eliminan cualquier punto único de falla y permiten actualizaciones, parches y reemplazos de hardware, red, sistema operativo, middleware y aplicaciones en línea. Para ciertos sistemas, el tiempo de inactividad programado no importa, por ejemplo, el tiempo de inactividad del sistema en un edificio de oficinas después de que todos se hayan ido a casa por la noche.