En la gestión de redes , la gestión de fallas es el conjunto de funciones que detectan, aíslan y corrigen fallas en una red de telecomunicaciones, compensan los cambios ambientales e incluyen el mantenimiento y el examen de registros de errores , la aceptación y actuación sobre notificaciones de detección de errores, el seguimiento e identificación de fallas, llevar a cabo secuencias de pruebas de diagnóstico, corregir fallas, informar condiciones de error y localizar y rastrear fallas examinando y manipulando la información de la base de datos . [1]
Cuando ocurre una falla o un evento, un componente de la red a menudo envía una notificación al operador de la red usando un protocolo como SNMP . Una alarma es una indicación persistente de una falla que desaparece solo cuando se ha resuelto la condición de activación. Una lista actual de los problemas que ocurren en el componente de red a menudo se mantiene en forma de una lista de alarmas activas, como se define en RFC 3877, Alarm MIB . La mayoría de los sistemas de administración de redes también mantienen una lista de fallas eliminadas . [2]
Los sistemas de gestión de fallas pueden utilizar sistemas de filtrado complejos para asignar alarmas a niveles de gravedad. Estos pueden variar en severidad desde depuración hasta emergencia, como en el protocolo syslog . [3] Alternativamente, podrían utilizar el campo de gravedad percibida de la función de notificación de alarmas ITU X.733. Esto toma valores de borrado, indeterminado, crítico, mayor, menor o de advertencia. Tenga en cuenta que la última versión del borrador del protocolo syslog en desarrollo dentro del IETF incluye un mapeo entre estos dos conjuntos diferentes de severidades. Se considera una buena práctica enviar una notificación no solo cuando se ha producido un problema, sino también cuando se ha resuelto. La última notificación tendría una gravedad clara.
Una consola de gestión de fallas permite a un administrador de red o al operador del sistema monitorear eventos de múltiples sistemas y realizar acciones basadas en esta información. Idealmente, un sistema de gestión de fallas debería ser capaz de identificar correctamente los eventos y tomar medidas automáticamente, ya sea iniciando un programa o script para tomar una acción correctiva, o activando un software de notificación que permita a un ser humano realizar la intervención adecuada (es decir, enviar un correo electrónico o un mensaje de texto SMS). a un teléfono móvil ). Algunos sistemas de notificación también tienen reglas de escalamiento que notificarán a una cadena de personas según la disponibilidad y la gravedad de la alarma.
Tipos
Hay dos formas principales de realizar la gestión de fallos: activa y pasiva. La gestión pasiva de fallos se realiza mediante la recopilación de alarmas de los dispositivos (normalmente a través de trampas SNMP ) cuando algo sucede en los dispositivos. En este modo, el sistema de administración de fallas solo sabe si un dispositivo que está monitoreando es lo suficientemente inteligente como para generar un error e informarlo a la herramienta de administración. Sin embargo, si el dispositivo que se está monitoreando falla completamente o se bloquea, no generará una alarma y no se detectará el problema. La gestión activa de fallas aborda este problema al monitorear activamente los dispositivos a través de herramientas como ping para determinar si el dispositivo está activo y respondiendo. Si el dispositivo deja de responder, el monitoreo activo lanzará una alarma que indica que el dispositivo no está disponible y permite la corrección proactiva del problema.
La gestión de fallas incluye cualquier herramienta o procedimiento para probar, diagnosticar o reparar la red cuando ocurre una falla.
Ver también
Notas
- ^ "¿Qué es la gestión de fallas? - Definición de WhatIs.com" . Consultado el 6 de octubre de 2015 .
- ^ "¿Qué es la gestión de fallas? Una definición y guía introductoria" . Análisis, gestión y visor de registros de XpoLog . 2020-04-07 . Consultado el 15 de noviembre de 2020 .
- ^ RFC 3164
Referencias
- Este artículo incorpora material de dominio público del documento de la Administración de Servicios Generales : "Norma Federal 1037C" .(en apoyo de MIL-STD-188 )