La recuperación de desastres consiste en un conjunto de políticas, instrumentos y procedimientos que permitan la recuperación o el mantenimiento de la infraestructura de la tecnología y los sistemas vitales después de un naturales o inducidos por el hombre desastre . La recuperación ante desastres se centra en los sistemas de tecnología o de TI que respaldan las funciones críticas del negocio, [1] en contraposición a la continuidad del negocio , que implica mantener todos los aspectos esenciales de un negocio en funcionamiento a pesar de eventos disruptivos importantes. Por tanto, la recuperación ante desastres puede considerarse un subconjunto de la continuidad empresarial. [2] [3] Disaster Recovery asume que el sitio primario no es recuperable (al menos por algún tiempo) y representa un proceso de restauración de datos y servicios a un sitio secundario sobrevivido, que es opuesto al proceso de restauración a su lugar original.
Continuidad del servicio de TI
Continuidad del servicio de TI [4] [5] (ITSC) es un subconjunto de la planificación de la continuidad del negocio (BCP) [6] y abarca la planificación de recuperación de desastres de TI y la planificación de resiliencia de TI más amplia. También incorpora los elementos de la infraestructura y los servicios de TI relacionados con las comunicaciones, como la telefonía (de voz) y las comunicaciones de datos.
El Plan ITSC refleja el Objetivo de Punto de Recuperación (RPO - transacciones recientes) y el Objetivo de Tiempo de Recuperación (RTO - intervalos de tiempo).
Principios de los sitios de respaldo
La planificación incluye la organización de sitios de respaldo, ya sean sitios calientes, tibios, fríos o en espera, con el hardware necesario para la continuidad.
En 2008, la British Standards Institution lanzó un estándar específico conectado y compatible con el Estándar de Continuidad del Negocio BS 25999 titulado BS25777 específicamente para alinear la continuidad informática con la continuidad del negocio. Esto se retiró tras la publicación en marzo de 2011 de ISO / IEC 27031 - Técnicas de seguridad - Directrices para la preparación de las tecnologías de la información y las comunicaciones para la continuidad del negocio.
ITIL ha definido algunos de estos términos. [7]
Objetivo de tiempo de recuperación
El objetivo de tiempo de recuperación ( RTO ) [8] [9] es la duración prevista y un nivel de servicio dentro del cual se debe restaurar un proceso comercial después de un desastre (o interrupción) para evitar consecuencias inaceptables asociadas con una interrupción en el negocio. continuidad . [10]
En la metodología aceptada de planificación de la continuidad del negocio , el propietario de un proceso establece el RTO durante el Análisis de impacto empresarial (BIA), incluida la identificación de los marcos de tiempo de las opciones para soluciones alternativas o manuales.
En gran parte de la literatura sobre este tema, se habla de RTO como un complemento del objetivo de punto de recuperación (RPO), con las dos métricas que describen los límites del desempeño ITSC aceptable o "tolerable" en términos de tiempo perdido (RTO) de el funcionamiento normal del proceso empresarial y en términos de datos perdidos o no respaldados durante ese período de tiempo (RPO), respectivamente. [10] [11]
Tiempo de recuperación real
Una descripción general de Forbes [8] señaló que el tiempo de recuperación real (RTA) es "la métrica crítica para la continuidad del negocio y la recuperación ante desastres".
La RTA se establece durante ejercicios o eventos reales. El grupo de continuidad del negocio mide el tiempo de los ensayos (o los datos reales) y realiza los refinamientos necesarios. [8] [12]
Objetivo de punto de recuperación
Un objetivo de punto de recuperación (RPO) se define mediante la planificación de la continuidad del negocio . Es el período objetivo máximo en el que se pueden perder datos (transacciones) de un servicio de TI debido a un incidente importante. [10]
Si el RPO se mide en minutos (o incluso en unas pocas horas), entonces, en la práctica, las copias de seguridad reflejadas fuera del sitio deben mantenerse continuamente ; una copia de seguridad diaria en cinta fuera del sitio no será suficiente. [13]
Relación con el objetivo de tiempo de recuperación
La recuperación que no es instantánea restaurará los datos / transacciones durante un período de tiempo y lo hará sin incurrir en riesgos significativos o pérdidas significativas. [10]
RPO mide el período de tiempo máximo en el que los datos recientes podrían haberse perdido permanentemente en caso de un incidente importante y no es una medida directa de la cantidad de dicha pérdida. Por ejemplo, si el plan BC es "restaurar hasta la última copia de seguridad disponible", entonces el RPO es el intervalo máximo entre dicha copia de seguridad que se ha guardado de forma segura fuera del sitio.
El análisis de impacto empresarial se utiliza para determinar el RPO para cada servicio y el RPO no está determinado por el régimen de respaldo existente. Cuando se requiere cualquier nivel de preparación de datos fuera del sitio, el período durante el cual se pueden perder los datos a menudo comienza cerca del momento del comienzo del trabajo para preparar las copias de seguridad, no el momento en que las copias de seguridad se toman fuera del sitio. [11]
Puntos de sincronización de datos
Aunque un punto de sincronización de datos [14] es un punto en el tiempo, se debe incluir el tiempo para realizar la copia de seguridad física. Un enfoque utilizado es detener el procesamiento de una cola de actualización, mientras se realiza una copia de disco a disco. La copia de seguridad [15] refleja el momento anterior de esa operación de copia, no cuando los datos se copian en una cinta o se transmiten a otro lugar.
Cómo afectan los valores de RTO y RPO al diseño del sistema informático
El RTO y el RPO deben estar equilibrados, teniendo en cuenta el riesgo empresarial, junto con todos los demás criterios importantes de diseño del sistema. [dieciséis]
El RPO está vinculado a las veces que las copias de seguridad se envían fuera del sitio. La transferencia a través de copias sincrónicas a un espejo externo permite la mayoría de las dificultades imprevistas. El uso de transporte físico para cintas (u otros medios transportables) cubre cómodamente algunas necesidades de respaldo a un costo relativamente bajo. La recuperación se puede realizar en un sitio predeterminado. El espacio y el hardware compartidos fuera del sitio completan el paquete necesario. [17]
Para grandes volúmenes de datos de transacciones de alto valor, el hardware se puede dividir en dos o más sitios; dividirse en áreas geográficas agrega resiliencia.
Historia
La planificación para la recuperación de desastres y la tecnología de la información (TI) se desarrolló a mediados y finales de la década de 1970 cuando los gerentes de los centros de cómputo comenzaron a reconocer la dependencia de sus organizaciones de sus sistemas informáticos.
En ese momento, la mayoría de los sistemas eran mainframes orientados a lotes . Se podría cargar otro mainframe externo desde cintas de respaldo en espera de la recuperación del sitio primario; el tiempo de inactividad fue relativamente menos crítico.
La industria de recuperación de desastres [18] [19] se desarrolló para proporcionar centros de computación de respaldo. Uno de los primeros centros de este tipo se encontraba en Sri Lanka (Sungard Availability Services, 1978). [20] [21]
Durante las décadas de 1980 y 1990, a medida que aumentaba el tiempo compartido corporativo interno, la entrada de datos en línea y el procesamiento en tiempo real , se necesitaba una mayor disponibilidad de los sistemas de TI.
Las agencias reguladoras se involucraron incluso antes del rápido crecimiento de Internet durante la década de 2000; A menudo se exigían objetivos de 2, 3, 4 o 5 nueves (99,999%) y se buscaban soluciones de alta disponibilidad para instalaciones de hot-site . [ cita requerida ]
La continuidad del servicio de TI es esencial para muchas organizaciones en la implementación de la gestión de la continuidad del negocio (BCM) y la gestión de la seguridad de la información (ICM) y como parte de la gestión de la seguridad de la información de implementación y operación, así como la gestión de la continuidad del negocio como se especifica en ISO / IEC 27001 ISO 22301 respectivamente.
El auge de la computación en la nube desde 2010 continúa esa tendencia: hoy en día, importa aún menos dónde se prestan servicios de computación físicamente, siempre que la red en sí sea lo suficientemente confiable (un problema separado y menos preocupante ya que las redes modernas son altamente resistentes por diseño). La 'recuperación como servicio' (RaaS) es una de las características o beneficios de seguridad de la computación en la nube que promueve Cloud Security Alliance. [22]
Clasificación de desastres
Los desastres pueden ser el resultado de tres amplias categorías de amenazas y peligros. La primera categoría son los peligros naturales que incluyen actos de la naturaleza como inundaciones, huracanes, tornados, terremotos y epidemias. La segunda categoría son los peligros tecnológicos que incluyen accidentes o fallas de sistemas y estructuras como explosiones de tuberías, accidentes de transporte, interrupciones de servicios públicos, fallas de presas y escapes accidentales de materiales peligrosos. La tercera categoría son las amenazas causadas por humanos que incluyen actos intencionales como ataques de agresores activos, ataques químicos o biológicos, ataques cibernéticos contra datos o infraestructura y sabotaje. Las medidas de preparación para todas las categorías y tipos de desastres se incluyen en las cinco áreas de misión de prevención, protección, mitigación, respuesta y recuperación. [23]
Importancia de la planificación de la recuperación ante desastres
Investigaciones recientes respaldan la idea de que implementar un enfoque de planificación predesastre más holístico es más rentable a largo plazo. Cada $ 1 gastado en mitigación de peligros (como un plan de recuperación de desastres ) le ahorra a la sociedad $ 4 en costos de respuesta y recuperación. [24]
Las estadísticas de recuperación ante desastres de 2015 sugieren que el tiempo de inactividad de una hora puede costar
- pequeñas empresas hasta $ 8.000,
- organizaciones medianas $ 74,000, y
- grandes empresas $ 700.000. [25]
A medida que los sistemas de TI se han vuelto cada vez más críticos para el buen funcionamiento de una empresa y, posiblemente, la economía en su conjunto, ha aumentado la importancia de garantizar el funcionamiento continuo de esos sistemas y su rápida recuperación. Por ejemplo, de las empresas que tuvieron una pérdida importante de datos comerciales, el 43% nunca vuelve a abrir y el 29% cierra en dos años. Como resultado, la preparación para la continuación o recuperación de sistemas debe tomarse muy en serio. Esto implica una importante inversión de tiempo y dinero con el objetivo de asegurar pérdidas mínimas en caso de un evento disruptivo. [26]
Medidas de control
Las medidas de control son pasos o mecanismos que pueden reducir o eliminar diversas amenazas para las organizaciones. Se pueden incluir diferentes tipos de medidas en un plan de recuperación ante desastres (DRP).
La planificación de la recuperación ante desastres es un subconjunto de un proceso más amplio conocido como planificación de la continuidad del negocio e incluye la planificación para la reanudación de aplicaciones, datos, hardware, comunicaciones electrónicas (como redes) y otra infraestructura de TI. Un plan de continuidad del negocio (BCP) incluye la planificación de aspectos no relacionados con las TI, como el personal clave, las instalaciones, la comunicación de crisis y la protección de la reputación, y debe consultar el plan de recuperación ante desastres (DRP) para la recuperación / continuidad de la infraestructura relacionada con las TI.
Las medidas de control de recuperación de desastres de TI se pueden clasificar en los siguientes tres tipos:
- Medidas preventivas: controles destinados a evitar que ocurra un evento.
- Medidas de detección: controles destinados a detectar o descubrir eventos no deseados.
- Medidas correctivas: controles destinados a corregir o restaurar el sistema después de un desastre o evento.
Las buenas medidas del plan de recuperación ante desastres exigen que estos tres tipos de controles se documenten y se ejerzan con regularidad mediante las llamadas "pruebas de recuperación ante desastres".
Estrategias
Antes de seleccionar una estrategia de recuperación ante desastres, un planificador de recuperación ante desastres primero se refiere al plan de continuidad del negocio de su organización, que debe indicar las métricas clave de Objetivo de punto de recuperación y Objetivo de tiempo de recuperación. [27] Luego, las métricas de los procesos comerciales se asignan a sus sistemas e infraestructura. [28]
No planificar adecuadamente puede extender el impacto del desastre. [29] Una vez que se han mapeado las métricas, la organización revisa el presupuesto de TI; Las métricas de RTO y RPO deben ajustarse al presupuesto disponible. Un análisis de costo-beneficio a menudo dicta las medidas de recuperación de desastres que se implementan.
Agregar respaldo basado en la nube a los beneficios del archivo en cinta local y externo, escribió el New York Times , "agrega una capa de protección de datos". [30]
Las estrategias comunes para la protección de datos incluyen:
- copias de seguridad realizadas en cinta y enviadas fuera del sitio a intervalos regulares
- copias de seguridad realizadas en disco en el sitio y copiadas automáticamente en un disco externo, o realizadas directamente en un disco externo
- replicación de datos en una ubicación fuera del sitio, que supera la necesidad de restaurar los datos (solo los sistemas deben restaurarse o sincronizarse), a menudo haciendo uso de la tecnología de red de área de almacenamiento (SAN)
- Soluciones de nube privada que replican los datos de gestión (máquinas virtuales, plantillas y discos) en los dominios de almacenamiento que forman parte de la configuración de la nube privada. Estos datos de gestión se configuran como una representación xml denominada OVF (Open Virtualization Format) y se pueden restaurar una vez que ocurre un desastre.
- Soluciones de nube híbrida que se replican tanto en el sitio como en los centros de datos fuera del sitio. Estas soluciones brindan la capacidad de conmutar por error instantáneamente al hardware local en el sitio, pero en el caso de un desastre físico, los servidores también se pueden activar en los centros de datos en la nube.
- el uso de sistemas de alta disponibilidad que mantienen tanto los datos como el sistema replicados fuera del sitio, permitiendo el acceso continuo a los sistemas y datos, incluso después de un desastre (a menudo asociado con el almacenamiento en la nube ) [31]
En muchos casos, una organización puede optar por utilizar un proveedor de recuperación de desastres subcontratado para proporcionar un sitio y sistemas de reserva en lugar de utilizar sus propias instalaciones remotas, cada vez más a través de la computación en la nube .
Además de prepararse para la necesidad de recuperar sistemas, las organizaciones también implementan medidas de precaución con el objetivo de prevenir un desastre en primer lugar. Estos pueden incluir:
- espejos locales de sistemas y / o datos y uso de tecnología de protección de disco como RAID
- protectores contra sobretensiones: para minimizar el efecto de las sobretensiones en equipos electrónicos delicados
- uso de una fuente de alimentación ininterrumpida (UPS) y / o generador de respaldo para mantener los sistemas en funcionamiento en caso de una falla de energía
- sistemas de prevención / mitigación de incendios, como alarmas y extintores de incendios
- software antivirus y otras medidas de seguridad
Recuperación ante desastres como servicio (DRaaS)
Recuperación ante desastres como servicio DRaaS es un acuerdo con un tercero, un proveedor. [32] Ofrecido habitualmente por proveedores de servicios como parte de su cartera de servicios.
Aunque se han publicado listas de proveedores, la recuperación ante desastres no es un producto, es un servicio, aunque varios grandes proveedores de hardware han desarrollado ofertas móviles / modulares que se pueden instalar y poner en funcionamiento en muy poco tiempo.
- Cisco Systems [33]
- Google ( Google Modular Data Center ) ha desarrollado sistemas que podrían utilizarse para este propósito. [34] [35]
- Toro (mobull) [36]
- HP (centro de datos con rendimiento optimizado ) [37]
- Huawei (solución de centro de datos de contenedores), [38]
- IBM ( centro de datos modular portátil )
- Schneider-Electric ( centro de datos modular portátil )
- Sun Microsystems ( Centro de datos modular Sun ) [39] [40]
- Servicios de disponibilidad SunGard
- Corporación ZTE
Ver también
- Sitio de respaldo
- Continuidad del negocio
- Planificación de la Continuidad del Negocio
- Protección de datos continua
- Plan de recuperación en un desastre
- Respuesta al desastre
- Gestión de emergencias
- Alta disponibilidad
- Plan de contingencia del sistema de información
- Recuperación en tiempo real
- Objetivo de coherencia de recuperación
- Servicio de respaldo remoto
- Biblioteca de cintas virtual
- BS 25999
Referencias
- ^ Continuidad de sistemas y operaciones: recuperación ante desastres. Universidad de Georgetown. Servicios de información universitaria. Consultado el 3 de agosto de 2012.
- ^ Disaster Recovery and Business Continuity, versión 2011. Archivado el 11 de enero de 2013 en Wayback Machine IBM. Consultado el 3 de agosto de 2012.
- ^ [1] '¿Qué es la gestión de la continuidad del negocio?', DRI International, 2017
- ^ M. Niemimaa; Steven Buchanan (marzo de 2017). "Proceso de continuidad de los sistemas de información" . ACM .com (Biblioteca digital ACM) .
- ^ "Directorio de continuidad del servicio de TI de 2017" (PDF) . Diario de recuperación ante desastres .
- ^ "Defendiendo los estratos de datos" . ForbesMiddleEast.com . 24 de diciembre de 2013.
- ^ "Glosario y abreviaturas de ITIL" .
- ^ a b c "Como el Draft de la NFL, es el reloj el enemigo de su tiempo de recuperación" . Forbes . 30 de abril de 2015.
- ^ "Tres razones por las que no puede cumplir con su tiempo de recuperación ante desastres" . Forbes . 10 de octubre de 2013.
- ^ a b c d "Comprensión de RPO y RTO" . DRUVA. 2008 . Consultado el 13 de febrero de 2013 .
- ^ a b "Cómo encajar RPO y RTO en sus planes de copia de seguridad y recuperación" . SearchStorage . Consultado el 20 de mayo de 2019 .
- ^ "Reloj ... modificaciones
- ^ Richard May. "Encontrar RPO y RTO" . Archivado desde el original el 3 de marzo de 2016.
- ^ "Transferencia y sincronización de datos entre sistemas móviles" . 14 de mayo de 2013.
- ^ "Enmienda # 5 a S-1" . SEC.gov .
en tiempo real ... proporcionan redundancia y respaldo a ...
- ^ Peter H. Gregory (3 de marzo de 2011). "Establecimiento del tiempo de inactividad máximo tolerable: establecimiento de objetivos de recuperación" . Planificación de recuperación ante desastres de TI para principiantes . Wiley. págs. 19-22. ISBN 978-1118050637.
- ^ William Caelli; Denis Longley (1989). Seguridad de la información para gerentes . pag. 177. ISBN 1349101370.
- ^ "¿Catástrofe? Posiblemente no puede suceder aquí" . The New York Times . 29 de enero de 1995.
.. registros de pacientes
- ^ "Propiedad comercial / Recuperación ante desastres" . NYTimes.com . 9 de octubre de 1994.
... la industria de recuperación de desastres ha crecido hasta
- ^ Charlie Taylor (30 de junio de 2015). "La empresa de tecnología estadounidense Sungard anuncia 50 puestos de trabajo para Dublín" . The Irish Times .
Sungard .. fundada 1978
- ^ Cassandra Mascarenhas (12 de noviembre de 2010). "SunGard será una presencia vital en la industria bancaria" . Wijeya Newspapers Ltd.
SunGard ... El futuro de Sri Lanka.
- ^ SecaaS Category 9 // BCDR Implementation Guidance CSA, consultado el 14 de julio de 2014.
- ^ "Evaluación de riesgos e identificación de amenazas y peligros (THIRA) y revisión de la preparación de las partes interesadas (SPR): Guía Guía de preparación integral (CPG) 201, 3ª edición" (PDF) . Departamento de Seguridad Nacional de EE. UU. Mayo de 2018.
- ^ "Foro de planificación de recuperación posterior a desastres: guía práctica, preparada por la Asociación para la resiliencia ante desastres" . Centro de servicios comunitarios de la Universidad de Oregón, (C) 2007, www.OregonShowcase.org . Consultado el 29 de octubre de 2018 .
- ^ "La importancia de la recuperación ante desastres" . Consultado el 29 de octubre de 2018 .
- ^ "Plan de recuperación ante desastres de TI" . FEMA. 25 de octubre de 2012 . Consultado el 11 de mayo de 2013 .
- ^ Las prácticas profesionales para la gestión de la continuidad del negocio, Disaster Recovery Institute International (DRI), 2017
- ^ Gregory, Peter. Guía de exámenes todo en uno para auditores de sistemas de información certificados por CISA, 2009. ISBN 978-0-07-148755-9 . Página 480.
- ^ "Cinco errores que pueden acabar con un plan de recuperación ante desastres" . Dell.com. Archivado desde el original el 16 de enero de 2013 . Consultado el 22 de junio de 2012 .
- ^ JD Biersdorfer (5 de abril de 2018). "Supervisión del estado de una unidad de respaldo" . The New York Times .
- ^ Brandon, John (23 de junio de 2011). "Cómo utilizar la nube como estrategia de recuperación ante desastres" . Inc . Consultado el 11 de mayo de 2013 .
- ^ "Recuperación ante desastres como servicio (DRaaS)" .
- ^ "Información y video sobre la solución de Cisco" . Conocimiento del centro de datos. 15 de mayo de 2007. Archivado desde el original el 19 de mayo de 2008 . Consultado el 11 de mayo de 2008 .
- ^ Kraemer, Brian (11 de junio de 2008). "Proyecto de IBM Big Green da un segundo paso" . ChannelWeb. Archivado desde el original el 11 de junio de 2008 . Consultado el 11 de mayo de 2008 .
- ^ "Guía de adquisición de centros de datos modulares / de contenedores: optimización para la eficiencia energética y la implementación rápida" (PDF) . Archivado desde el original (PDF) el 31 de mayo de 2013 . Consultado el 30 de agosto de 2013 .
- ^ Kidger, Daniel. "Mobull Plug and Boot Datacenter" . Toro. Archivado desde el original el 19 de noviembre de 2010 . Consultado el 24 de mayo de 2011 .
- ^ "Centro de datos optimizado para rendimiento de HP (POD) 20c y 40c - Descripción general del producto" . H18004.www1.hp.com. Archivado desde el original el 22 de enero de 2015 . Consultado el 30 de agosto de 2013 .
- ^ "Solución de centro de datos de contenedores de Huawei" . Huawei . Consultado el 17 de mayo de 2014 .
- ^ "Especificaciones técnicas de Sun's Blackbox" . Archivado desde el original el 13 de mayo de 2008 . Consultado el 11 de mayo de 2008 .
- ^ Y artículo de Wiki en inglés sobre el centro de datos modular de Sun
Otras lecturas
- ISO / IEC 22301: 2012 (reemplazo de BS-25999: 2007) Seguridad social - Sistemas de gestión de la continuidad del negocio - Requisitos
- ISO / IEC 27001: 2013 (reemplazo de ISO / IEC 27001: 2005 [anteriormente BS 7799-2: 2002]) Sistema de gestión de seguridad de la información
- ISO / IEC 27002: 2013 (reemplazo de ISO / IEC 27002: 2005 [renumerado ISO17799: 2005]) Gestión de la seguridad de la información - Código de prácticas
- ISO / IEC 22399: 2007 Directriz para la preparación para incidentes y la gestión de la continuidad operativa
- ISO / IEC 24762: 2008 Directrices para servicios de recuperación de desastres de tecnología de la información y las comunicaciones
- Prácticas profesionales para la gestión de la continuidad empresarial , Disaster Recovery Institute International (DRI), 2017
- IWA 5: Preparación para emergencias de 2006 — Institución de estándares británica -
- BS 25999-1: 2006 Gestión de la continuidad del negocio Parte 1: Código de prácticas
- BS 25999-2: 2007 Gestión de la continuidad del negocio Parte 2: Especificación
- BS 25777: 2008 Gestión de la continuidad de la tecnología de la información y las comunicaciones - Código de prácticas - Otros -
- "Una guía para la planificación de la continuidad del negocio" por James C. Barnes
- "Planificación de la continuidad del negocio", una guía paso a paso con formularios de planificación en CDROM por Kenneth L Fulmer
- "Planificación de supervivencia ante desastres: una guía práctica para empresas" por Judy Bell
- Gestión de datos ICE (en caso de emergencia) simplificada: MyriadOptima.com
- Harney, J. (2004). Continuidad empresarial y recuperación ante desastres: realice una copia de seguridad o cierre.
- Revista AIIM E-Doc, 18 (4), 42–48.
- Dimattia, S. (15 de noviembre de 2001). Planificación para la continuidad. Library Journal, 32–34.
enlaces externos
- Plan de recuperación ante desastres de TI de Ready.gov
- Las prácticas profesionales para la gestión de la continuidad empresarial del Disaster Recovery Institute International (DRI)
- Glosario de términos tecnológicos y de continuidad empresarial
- BS25999 Gestión de la continuidad del negocio
- ¿Qué es RPO (objetivo de punto de recuperación) en la recuperación ante desastres?