Un área de espera , o zona de aterrizaje , es un área de almacenamiento intermedio que se utiliza para el procesamiento de datos durante el proceso de extracción, transformación y carga (ETL) . El área de preparación de datos se encuentra entre la fuente de datos (s) y el destino de los datos (s), que son a menudo los almacenes de datos , mercados de datos , u otros repositorios de datos. [1]
Las áreas de almacenamiento de datos a menudo son de naturaleza transitoria, y su contenido se borra antes de ejecutar un proceso ETL o inmediatamente después de la finalización exitosa de un proceso ETL. Sin embargo, existen arquitecturas de área de preparación que están diseñadas para almacenar datos durante períodos prolongados con fines de archivo o resolución de problemas.
Implementación
Las áreas de ensayo se pueden implementar en forma de tablas en bases de datos relacionales, archivos planos basados en texto (o archivos XML) almacenados en sistemas de archivos o archivos binarios con formato propietario almacenados en sistemas de archivos. [2] Las arquitecturas del área de ensayo varían en complejidad desde un conjunto de tablas relacionales simples en una base de datos de destino hasta instancias de bases de datos autónomas o sistemas de archivos. [3] Aunque los sistemas de origen y los sistemas de destino admitidos por los procesos ETL son a menudo bases de datos relacionales, las áreas de preparación que se encuentran entre las fuentes de datos y los destinos no necesitan ser también bases de datos relacionales. [4]
Funciones
Las áreas de preparación se pueden diseñar para proporcionar muchos beneficios, pero las principales motivaciones para su uso son aumentar la eficiencia de los procesos ETL, garantizar la integridad de los datos y respaldar las operaciones de calidad de los datos. Las funciones del área de preparación incluyen las siguientes:
Consolidación
Una de las funciones principales que realiza un área de preparación es la consolidación de datos de múltiples sistemas de origen. [2] Al realizar esta función, el área de preparación actúa como un gran "depósito" en el que los datos de múltiples sistemas de origen se pueden colocar temporalmente para su posterior procesamiento. Es común etiquetar datos en el área de preparación con metadatos adicionales que indican la fuente de origen y marcas de tiempo que indican cuándo se colocaron los datos en el área de preparación.
Alineación
La alineación de datos incluye la estandarización de datos de referencia en múltiples sistemas fuente y la validación de relaciones entre registros y elementos de datos de diferentes fuentes. [2] La alineación de datos en el área de preparación es una función estrechamente relacionada y que actúa en apoyo de las capacidades de gestión de datos maestros . [5]
Minimizar la contención
El área de preparación y los procesos ETL que admite a menudo se diseñan con el objetivo de minimizar la contención dentro de los sistemas de origen. Copiar los datos requeridos de los sistemas de origen al área de preparación de una sola vez es a menudo más eficiente que recuperar registros individuales (o pequeños conjuntos de registros) de forma única. El primer método aprovecha las eficiencias técnicas, como las tecnologías de transmisión de datos, la reducción de la sobrecarga al minimizar la necesidad de romper y restablecer las conexiones a los sistemas fuente y la optimización de la gestión de bloqueo de concurrencia en sistemas fuente multiusuario. Al copiar los datos de origen de los sistemas de origen y esperar a realizar un procesamiento y una transformación intensivos en el área de preparación, el proceso ETL ejerce un alto grado de control sobre los problemas de concurrencia durante el procesamiento.
Programación independiente / objetivos múltiples
El área de preparación puede admitir el alojamiento de datos que se procesarán en horarios independientes y datos que deben dirigirse a múltiples objetivos. [2] En algunos casos, los datos pueden ingresarse en el área de preparación en diferentes momentos para ser retenidos y procesados todos a la vez. Esta situación puede ocurrir cuando el procesamiento empresarial se realiza en múltiples zonas horarias cada noche, por ejemplo. En otros casos, los datos se pueden traer al área de preparación para ser procesados en diferentes momentos; o el área de preparación puede usarse para enviar datos a múltiples sistemas de destino. Por ejemplo, los datos operativos diarios pueden enviarse a un almacén de datos operativos (ODS), mientras que los mismos datos pueden enviarse en forma agregada mensual a un almacén de datos.
Detección de cambios
El área de preparación admite operaciones eficientes de detección de cambios en los sistemas de destino. Esta funcionalidad es particularmente útil cuando los sistemas de origen no admiten formas confiables de detección de cambios, como la marca de tiempo impuesta por el sistema, el seguimiento de cambios o la captura de datos de cambios (CDC) .
Limpieza de datos
La limpieza de datos incluye la identificación y eliminación (o actualización) de datos no válidos de los sistemas de origen. El proceso ETL que utiliza el área de preparación se puede utilizar para implementar la lógica empresarial para identificar y manejar datos "no válidos". Los datos no válidos a menudo se definen mediante una combinación de reglas comerciales y limitaciones técnicas. Además, se pueden colocar restricciones técnicas en las estructuras del área de preparación (como las restricciones de tabla en una base de datos relacional) para hacer cumplir las reglas de validez de los datos. [2]
Precálculo agregado
El cálculo previo de agregados, cálculos complejos y la aplicación de lógica empresarial compleja se pueden realizar en un área de preparación para admitir acuerdos de nivel de servicio (SLA) de alta capacidad de respuesta para informes resumidos en sistemas de destino. [3]
Archivo de datos y resolución de problemas
El archivo de datos se puede realizar en, o apoyado por, un área de preparación. En este escenario, el área de preparación se puede usar para mantener registros históricos durante el proceso de carga, o se puede usar para enviar datos a una estructura de archivo de destino. Además, los datos se pueden mantener dentro del área de preparación durante períodos prolongados de tiempo para respaldar la resolución de problemas técnicos del proceso ETL ... [3]
Referencias
- ^ Guía de almacenamiento de datos de Oracle 9i, Conceptos de almacenamiento de datos , Oracle Corp.
- ^ a b c d e Fundamentos de almacenamiento de datos: una guía completa para profesionales de TI , p. 137-138, Paulraj Ponniah, 2001.
- ^ a b c Expertos en BI: Big Data y el área de almacenamiento de datos de su almacén de datos , The Data Warehousing Institute, Phillip Russom, 2012.
- ^ ¿Es relacional la puesta en escena de datos? Archivado el 26 de diciembre de 2013 en la Wayback Machine , Ralph Kimball, 1998.
- ^ Gestión de datos maestros en la práctica: lograr MDM de cliente verdadero , Dalton Cervo y Mark Allen, 2011.