Almacén de datos


En informática , un almacén de datos ( DW o DWH ), también conocido como almacén de datos empresariales ( EDW ), es un sistema que se utiliza para la generación de informes y el análisis de datos y se considera un componente central de la inteligencia comercial . [1] Los DW son repositorios centrales de datos integrados de una o más fuentes dispares. Almacenan datos actuales e históricos en un solo lugar [2] que se utilizan para crear informes analíticos para los trabajadores de toda la empresa. [3]

Los datos almacenados en el almacén se cargan desde los sistemas operativos (como marketing o ventas). Los datos pueden pasar a través de un almacén de datos operativos y pueden requerir una limpieza de datos [2] para operaciones adicionales a fin de garantizar la calidad de los datos antes de que se utilicen en el DW para generar informes.

Extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT) son los dos enfoques principales utilizados para construir un sistema de almacenamiento de datos.

El almacén de datos típico basado en extracción, transformación y carga (ETL) [4] utiliza capas de preparación , integración de datos y acceso para albergar sus funciones clave. La capa de ensayo o la base de datos de ensayo almacena datos sin procesar extraídos de cada uno de los sistemas de datos de origen dispares. La capa de integración integra los conjuntos de datos dispares mediante la transformación de los datos de la capa de ensayo, a menudo almacenando estos datos transformados en una base de datos de almacenamiento de datos operativos (ODS). Luego, los datos integrados se trasladan a otra base de datos, a menudo denominada base de datos del almacén de datos, donde los datos se organizan en grupos jerárquicos, a menudo denominados dimensiones, y en hechos .y hechos agregados. La combinación de hechos y dimensiones a veces se denomina esquema en estrella . La capa de acceso ayuda a los usuarios a recuperar datos. [5]

La principal fuente de datos se limpia , transforma, cataloga y pone a disposición de los gerentes y otros profesionales de negocios para la extracción de datos , el procesamiento analítico en línea , la investigación de mercado y el apoyo a la toma de decisiones . [6] Sin embargo, los medios para recuperar y analizar datos, extraer, transformar y cargar datos, y administrar el diccionario de datos también se consideran componentes esenciales de un sistema de almacenamiento de datos. Muchas referencias al almacenamiento de datos utilizan este contexto más amplio. Por lo tanto, una definición ampliada de almacenamiento de datos incluye herramientas de inteligencia empresarial, herramientas para extraer, transformar y cargar datos en el repositorio, y herramientas para administrar y recuperar metadatos .

El almacenamiento de datos basado en ELT elimina una herramienta ETL separada para la transformación de datos. En su lugar, mantiene un área de preparación dentro del propio almacén de datos. En este enfoque, los datos se extraen de sistemas de origen heterogéneos y luego se cargan directamente en el almacén de datos, antes de que ocurra cualquier transformación. Luego, todas las transformaciones necesarias se manejan dentro del propio almacén de datos. Finalmente, los datos manipulados se cargan en tablas de destino en el mismo almacén de datos.


Descripción general del almacén de datos
La arquitectura básica de un almacén de datos.
Arquitectura de almacén de datos basada en ELT