La elaboración de perfiles de datos es el proceso de examinar los datos disponibles de una fuente de información existente (por ejemplo, una base de datos o un archivo ) y recopilar estadísticas o resúmenes informativos sobre esos datos. [1] El propósito de estas estadísticas puede ser:
- Descubra si los datos existentes se pueden utilizar fácilmente para otros fines
- Mejore la capacidad de buscar datos etiquetándolos con palabras clave , descripciones o asignándolos a una categoría.
- Evaluar la calidad de los datos , incluido si los datos se ajustan a estándares o patrones particulares [2]
- Evaluar el riesgo involucrado en la integración de datos en nuevas aplicaciones, incluidos los desafíos de las uniones
- Descubra los metadatos de la base de datos de origen, incluidos los patrones de valor y las distribuciones , candidatos clave , candidatos de clave externa y dependencias funcionales
- Evaluar si los metadatos conocidos describen con precisión los valores reales en la base de datos de origen.
- Comprender los desafíos de los datos al principio de cualquier proyecto con uso intensivo de datos, de modo que se eviten las sorpresas tardías del proyecto. Encontrar problemas de datos al final del proyecto puede provocar retrasos y sobrecostos.
- Tenga una vista empresarial de todos los datos, para usos como la gestión de datos maestros , donde se necesitan datos clave, o la gobernanza de datos para mejorar la calidad de los datos.
Introducción
La elaboración de perfiles de datos se refiere al análisis de la información para su uso en un almacén de datos con el fin de aclarar la estructura, el contenido, las relaciones y las reglas de derivación de los datos. [3] La creación de perfiles ayuda no solo a comprender las anomalías y evaluar la calidad de los datos, sino también a descubrir, registrar y evaluar los metadatos de la empresa. [4] [5] El resultado del análisis se utiliza para determinar la idoneidad de los sistemas fuente candidatos, por lo general dando la base para una decisión temprana de ir / no ir, y también para identificar problemas para el diseño posterior de la solución. [3]
Cómo se realiza la elaboración de perfiles de datos
El perfil de datos utiliza métodos de estadísticas descriptivas como mínimo, máximo, media, moda, percentil, desviación estándar, frecuencia, variación, agregados como recuento y suma, e información de metadatos adicional obtenida durante el perfil de datos como tipo de datos, longitud, valores discretos , unicidad, ocurrencia de valores nulos, patrones de cadenas típicos y reconocimiento de tipos abstractos. [4] [6] [7] Los metadatos se pueden utilizar para descubrir problemas como valores ilegales, errores ortográficos, valores perdidos, representación de valores variables y duplicados.
Se realizan diferentes análisis para diferentes niveles estructurales. Por ejemplo, las columnas individuales podrían perfilarse individualmente para comprender la distribución de frecuencia de diferentes valores, tipos y usos de cada columna. Las dependencias de valor incrustadas se pueden exponer en un análisis de columnas cruzadas. Finalmente, los conjuntos de valores superpuestos que posiblemente representen relaciones de clave externa entre entidades pueden explorarse en un análisis entre tablas. [4]
Normalmente, las herramientas especialmente diseñadas se utilizan para la creación de perfiles de datos para facilitar el proceso. [3] [4] [6] [7] [8] [9] La complejidad del cálculo aumenta cuando se pasa de una sola columna a una sola tabla y al perfil estructural de tablas cruzadas. Por tanto, el rendimiento es un criterio de evaluación para las herramientas de elaboración de perfiles. [5]
Cuando se realiza la elaboración de perfiles de datos
Según Kimball, [3] la elaboración de perfiles de datos se realiza varias veces y con intensidad variable a lo largo del proceso de desarrollo del almacén de datos. Se debe realizar una evaluación de perfil ligero inmediatamente después de que se hayan identificado los sistemas fuente candidatos y se hayan satisfecho los requisitos comerciales de DW / BI. El propósito de este análisis inicial es aclarar en una etapa temprana si los datos correctos están disponibles en el nivel de detalle apropiado y que las anomalías pueden manejarse posteriormente. Si este no es el caso, el proyecto puede darse por terminado. [3]
Además, se realizan perfiles más detallados antes del proceso de modelado dimensional para evaluar lo que se requiere para convertir los datos en un modelo dimensional. El perfil detallado se extiende al proceso de diseño del sistema ETL para determinar los datos apropiados para extraer y qué filtros aplicar al conjunto de datos. [3]
Además, la creación de perfiles de datos se puede realizar en el proceso de desarrollo del almacén de datos después de que los datos se hayan cargado en la etapa de pruebas, los data marts, etc. La realización de datos en estas etapas ayuda a garantizar que la limpieza y las transformaciones de datos se hayan realizado correctamente y de conformidad con los requisitos.
Beneficios y ejemplos
Los beneficios de la elaboración de perfiles de datos son mejorar la calidad de los datos, acortar el ciclo de implementación de proyectos importantes y mejorar la comprensión de los datos por parte de los usuarios. [9] Descubrir el conocimiento empresarial integrado en los datos en sí es uno de los importantes beneficios derivados de la elaboración de perfiles de datos. [5] La elaboración de perfiles de datos es una de las tecnologías más eficaces para mejorar la precisión de los datos en las bases de datos corporativas. [9]
Ver también
Referencias
- ^ Johnson, Theodore (2009). "Perfilado de datos". En Springer, Heidelberg (ed.). Enciclopedia de sistemas de bases de datos .
- ^ Woodall, Philip; Oberhofer, Martin; Borek, Alexander (2014). "Una clasificación de los métodos de evaluación y mejora de la calidad de los datos" . Revista Internacional de Calidad de la Información . 3 (4): 298. doi : 10.1504 / ijiq.2014.068656 .
- ^ a b c d e f Kimball, Ralph; et al. (2008). El kit de herramientas del ciclo de vida del almacén de datos (segunda edición). Wiley. págs. 376 . ISBN 9780470149775.
- ^ a b c d Loshin, David (2009). Gestión de datos maestros . Morgan Kaufmann. págs. 94 –96. ISBN 9780123742254.
- ^ a b c Loshin, David (2003). Inteligencia empresarial: la guía de Savvy Manager, cómo incorporarse a las TI emergentes . Morgan Kaufmann. págs. 110-111. ISBN 9781558609167.
- ^ a b Rahm, Erhard; Hai Do, Hong (diciembre de 2000). "Limpieza de datos: problemas y enfoques actuales". Boletín del Comité Técnico de Ingeniería de Datos . Sociedad de Informática IEEE. 23 (4).
- ^ a b Singh, Ranjit; Singh, Kawaljeet; et al. (Mayo de 2010). "Una clasificación descriptiva de las causas de los problemas de calidad de los datos en el almacenamiento de datos". Edición de la Revista Internacional de Ciencias de la Computación IJCSI . 2. 7 (3).
- ^ Kimball, Ralph (2004). "Consejo de diseño de Kimball n. ° 59: valor sorprendente de la creación de perfiles de datos" (PDF) . Grupo Kimball.
- ^ a b c Olson, Jack E. (2003). Calidad de los datos: la dimensión de la precisión . Morgan Kaufmann. pp. 140 -142.