Descubrimiento de metadatos

En los metadatos , el descubrimiento de metadatos (también recolección de metadatos ) es el proceso de usar herramientas automatizadas para descubrir la semántica de un elemento de datos en conjuntos de datos. Este proceso generalmente termina con un conjunto de asignaciones entre los elementos de la fuente de datos y un registro de metadatos centralizado . El descubrimiento de metadatos también se conoce como escaneo de metadatos.

Formatos de fuente de datos para el descubrimiento de metadatos

Los conjuntos de datos pueden estar en una variedad de formas diferentes, que incluyen:

Bases de datos relacionales
Bases de datos NoSQL
Hojas de cálculo
Archivos XML
servicios web
Código fuente de software como clases Fortran, Jovial, COBOL, Assembler, RPG, PL / 1, EasyTrieve, Java, C # o C ++, y miles de otros lenguajes de software
Documentos de texto no estructurados como Microsoft Word o archivos PDF

Una taxonomía de algoritmos de coincidencia de metadatos

Existen distintas categorías de descubrimiento automatizado de metadatos:

Coincidencia léxica

Coincidencia exacta : donde los enlaces de los elementos de datos se realizan en función del nombre exacto de una columna en una base de datos, el nombre de un elemento XML o una etiqueta en una pantalla. Por ejemplo, si una columna de la base de datos tiene el nombre "PersonBirthDate" y un elemento de datos en un registro de metadatos también tiene el nombre "PersonBirthDate", las herramientas automatizadas pueden inferir que la columna de una base de datos tiene la misma semántica (significado) que el elemento de datos en el registro de metadatos.
Coincidencia de sinónimos : donde la herramienta de descubrimiento no solo recibe un nombre único, sino un conjunto de sinónimos.
Coincidencia de patrones : en este caso, las herramientas reciben un conjunto de patrones léxicos que pueden coincidir. Por ejemplo, las herramientas pueden buscar "* género *" o "* sexo *"

Coincidencia semántica

La coincidencia semántica intenta utilizar la semántica para asociar los datos de destino con los elementos de datos registrados .

Similitud semántica : en este algoritmo que se basa en una base de datos de proximidad conceptual de palabras se utiliza. Por ejemplo, el sistema WordNet puede clasificar qué tan cerca están conceptualmente las palabras entre sí. Por ejemplo, los términos "Persona", "Individual" y "Humano" pueden ser conceptos muy similares.

Coincidencia estadística

La comparación estadística utiliza estadísticas sobre los datos de las fuentes de datos en sí para derivar similitudes con los elementos de datos registrados.

Análisis de valores distintos: al analizar todos los valores distintos en una columna, se puede establecer la similitud con un elemento de datos registrado. Por ejemplo, si una columna solo tiene dos valores distintos de 'masculino' y 'femenino', esto podría asignarse a 'PersonGenderCode'.
Análisis de distribución de datos : analizando la distribución de valores dentro de una sola columna y comparando esta distribución con elementos de datos conocidos, se podría inferir un vínculo semántico.

Vendedores

Los siguientes proveedores (enumerados en orden alfabético) proporcionan soluciones y software de descubrimiento de metadatos y mapeo de metadatos

Innovaciones de BigHand / Esquire (consulte [1] )
IBM
Talend
InfoLibrarian Corporation (consulte [2] )
Aplicación de base de datos de metadatos MindHARBOR (consulte [3] )
Octopai: una automatización de gestión y descubrimiento de metadatos multiplataforma (consulte [4] )
Revelytix (ver [5] )
Silver Creek Systems (ver [6] )
Stratio (consulte La confiabilidad de los datos es la base de las empresas exitosas )
Sypherlink: Harvester (ver [7] )
Unicorn Systems (ver [8] )

Investigar

Proyecto INDUS en la Universidad Estatal de Iowa (ver [9] )
Mercurio : un sistema de descubrimiento de datos y gestión de metadatos distribuidos desarrollado en el DAAC del Laboratorio Nacional de Oak Ridge (véase [10] ) ^[1]

Ver también

Referencias

Citas

^ Devarakonda, R., Palanisamy, G., Wilson, B. y Green, J. (2010), "Mercurio: gestión de metadatos reutilizables, sistema de acceso y descubrimiento de datos" , Informática de Ciencias de la Tierra , Springer Berlin / Heidelberg, 3 ( 1): 87–94, Bibcode : 2010ESIn .... 3 ... 87D , doi : 10.1007 / s12145-010-0050-7CS1 maint: varios nombres: lista de autores ( enlace )

Fuentes

Massive Data Analysis Systems por San Diego Supercomputer Center, junio de 1997
Informe técnico de IBM sobre descubrimiento de metadatos empresariales
Libro blanco sobre gestión de metadatos - por Esquire Innovations

[1] Devarakonda, R., Palanisamy, G., Wilson, B. y Green, J. (2010), "Mercurio: gestión de metadatos reutilizables, sistema de acceso y descubrimiento de datos" , Informática de Ciencias de la Tierra , Springer Berlin / Heidelberg, 3 ( 1): 87–94, Bibcode : 2010ESIn .... 3 ... 87D , doi : 10.1007 / s12145-010-0050-7CS1 maint: varios nombres: lista de autores ( enlace )

[1]