En los metadatos , el descubrimiento de metadatos (también recolección de metadatos ) es el proceso de usar herramientas automatizadas para descubrir la semántica de un elemento de datos en conjuntos de datos. Este proceso generalmente termina con un conjunto de asignaciones entre los elementos de la fuente de datos y un registro de metadatos centralizado . El descubrimiento de metadatos también se conoce como escaneo de metadatos.
Formatos de fuente de datos para el descubrimiento de metadatos
Los conjuntos de datos pueden estar en una variedad de formas diferentes, que incluyen:
- Bases de datos relacionales
- Bases de datos NoSQL
- Hojas de cálculo
- Archivos XML
- servicios web
- Código fuente de software como clases Fortran, Jovial, COBOL, Assembler, RPG, PL / 1, EasyTrieve, Java, C # o C ++, y miles de otros lenguajes de software
- Documentos de texto no estructurados como Microsoft Word o archivos PDF
Una taxonomía de algoritmos de coincidencia de metadatos
Existen distintas categorías de descubrimiento automatizado de metadatos:
Coincidencia léxica
- Coincidencia exacta : donde los enlaces de los elementos de datos se realizan en función del nombre exacto de una columna en una base de datos, el nombre de un elemento XML o una etiqueta en una pantalla. Por ejemplo, si una columna de la base de datos tiene el nombre "PersonBirthDate" y un elemento de datos en un registro de metadatos también tiene el nombre "PersonBirthDate", las herramientas automatizadas pueden inferir que la columna de una base de datos tiene la misma semántica (significado) que el elemento de datos en el registro de metadatos.
- Coincidencia de sinónimos : donde la herramienta de descubrimiento no solo recibe un nombre único, sino un conjunto de sinónimos.
- Coincidencia de patrones : en este caso, las herramientas reciben un conjunto de patrones léxicos que pueden coincidir. Por ejemplo, las herramientas pueden buscar "* género *" o "* sexo *"
Coincidencia semántica
La coincidencia semántica intenta utilizar la semántica para asociar los datos de destino con los elementos de datos registrados .
- Similitud semántica : en este algoritmo que se basa en una base de datos de proximidad conceptual de palabras se utiliza. Por ejemplo, el sistema WordNet puede clasificar qué tan cerca están conceptualmente las palabras entre sí. Por ejemplo, los términos "Persona", "Individual" y "Humano" pueden ser conceptos muy similares.
Coincidencia estadística
La comparación estadística utiliza estadísticas sobre los datos de las fuentes de datos en sí para derivar similitudes con los elementos de datos registrados.
- Análisis de valores distintos: al analizar todos los valores distintos en una columna, se puede establecer la similitud con un elemento de datos registrado. Por ejemplo, si una columna solo tiene dos valores distintos de 'masculino' y 'femenino', esto podría asignarse a 'PersonGenderCode'.
- Análisis de distribución de datos : analizando la distribución de valores dentro de una sola columna y comparando esta distribución con elementos de datos conocidos, se podría inferir un vínculo semántico.
Vendedores
Los siguientes proveedores (enumerados en orden alfabético) proporcionan soluciones y software de descubrimiento de metadatos y mapeo de metadatos
- Innovaciones de BigHand / Esquire (consulte [1] )
- IBM
- Talend
- InfoLibrarian Corporation (consulte [2] )
- Aplicación de base de datos de metadatos MindHARBOR (consulte [3] )
- Octopai: una automatización de gestión y descubrimiento de metadatos multiplataforma (consulte [4] )
- Revelytix (ver [5] )
- Silver Creek Systems (ver [6] )
- Stratio (consulte La confiabilidad de los datos es la base de las empresas exitosas )
- Sypherlink: Harvester (ver [7] )
- Unicorn Systems (ver [8] )
Investigar
- Proyecto INDUS en la Universidad Estatal de Iowa (ver [9] )
- Mercurio : un sistema de descubrimiento de datos y gestión de metadatos distribuidos desarrollado en el DAAC del Laboratorio Nacional de Oak Ridge (véase [10] ) [1]
Ver también
Referencias
Citas
- ^ Devarakonda, R., Palanisamy, G., Wilson, B. y Green, J. (2010), "Mercurio: gestión de metadatos reutilizables, sistema de acceso y descubrimiento de datos" , Informática de Ciencias de la Tierra , Springer Berlin / Heidelberg, 3 ( 1): 87–94, Bibcode : 2010ESIn .... 3 ... 87D , doi : 10.1007 / s12145-010-0050-7CS1 maint: varios nombres: lista de autores ( enlace )
Fuentes
- Massive Data Analysis Systems por San Diego Supercomputer Center, junio de 1997
- Informe técnico de IBM sobre descubrimiento de metadatos empresariales
- Libro blanco sobre gestión de metadatos - por Esquire Innovations