La heterogeneidad semántica se da cuando el esquema de la base de datos o los conjuntos de datos para el mismo dominio son desarrollados por partes independientes, lo que resulta en diferencias en el significado y la interpretación de los valores de los datos. [1] Más allá de los datos estructurados , el problema de la heterogeneidad semántica se agrava debido a la flexibilidad de los datos semiestructurados y varios métodos de etiquetado aplicados a documentos o datos no estructurados . La heterogeneidad semántica es una de las fuentes más importantes de diferencias en conjuntos de datos heterogéneos .
Sin embargo, para que múltiples fuentes de datos interoperen entre sí, es esencial reconciliar estas diferencias semánticas . La descomposición de las diversas fuentes de heterogeneidades semánticas proporciona una base para comprender cómo mapear y transformar datos para superar estas diferencias.
Clasificación
Uno de los primeros esquemas de clasificación conocidos aplicados a la semántica de datos es de William Kent hace más de dos décadas. [2] El enfoque de Kent se ocupó más de cuestiones de mapeo estructural que de diferencias de significado, que señaló a los diccionarios de datos como potencialmente resueltas.
Una de las clasificaciones más completas es de Pluempitiwiriyawej y Hammer, "Esquema de clasificación para heterogeneidades semánticas y esquemáticas en fuentes de datos XML". [3] Clasifican las heterogeneidades en tres grandes clases:
- Los conflictos estructurales surgen cuando el esquema de las fuentes que representan datos relacionados o superpuestos presenta discrepancias. Los conflictos estructurales se pueden detectar al comparar el esquema subyacente. La clase de conflictos estructurales incluye conflictos de generalización, conflictos de agregación, discrepancia de ruta interna, elementos faltantes, orden de elementos, discrepancia de restricciones y tipos, y conflictos de nombres entre los tipos de elementos y los nombres de atributos.
- Los conflictos de dominio surgen cuando la semántica de las fuentes de datos que se integrarán presenta discrepancias. Los conflictos de dominio se pueden detectar observando la información contenida en el esquema y utilizando el conocimiento sobre los dominios de datos subyacentes. La clase de conflictos de dominio incluye discrepancia esquemática, escala o unidad, precisión y conflictos de representación de datos.
- Los conflictos de datos se refieren a discrepancias entre valores de datos similares o relacionados en múltiples fuentes. Los conflictos de datos solo se pueden detectar comparando las fuentes subyacentes. La clase de conflictos de datos incluye el valor de ID, los datos faltantes, la ortografía incorrecta y los conflictos de nombres entre el contenido del elemento y los valores de los atributos.
Además, pueden producirse desajustes o conflictos entre elementos del conjunto (un desajuste de "población") o atributos (un desajuste de "descripción").
Michael Bergman amplió este esquema agregando una cuarta categoría explícita principal de lenguaje, y también agregó algunos ejemplos de cada tipo de heterogeneidad semántica, lo que resultó en aproximadamente 40 categorías potenciales distintas [4] . [5] Esta tabla muestra las 40 posibles fuentes combinadas de heterogeneidades semánticas entre fuentes:
Clase | Categoría | Subcategoría | Ejemplos de |
Ingesta de codificación incompatible | |||
Falta codificación de ingesta | Mal reconocimiento de tokens porque no se han analizado con la codificación adecuada | ||
Discrepancia en la codificación de consultas | Por ejemplo, ASCII v UTF-8 en la búsqueda | ||
Falta codificación de consultas | Mal reconocimiento de los tokens de búsqueda porque no se han analizado con la codificación adecuada | ||
Idiomas | Falta de coincidencia de secuencia de comandos | Variaciones en la forma en que los analizadores manejan, por ejemplo, la derivación, los espacios en blanco o los guiones. | |
Errores de análisis analítico / morfológico (muchos) | Idiomas árabes (de derecha a izquierda) v Idiomas romances (de izquierda a derecha) | ||
Errores sintácticos (muchos) | Referencias de oraciones ambiguas, como Me alegro de ser un hombre, y también Lola ( Lola de Ray Davies and the Kinks ) | ||
Errores semánticos (muchos) | Río banco v dinero del banco v billares banco de tiro | ||
Conceptual | Nombrar | Sensibilidad a mayúsculas y minúsculas | Mayúsculas v minúsculas v mayúsculas |
Estados Unidos v Estados Unidos v América v Tío Sam v Gran Satanás | |||
Estados Unidos v EE. UU. V EE . UU. | |||
Por ejemplo, cuando el mismo nombre se refiere a más de un concepto, como Nombre que se refiere a una persona v Nombre que se refiere a un libro | |||
Errores ortográficos | Como se dijo | ||
Generalización / Especialización | Cuando los elementos individuales de un esquema están relacionados con varios elementos de otro esquema, o viceversa. Por ejemplo, un esquema puede referirse a "teléfono", pero el otro esquema tiene varios elementos, como "teléfono de casa", "teléfono de trabajo" y "teléfono celular". | ||
Agregación | Intraagregación | Cuando la misma población se divide de forma diferente (como, por ejemplo, Censo v Regiones federales para los estados, Inglaterra v Gran Bretaña v Reino Unido, o nombres completos de personas v primer-segundo-apellido) | |
Inter-agregación | Puede ocurrir cuando se incluyen sumas o recuentos como miembros del conjunto | ||
Discrepancia de ruta interna | Puede surgir de diferentes rutas de recuperación de origen-destino en dos esquemas diferentes (por ejemplo, estructuras jerárquicas donde los elementos tienen diferentes niveles de eliminación) | ||
Objeto perdido | Discrepancia de contenido | Diferencias en enumeraciones de conjuntos o que incluyen elementos o no (por ejemplo, territorios de EE. UU.) En una lista de estados de EE. UU. | |
Contenido faltante | Diferencias en la cobertura del alcance entre dos o más conjuntos de datos para el mismo concepto | ||
Discrepancia en la lista de atributos | Diferencias en la completitud de los atributos entre dos o más conjuntos de datos | ||
Atributo faltante | Diferencias en la cobertura del alcance entre dos o más conjuntos de datos para el mismo atributo | ||
Equivalencia de artículos | Cuando se afirma que dos tipos (clases o conjuntos) son iguales cuando el alcance y la referencia no lo son (por ejemplo, Berlín la ciudad versus Berlín la ciudad-estado oficial) | ||
Cuando se afirma que dos personas son iguales cuando en realidad son distintas (por ejemplo, John F. Kennedy el presidente contra John F. Kennedy el portaaviones) | |||
Falta de coincidencia de tipo | Cuando el mismo artículo se caracteriza por diferentes tipos, tales como una persona que está siendo escrito como un animal v ser humano v persona | ||
Falta de coincidencia de restricciones | Cuando los atributos que se refieren a la misma cosa tienen diferentes cardinalidades o aserciones inconexas | ||
Discrepancia esquemática | Asignación de valor de elemento a etiqueta de elemento | Uno de los cuatro errores que pueden ocurrir cuando los nombres de los atributos (por ejemplo, Cabello v Piel) pueden referirse al mismo atributo, o cuando los mismos nombres de atributos (por ejemplo, Cabello v Cabello) pueden referirse a diferentes ámbitos de atributos (por ejemplo, Cabello v Piel) o donde los valores para estos atributos pueden ser los mismos pero se refieren a atributos reales diferentes o donde los valores pueden diferir pero ser para el mismo atributo y valor putativo. Muchas de las otras heterogeneidades semánticas en este documento también contribuyen a las discrepancias de esquema. | |
Asignación de valor de atributo a etiqueta de elemento | |||
Asignación de valor de elemento a etiqueta de atributo | |||
Asignación de valor de atributo a etiqueta de atributo | |||
Escala o unidades | Tipo de medida | Diferencias, digamos, en los sistemas de medición métrico versus inglés, o monedas | |
Unidades | Diferencias, digamos, en metros v centímetros v milímetros | ||
Precisión | Por ejemplo, un valor de 4.1 pulgadas en un conjunto de datos v 4.106 en otro conjunto de datos | ||
Tipo de datos primitivo | A menudo surge confusión en el uso de literales v URI v tipos de objetos | ||
Formato de datos | Delimitación de decimales por punto v comas; varios formatos de fecha; usando exponentes o unidades agregadas (como miles o millones) | ||
Nombrar | Sensibilidad a mayúsculas y minúsculas | Mayúsculas v minúsculas v mayúsculas | |
Sinónimos | Por ejemplo, centímetros v cm | ||
Siglas | Por ejemplo, los símbolos de moneda v nombres de divisas | ||
Homónimos | Por ejemplo, cuando el mismo nombre se refiere a más de un atributo, como Nombre que se refiere a una persona v Nombre que se refiere a un libro | ||
Errores ortográficos | Como se dijo | ||
ID no coincide o falta ID | Los URI pueden ser un problema particular aquí, debido a discrepancias reales, pero también al uso de espacios de nombres o no y URI truncados. | ||
Datos perdidos | Un problema común, más agudo con los enfoques de mundo cerrado que con los de mundo abierto | ||
Orden de elementos | Los miembros del conjunto pueden estar ordenados o desordenados, y si están ordenados, las secuencias de miembros individuales o valores pueden diferir |
Sheth et al. Adoptan un enfoque diferente para clasificar la semántica y los enfoques de integración . [6] Bajo su concepto, dividen la semántica en tres formas: implícita, formal y poderosa. La semántica implícita es lo que está mayormente presente o se puede extraer fácilmente; los lenguajes formales, aunque relativamente escasos, se presentan en forma de ontologías u otras lógicas descriptivas ; y la semántica potente (suave) es difusa y no se limita a asignaciones rígidas basadas en conjuntos. El punto principal de Sheth et al. Es que la lógica de primer orden (FOL) o la lógica de descripción es inadecuada por sí sola para capturar adecuadamente la semántica necesaria.
Aplicaciones relevantes
Además de la interoperabilidad de datos, las áreas relevantes de la tecnología de la información que dependen de la reconciliación de heterogeneidades semánticas incluyen el mapeo de datos , la integración semántica y la integración de información empresarial , entre muchas otras. Desde los datos conceptuales hasta los datos reales, existen diferencias de perspectiva, vocabularios, medidas y convenciones una vez que se reúnen dos fuentes de datos. La atención explícita a estas heterogeneidades semánticas es un medio para conseguir que la información se integre o interopere.
Hace apenas veinte años, los sistemas de tecnología de la información expresaban y almacenaban datos en una multitud de formatos y sistemas. Los protocolos de Internet y Web han contribuido mucho a superar estas fuentes de diferencias. Si bien existe una gran cantidad de categorías de heterogeneidad semántica, estas categorías también están estructuradas y pueden anticiparse y corregirse. Estas fuentes con patrones informan qué tipo de trabajo se debe realizar para superar las diferencias semánticas donde aún residen.
Ver también
- Integración de datos
- Mapeo de datos
- Integración de información empresarial
- Sistema de base de datos heterogéneo
- Interoperabilidad
- Integración de datos basada en ontología
- Coincidencia de esquemas
- Integración semántica
- Coincidencia semántica
- Semántica
Referencias
- ^ Alon Halevy (2005). "Por qué sus datos no se mezclan" . Cola . 3 (8).
- ^ William Kent (27 de febrero - 3 de marzo de 1989). Las múltiples formas de un solo hecho . Actas del IEEE COMPCON. San Francisco. 13 págs.
- ^ Charnyote Pluempitiwiriyawej y Joachim Hammer (septiembre de 2000). "Un esquema de clasificación de heterogeneidades semánticas y esquemáticas en fuentes de datos XML" (PDF) . Gainesville, Florida: Universidad de Florida. Informe técnico TR00-004.
- ^ MK Bergman (6 de junio de 2006). "Fuentes y clasificación de heterogeneidades semánticas" . AI3 ::: Información adaptativa . Consultado el 28 de septiembre de 2014 .
- ^ MK Bergman (12 de agosto de 2014). "Gran estructura e interoperabilidad de datos" . AI3 ::: Información adaptativa . Consultado el 28 de septiembre de 2014 .
- ^ Amit P. Sheth; Cartic Ramakrishnan; Christopher Thomas (2005). "Semántica para la Web semántica: lo implícito, lo formal y lo poderoso" . Revista Internacional de Web Semántica y Sistemas de Información . 1 (1): 1–18. doi : 10.4018 / jswis.2005010101 .
Otras lecturas
- Clasificación de la heterogeneidad semántica