Heterogeneidad semántica

La heterogeneidad semántica se da cuando el esquema de la base de datos o los conjuntos de datos para el mismo dominio son desarrollados por partes independientes, lo que resulta en diferencias en el significado y la interpretación de los valores de los datos. ^[1] Más allá de los datos estructurados , el problema de la heterogeneidad semántica se agrava debido a la flexibilidad de los datos semiestructurados y varios métodos de etiquetado aplicados a documentos o datos no estructurados . La heterogeneidad semántica es una de las fuentes más importantes de diferencias en conjuntos de datos heterogéneos .

Sin embargo, para que múltiples fuentes de datos interoperen entre sí, es esencial reconciliar estas diferencias semánticas . La descomposición de las diversas fuentes de heterogeneidades semánticas proporciona una base para comprender cómo mapear y transformar datos para superar estas diferencias.

Clasificación

Uno de los primeros esquemas de clasificación conocidos aplicados a la semántica de datos es de William Kent hace más de dos décadas. ^[2] El enfoque de Kent se ocupó más de cuestiones de mapeo estructural que de diferencias de significado, que señaló a los diccionarios de datos como potencialmente resueltas.

Una de las clasificaciones más completas es de Pluempitiwiriyawej y Hammer, "Esquema de clasificación para heterogeneidades semánticas y esquemáticas en fuentes de datos XML". ^[3] Clasifican las heterogeneidades en tres grandes clases:

Los conflictos estructurales surgen cuando el esquema de las fuentes que representan datos relacionados o superpuestos presenta discrepancias. Los conflictos estructurales se pueden detectar al comparar el esquema subyacente. La clase de conflictos estructurales incluye conflictos de generalización, conflictos de agregación, discrepancia de ruta interna, elementos faltantes, orden de elementos, discrepancia de restricciones y tipos, y conflictos de nombres entre los tipos de elementos y los nombres de atributos.
Los conflictos de dominio surgen cuando la semántica de las fuentes de datos que se integrarán presenta discrepancias. Los conflictos de dominio se pueden detectar observando la información contenida en el esquema y utilizando el conocimiento sobre los dominios de datos subyacentes. La clase de conflictos de dominio incluye discrepancia esquemática, escala o unidad, precisión y conflictos de representación de datos.
Los conflictos de datos se refieren a discrepancias entre valores de datos similares o relacionados en múltiples fuentes. Los conflictos de datos solo se pueden detectar comparando las fuentes subyacentes. La clase de conflictos de datos incluye el valor de ID, los datos faltantes, la ortografía incorrecta y los conflictos de nombres entre el contenido del elemento y los valores de los atributos.

Además, pueden producirse desajustes o conflictos entre elementos del conjunto (un desajuste de "población") o atributos (un desajuste de "descripción").

Michael Bergman amplió este esquema agregando una cuarta categoría explícita principal de lenguaje, y también agregó algunos ejemplos de cada tipo de heterogeneidad semántica, lo que resultó en aproximadamente 40 categorías potenciales distintas ^[4] . ^[5] Esta tabla muestra las 40 posibles fuentes combinadas de heterogeneidades semánticas entre fuentes:

Clase	Categoría	Subcategoría	Ejemplos de
Idioma	Codificación	Ingesta de codificación incompatible	Por ejemplo, ASCII v UTF-8
		Falta codificación de ingesta	Mal reconocimiento de tokens porque no se han analizado con la codificación adecuada
		Discrepancia en la codificación de consultas	Por ejemplo, ASCII v UTF-8 en la búsqueda
		Falta codificación de consultas	Mal reconocimiento de los tokens de búsqueda porque no se han analizado con la codificación adecuada
	Idiomas	Falta de coincidencia de secuencia de comandos	Variaciones en la forma en que los analizadores manejan, por ejemplo, la derivación, los espacios en blanco o los guiones.
		Errores de análisis analítico / morfológico (muchos)	Idiomas árabes (de derecha a izquierda) v Idiomas romances (de izquierda a derecha)
		Errores sintácticos (muchos)	Referencias de oraciones ambiguas, como Me alegro de ser un hombre, y también Lola ( Lola de Ray Davies and the Kinks )
		Errores semánticos (muchos)	Río banco v dinero del banco v billares banco de tiro
Conceptual	Nombrar	Sensibilidad a mayúsculas y minúsculas	Mayúsculas v minúsculas v mayúsculas
		Sinónimos	Estados Unidos v Estados Unidos v América v Tío Sam v Gran Satanás
		Siglas	Estados Unidos v EE. UU. V EE . UU.
		Homónimos	Por ejemplo, cuando el mismo nombre se refiere a más de un concepto, como Nombre que se refiere a una persona v Nombre que se refiere a un libro
		Errores ortográficos	Como se dijo
	Generalización / Especialización		Cuando los elementos individuales de un esquema están relacionados con varios elementos de otro esquema, o viceversa. Por ejemplo, un esquema puede referirse a "teléfono", pero el otro esquema tiene varios elementos, como "teléfono de casa", "teléfono de trabajo" y "teléfono celular".
	Agregación	Intraagregación	Cuando la misma población se divide de forma diferente (como, por ejemplo, Censo v Regiones federales para los estados, Inglaterra v Gran Bretaña v Reino Unido, o nombres completos de personas v primer-segundo-apellido)
	Agregación	Inter-agregación	Puede ocurrir cuando se incluyen sumas o recuentos como miembros del conjunto
	Discrepancia de ruta interna		Puede surgir de diferentes rutas de recuperación de origen-destino en dos esquemas diferentes (por ejemplo, estructuras jerárquicas donde los elementos tienen diferentes niveles de eliminación)
	Objeto perdido	Discrepancia de contenido	Diferencias en enumeraciones de conjuntos o que incluyen elementos o no (por ejemplo, territorios de EE. UU.) En una lista de estados de EE. UU.
		Contenido faltante	Diferencias en la cobertura del alcance entre dos o más conjuntos de datos para el mismo concepto
		Discrepancia en la lista de atributos	Diferencias en la completitud de los atributos entre dos o más conjuntos de datos
		Atributo faltante	Diferencias en la cobertura del alcance entre dos o más conjuntos de datos para el mismo atributo
	Equivalencia de artículos		Cuando se afirma que dos tipos (clases o conjuntos) son iguales cuando el alcance y la referencia no lo son (por ejemplo, Berlín la ciudad versus Berlín la ciudad-estado oficial)
	Equivalencia de artículos		Cuando se afirma que dos personas son iguales cuando en realidad son distintas (por ejemplo, John F. Kennedy el presidente contra John F. Kennedy el portaaviones)
	Falta de coincidencia de tipo		Cuando el mismo artículo se caracteriza por diferentes tipos, tales como una persona que está siendo escrito como un animal v ser humano v persona
	Falta de coincidencia de restricciones		Cuando los atributos que se refieren a la misma cosa tienen diferentes cardinalidades o aserciones inconexas
Dominio	Discrepancia esquemática	Asignación de valor de elemento a etiqueta de elemento	Uno de los cuatro errores que pueden ocurrir cuando los nombres de los atributos (por ejemplo, Cabello v Piel) pueden referirse al mismo atributo, o cuando los mismos nombres de atributos (por ejemplo, Cabello v Cabello) pueden referirse a diferentes ámbitos de atributos (por ejemplo, Cabello v Piel) o donde los valores para estos atributos pueden ser los mismos pero se refieren a atributos reales diferentes o donde los valores pueden diferir pero ser para el mismo atributo y valor putativo. Muchas de las otras heterogeneidades semánticas en este documento también contribuyen a las discrepancias de esquema.
		Asignación de valor de atributo a etiqueta de elemento
		Asignación de valor de elemento a etiqueta de atributo
		Asignación de valor de atributo a etiqueta de atributo
	Escala o unidades	Tipo de medida	Diferencias, digamos, en los sistemas de medición métrico versus inglés, o monedas
	Escala o unidades	Unidades	Diferencias, digamos, en metros v centímetros v milímetros
	Precisión		Por ejemplo, un valor de 4.1 pulgadas en un conjunto de datos v 4.106 en otro conjunto de datos
	Representación de datos	Tipo de datos primitivo	A menudo surge confusión en el uso de literales v URI v tipos de objetos
	Representación de datos	Formato de datos	Delimitación de decimales por punto v comas; varios formatos de fecha; usando exponentes o unidades agregadas (como miles o millones)
Datos	Nombrar	Sensibilidad a mayúsculas y minúsculas	Mayúsculas v minúsculas v mayúsculas
		Sinónimos	Por ejemplo, centímetros v cm
		Siglas	Por ejemplo, los símbolos de moneda v nombres de divisas
		Homónimos	Por ejemplo, cuando el mismo nombre se refiere a más de un atributo, como Nombre que se refiere a una persona v Nombre que se refiere a un libro
		Errores ortográficos	Como se dijo
	ID no coincide o falta ID		Los URI pueden ser un problema particular aquí, debido a discrepancias reales, pero también al uso de espacios de nombres o no y URI truncados.
	Datos perdidos		Un problema común, más agudo con los enfoques de mundo cerrado que con los de mundo abierto
	Orden de elementos		Los miembros del conjunto pueden estar ordenados o desordenados, y si están ordenados, las secuencias de miembros individuales o valores pueden diferir

Sheth et al. Adoptan un enfoque diferente para clasificar la semántica y los enfoques de integración . ^[6] Bajo su concepto, dividen la semántica en tres formas: implícita, formal y poderosa. La semántica implícita es lo que está mayormente presente o se puede extraer fácilmente; los lenguajes formales, aunque relativamente escasos, se presentan en forma de ontologías u otras lógicas descriptivas ; y la semántica potente (suave) es difusa y no se limita a asignaciones rígidas basadas en conjuntos. El punto principal de Sheth et al. Es que la lógica de primer orden (FOL) o la lógica de descripción es inadecuada por sí sola para capturar adecuadamente la semántica necesaria.

Aplicaciones relevantes

Además de la interoperabilidad de datos, las áreas relevantes de la tecnología de la información que dependen de la reconciliación de heterogeneidades semánticas incluyen el mapeo de datos , la integración semántica y la integración de información empresarial , entre muchas otras. Desde los datos conceptuales hasta los datos reales, existen diferencias de perspectiva, vocabularios, medidas y convenciones una vez que se reúnen dos fuentes de datos. La atención explícita a estas heterogeneidades semánticas es un medio para conseguir que la información se integre o interopere.

Hace apenas veinte años, los sistemas de tecnología de la información expresaban y almacenaban datos en una multitud de formatos y sistemas. Los protocolos de Internet y Web han contribuido mucho a superar estas fuentes de diferencias. Si bien existe una gran cantidad de categorías de heterogeneidad semántica, estas categorías también están estructuradas y pueden anticiparse y corregirse. Estas fuentes con patrones informan qué tipo de trabajo se debe realizar para superar las diferencias semánticas donde aún residen.

Ver también

Integración de datos
Mapeo de datos
Integración de información empresarial
Sistema de base de datos heterogéneo
Interoperabilidad
Integración de datos basada en ontología
Coincidencia de esquemas
Integración semántica
Coincidencia semántica
Semántica

Referencias

^ Alon Halevy (2005). "Por qué sus datos no se mezclan" . Cola . 3 (8).
^ William Kent (27 de febrero - 3 de marzo de 1989). Las múltiples formas de un solo hecho . Actas del IEEE COMPCON. San Francisco. 13 págs.
^ Charnyote Pluempitiwiriyawej y Joachim Hammer (septiembre de 2000). "Un esquema de clasificación de heterogeneidades semánticas y esquemáticas en fuentes de datos XML" (PDF) . Gainesville, Florida: Universidad de Florida. Informe técnico TR00-004.
^ MK Bergman (6 de junio de 2006). "Fuentes y clasificación de heterogeneidades semánticas" . AI3 ::: Información adaptativa . Consultado el 28 de septiembre de 2014 .
^ MK Bergman (12 de agosto de 2014). "Gran estructura e interoperabilidad de datos" . AI3 ::: Información adaptativa . Consultado el 28 de septiembre de 2014 .
^ Amit P. Sheth; Cartic Ramakrishnan; Christopher Thomas (2005). "Semántica para la Web semántica: lo implícito, lo formal y lo poderoso" . Revista Internacional de Web Semántica y Sistemas de Información . 1 (1): 1–18. doi : 10.4018 / jswis.2005010101 .

Otras lecturas

Clasificación de la heterogeneidad semántica

[1] Alon Halevy (2005). "Por qué sus datos no se mezclan" . Cola . 3 (8).

[2] William Kent (27 de febrero - 3 de marzo de 1989). Las múltiples formas de un solo hecho . Actas del IEEE COMPCON. San Francisco. 13 págs.

[3] Charnyote Pluempitiwiriyawej y Joachim Hammer (septiembre de 2000). "Un esquema de clasificación de heterogeneidades semánticas y esquemáticas en fuentes de datos XML" (PDF) . Gainesville, Florida: Universidad de Florida. Informe técnico TR00-004.

[4] MK Bergman (6 de junio de 2006). "Fuentes y clasificación de heterogeneidades semánticas" . AI3 ::: Información adaptativa . Consultado el 28 de septiembre de 2014 .

[5] MK Bergman (12 de agosto de 2014). "Gran estructura e interoperabilidad de datos" . AI3 ::: Información adaptativa . Consultado el 28 de septiembre de 2014 .

[6] Amit P. Sheth; Cartic Ramakrishnan; Christopher Thomas (2005). "Semántica para la Web semántica: lo implícito, lo formal y lo poderoso" . Revista Internacional de Web Semántica y Sistemas de Información . 1 (1): 1–18. doi : 10.4018 / jswis.2005010101 .

[1]