Espectro semántico

El espectro semántico (a veces denominado espectro de ontología o el continuo de datos inteligentes o precisión semántica ) es una serie de definiciones cada vez más precisas o más bien semánticamente expresivas para elementos de datos en representaciones de conocimiento , especialmente para uso de máquinas.

En el extremo inferior del espectro hay un enlace simple de una sola palabra o frase y su definición. En el extremo superior hay una ontología completa que especifica las relaciones entre los elementos de datos utilizando URI precisos para las relaciones y propiedades.

Con una mayor especificidad viene una mayor precisión y la capacidad de usar herramientas para integrar sistemas automáticamente, pero también un mayor costo para construir y mantener un registro de metadatos .

Algunos pasos en el espectro semántico incluyen los siguientes:

glosario : una lista simple de términos y sus definiciones. Un glosario se enfoca en crear una lista completa de la terminología de términos y acrónimos específicos del dominio. Es útil para crear definiciones claras e inequívocas de términos y, dado que se puede crear con herramientas sencillas de procesamiento de texto, se necesitan pocas herramientas técnicas.
vocabulario controlado : una lista simple de términos, definiciones y convenciones de nomenclatura. Un vocabulario controlado suele tener algún tipo de proceso de supervisión asociado con la adición o eliminación de definiciones de elementos de datos para garantizar la coherencia. Los términos a menudo se definen en relación entre sí.
diccionario de datos : términos, definiciones, convenciones de nomenclatura y una o más representaciones de los elementos de datos en un sistema informático. Los diccionarios de datos a menudo definen tipos de datos, comprobaciones de validación como valores enumerados y las definiciones formales de cada uno de los valores enumerados.
modelo de datos : términos, definiciones, convenciones de nomenclatura, representaciones y una o más representaciones de los elementos de datos, así como el comienzo de la especificación de las relaciones entre los elementos de datos, incluidas las abstracciones y los contenedores.
taxonomía : Un modelo de datos completo en una jerarquía de herencia donde todos los elementos de datos heredan sus comportamientos de un solo "super elemento de datos". La diferencia entre un modelo de datos y una taxonomía formal es la disposición de los elementos de datos en una estructura de árbol formal donde cada elemento del árbol es un concepto definido formalmente con propiedades asociadas.
ontología : una especificación completa y legible por máquina de una conceptualización que utiliza URI (y luego IRI ) para todos los elementos de datos, propiedades y tipos de relaciones. El lenguaje estándar del W3C para representar ontologías es Web Ontology Language (OWL). Las ontologías con frecuencia contienen reglas comerciales formales formadas en declaraciones lógicas discretas que relacionan elementos de datos entre sí.

Preguntas típicas para determinar la precisión semántica

La siguiente es una lista de preguntas que pueden surgir al determinar la precisión semántica.

exactitud: ¿Cómo se puede aplicar la sintaxis y la semántica correctas? ¿Hay herramientas (como el esquema XML ) disponibles para validar la sintaxis de los intercambios de datos?
adecuación / expresividad / alcance: ¿El sistema representa todo lo que es de uso práctico para este propósito? ¿Se está poniendo énfasis en los datos que se externalizan (expuestos o transferidos entre sistemas)?
eficiencia: ¿Con qué eficacia se puede buscar / consultar la representación y, posiblemente, razonar sobre ella?
complejidad: ¿Qué tan empinada es la curva de aprendizaje para definir nuevos conceptos, consultarlos o restringirlos? ¿Existen herramientas adecuadas para simplificar los flujos de trabajo típicos? (Ver también: editor de ontologías )
traducibilidad: ¿Se puede transformar fácilmente la representación (por ejemplo, mediante una transformación basada en vocabulario ) en una representación equivalente de modo que se garantice la equivalencia semántica ?

Determinar la ubicación en el espectro semántico

Hoy en día, muchas organizaciones están creando un registro de metadatos para almacenar sus definiciones de datos y realizar la publicación de metadatos . Con frecuencia surge la cuestión de dónde se encuentran en el espectro semántico. Para determinar dónde están sus sistemas, algunas de las siguientes preguntas son útiles con frecuencia.

¿Existe un glosario centralizado de términos para el tema en cuestión?
¿El glosario de términos incluye definiciones precisas para cada término?
¿Existe un repositorio central para almacenar elementos de datos que incluya información sobre tipos de datos?
¿Existe un proceso de aprobación asociado con la creación y los cambios en los elementos de datos?
¿Se enumeran completamente los elementos de datos codificados? ¿Cada enumeración tiene una definición completa?
¿Existe un proceso para eliminar elementos de datos duplicados o redundantes del registro de metadatos?
¿Se utilizan uno o más esquemas de clasificación para clasificar elementos de datos?
¿Se crean intercambios de documentos y servicios web utilizando los elementos de datos?
¿Se puede utilizar el registro central de metadatos como parte de una arquitectura basada en modelos ?
¿Hay miembros del personal capacitados para extraer elementos de datos que puedan reutilizarse en estructuras de metadatos?

Naturaleza estratégica de la semántica

Hoy en día, gran parte de la World Wide Web se almacena como lenguaje de marcado de hipertexto . Los motores de búsqueda se ven seriamente obstaculizados por su incapacidad para comprender el significado de las páginas web publicadas. Estas limitaciones han llevado al advenimiento del movimiento de la web semántica .

En el pasado, muchas organizaciones que creaban aplicaciones de bases de datos personalizadas utilizaban equipos aislados de desarrolladores que no publicaban formalmente sus definiciones de datos. Estos equipos utilizaban con frecuencia definiciones de datos internos que eran incompatibles con otros sistemas informáticos. Esto hizo que la integración de aplicaciones empresariales y el almacenamiento de datos fueran extremadamente difíciles y costosos. Hoy en día, muchas organizaciones requieren que los equipos consulten un registro de datos centralizado antes de crear nuevas aplicaciones.

El cargo de una persona que es responsable de coordinar los datos de una organización es un arquitecto de datos .

Historia

La primera referencia a este término fue en el Panel de Ontologías AAAI de 1999 . El panel fue organizado por Chris Welty, quien, con la insistencia de Fritz Lehmann y en colaboración con los panelistas (Fritz, Mike Uschold , Mike Gruninger y Deborah McGuinness ) , propuso un "espectro" de tipos de sistemas de información que eran, en el tiempo, denominado ontologías. La imagen del "espectro de la ontología" apareció impresa en la introducción a Ontología formal y sistemas de información: Actas de la Conferencia de 2001 . El espectro de la ontología también se presentó en una charla en la reunión de Semántica para la Web en 2000 en Dagstuhl por Deborah McGuinness. McGuinness produjo un artículo que describe los puntos de ese espectro que aparecieron en el libro que surgió (mucho más tarde) de ese taller llamado "Spinning the Semantic Web". Más tarde, Leo Obrst extendió el espectro en dos dimensiones (que técnicamente ya no es un espectro) y agregó muchos más detalles, que se incluyeron en su libro, The Semantic Web: A Guide to the Future of XML, Web Services, and Conocimiento administrativo.

El concepto de precisión semántica en los sistemas empresariales fue popularizado por Dave McComb en su libro Semantics in Business Systems: The Savvy Managers Guide publicado en 2003, donde utiliza con frecuencia el término Semantic Precision .

Esta discusión se centró en una partición de 10 niveles que incluía los siguientes niveles (enumerados en el orden de precisión semántica creciente):

Catálogo simple de elementos de datos
Glosario de términos y definiciones
Tesauros , términos restringidos, relaciones
Relaciones informales " Is-a "
Relaciones formales "Is-a"
Instancias formales
Marcos (propiedades)
Restricciones de valor
Desarticulación , inversa, parte de
Restricciones lógicas generales

Tenga en cuenta que hubo un énfasis especial en la adición de relaciones formales is- a al espectro que parece haber sido descartado.

La empresa Cerebra también ha popularizado este concepto al describir los formatos de datos que existen dentro de una empresa en su capacidad para almacenar metadatos semánticamente precisos . Su lista incluye:

HTML
PDF
Documentos de procesamiento de textos
Microsoft Excel
Bases de datos relacionales
XML
Esquema XML
Taxonomías
Ontologías

Lo que comparten los conceptos en común es la capacidad de almacenar información con una precisión cada vez mayor para facilitar agentes inteligentes.

Ver también

Sistema de mensajería empresarial
Semántica
SKOS
servicio web
Esquema de clasificación (ciencia de la información)

Referencias

Semántica en sistemas empresariales: La guía de gerentes expertos , Dave McComb , 2003
Las ontologías llegan a la mayoría de edad por Deborah L. McGuinness
Figura 2 que incluye espectro ontológico