Bases de datos independientes del esquema

Las bases de datos agnósticas del esquema o las bases de datos independientes del vocabulario tienen como objetivo ayudar a los usuarios a abstraerse de la representación de los datos, respaldando la coincidencia semántica automática entre consultas y bases de datos . El agnosticismo de esquema es la propiedad de una base de datos de mapear una consulta emitida con la terminología y estructura del usuario, mapeándola automáticamente con el vocabulario del conjunto de datos.

El aumento en el tamaño y en la heterogeneidad semántica de los esquemas de bases de datos trae nuevos requisitos para los usuarios que consultan y buscan datos estructurados . A esta escala, puede resultar inviable para los consumidores de datos familiarizarse con la representación de los datos para poder consultarlos. En el centro de esta discusión está la brecha semántica entre los usuarios y las bases de datos, que se vuelve más central a medida que crece la escala y la complejidad de los datos.

Descripción

La evolución de los entornos de datos hacia el consumo de datos de múltiples fuentes de datos y el crecimiento en el tamaño del esquema , la complejidad , la dinámica y la descentralización (SCoDD) de los esquemas ^[1]^[2]^[3] aumenta la complejidad de la gestión de datos contemporánea. La tendencia SCoDD surge como una preocupación central de gestión de datos en escenarios de Big Data , donde los usuarios y las aplicaciones tienen una demanda de datos más completos, producidos por fuentes de datos independientes, bajo diferentes supuestos semánticos y contextos de uso, que es el escenario típico de la Web Semántica. Aplicaciones de datos.

La evolución de las bases de datos en la dirección de entornos de datos heterogéneos tiene un fuerte impacto en la usabilidad, la semiótica y los supuestos semánticos detrás de los métodos de accesibilidad de datos existentes, como consultas estructuradas, búsqueda basada en palabras clave y sistemas de consulta visual. Con bases de datos sin esquema que contienen potencialmente millones de atributos que cambian dinámicamente, se vuelve inviable para algunos usuarios conocer el "esquema" o vocabulario para consultar la base de datos. A esta escala, el esfuerzo por comprender el esquema para construir una consulta estructurada puede volverse prohibitivo.

Consultas independientes del esquema

Las consultas independientes del esquema se pueden definir como enfoques de consulta sobre bases de datos estructuradas que permiten a los usuarios satisfacer necesidades de información complejas sin comprender la representación (esquema) de la base de datos. Del mismo modo, Tran et al. ^{[4] lo} define como "enfoques de búsqueda, que no requieren que los usuarios conozcan el esquema subyacente a los datos". Enfoques como la búsqueda basada en palabras clave sobre bases de datos permiten a los usuarios consultar bases de datos sin emplear consultas estructuradas. Sin embargo, como lo discutieron Tran et al .: "Desde estos puntos, los usuarios, sin embargo, tienen que hacer una mayor navegación y exploración para abordar necesidades complejas de información. A diferencia de la búsqueda de palabras clave utilizada en la Web, que se enfoca en necesidades simples, la búsqueda de palabras clave elaborada aquí es se utiliza para obtener resultados más complejos. En lugar de un solo conjunto de recursos, el objetivo es calcular conjuntos complejos de recursos y sus relaciones ".

El desarrollo de enfoques para admitir interfaces de lenguaje natural (NLI) sobre bases de datos ha apuntado hacia el objetivo de consultas independientes del esquema. De manera complementaria, algunos enfoques basados en la búsqueda de palabras clave se han dirigido a consultas basadas en palabras clave que expresan necesidades de información más complejas. Otros enfoques han explorado la construcción de consultas estructuradas sobre bases de datos donde se pueden relajar las restricciones de esquema. Todos estos enfoques (lenguaje natural, búsqueda basada en palabras clave y consultas estructuradas) se han centrado en diferentes grados de sofisticación al abordar el problema de respaldar una coincidencia semántica flexible entre consultas y datos, que varían desde la ausencia total de la preocupación semántica hasta la semántica más basada en principios. modelos. Si bien la demanda de agnosticismo de esquemas ha sido un requisito implícito en los sistemas de búsqueda semántica y de consulta en lenguaje natural sobre datos estructurados, no está suficientemente individualizado como concepto y como requisito necesario para los sistemas de gestión de bases de datos contemporáneos. Trabajos recientes han comenzado a definir y modelar los aspectos semánticos involucrados en consultas agnósticas de esquema. ^[1]^[5]^[6]

Consultas estructuradas independientes del esquema

Consiste en consultas independientes del esquema que siguen la sintaxis de un estándar estructurado (por ejemplo , SQL , SPARQL ). Se mantiene la sintaxis y semántica de los operadores, mientras que se utilizan diferentes terminologías.

Ejemplo 1

SELECCIONAR? Y { BillClinton tiene hija? X. ? x casado con? y.}

que se asigna a la siguiente consulta SPARQL en el vocabulario del conjunto de datos:

PREFIX  :   PREFIX  dbpedia2 :   PREFIX  dbpedia :   PREFIX  skos :   PREFIX  dbo :  SELECCIÓN  Y?  {  : Bill_Clinton  DBpedia : niño  x  .  ? x  dbpedia2 : cónyuge  ? y  .  }

Ejemplo 2

SELECCIONAR  ? X  {  ? X  es un  libro  .  ? x,  de  William_Goldman  .  ? x  has_pages  ? p  .  FILTRO  ( ? P  >  300 )  }

que se asigna a la siguiente consulta SPARQL en el vocabulario del conjunto de datos:

PREFIX  rdf :   PREFIX  :   PREFIX  dbpedia2 :   PREFIX  dbpedia :   SELECT  ? x  {  ? x  rdf : type  dbpedia : Book  .  ? x  dbpedia2 : autor  : William_Goldman  .  ? x  dbpedia : numberOfPages  ? p  . FILTRO ( ? P  >  300 ) }

Consultas de palabras clave independientes del esquema

Consiste en consultas independientes del esquema mediante consultas de palabras clave. En este caso, la sintaxis y la semántica de los operadores son diferentes de la sintaxis de la consulta estructurada.

Ejemplo

"Hija de Bill Clinton casada con"

"Libros de William Goldman con más de 300 páginas"

Complejidad semántica

A partir de 2016, el concepto de consultas agnósticas del esquema se ha desarrollado principalmente en el ámbito académico. La mayoría de los sistemas de consulta independientes del esquema se han investigado en el contexto de interfaces de lenguaje natural sobre bases de datos o sobre la web semántica . ^[7] Estos trabajos exploran la aplicación de técnicas de análisis sintáctico semántico en bases de datos grandes, heterogéneas y sin esquema. Más recientemente, la individuación del concepto de sistemas de consulta y bases de datos agnósticos del esquema ha aparecido de manera más explícita en la literatura. ^[1]^[5]^[6] Freitas y col. ^[8] proporcionan un modelo probabilístico sobre la complejidad semántica de las consultas agnósticas del esquema de mapeo.

Referencias

^ ^a ^b ^c A. Freitas, "Consultas agnósticas de esquema sobre bases de datos de esquema grande: un enfoque de semántica distributiva" Tesis doctoral, 2015
^ Pat Helland, ["Si tiene demasiados datos, entonces 'suficientemente bueno' es suficientemente bueno"], Comun. ACM 54 (6): 40–47, 2011.
^ ML Brodie y JT Liu, ["El poder y los límites de la tecnología relacional en la era de los ecosistemas de información"], Keynote, On The Move Federated Conferences, Heraklion, Grecia, 25 al 29 de octubre de 2010.
^ T. Tran, T. Mathaess, P. Haase, ["Usabilidad de la búsqueda independiente de esquemas basada en palabras clave: un estudio comparativo de búsqueda de palabras clave, búsqueda por facetas, finalización de consultas y finalización de resultados"], en las actas de la séptima Web semántica extendida Conferencia (ESWC'10). Heraklion, Grecia, junio de 2010.
^ ^a ^b A. Freitas, JC Pereira Da Silva, E. Curry, "Sobre el mapeo semántico de consultas agnósticas de esquema: un estudio preliminar" , Taller de interfaces de lenguaje natural para la Web de datos (NLIWoD), 13a Semántica internacional Conferencia Web (ISWC), Rival del Garda, 2014.
^ ^a ^b S. Bischof, M. Kroetzsch, A. Polleres, S. Rudolph, ["Reescritura de consultas agnósticas de esquema en SPARQL 1.1"], en las actas de la 13ª Conferencia Internacional de Web Semántica. Springer 2014.
^ Unger et al., ["Introducción a la respuesta a preguntas sobre datos vinculados"], en las actas de la escuela de verano de 2014 Reasoning Web, 2014
^ A. Freitas, JE Sales, S. Handschuh, E. Curry, "¿Qué tan difícil es la consulta? Medir la complejidad semántica de consultas agnósticas de esquema" , en las actas de la 11ª Conferencia Internacional sobre Semántica Computacional (IWCS), Londres, 2015.

[freitasThesis-1] A. Freitas, "Consultas agnósticas de esquema sobre bases de datos de esquema grande: un enfoque de semántica distributiva" Tesis doctoral, 2015

[2] Pat Helland, ["Si tiene demasiados datos, entonces 'suficientemente bueno' es suficientemente bueno"], Comun. ACM 54 (6): 40–47, 2011.

[3] ML Brodie y JT Liu, ["El poder y los límites de la tecnología relacional en la era de los ecosistemas de información"], Keynote, On The Move Federated Conferences, Heraklion, Grecia, 25 al 29 de octubre de 2010.

[4] T. Tran, T. Mathaess, P. Haase, ["Usabilidad de la búsqueda independiente de esquemas basada en palabras clave: un estudio comparativo de búsqueda de palabras clave, búsqueda por facetas, finalización de consultas y finalización de resultados"], en las actas de la séptima Web semántica extendida Conferencia (ESWC'10). Heraklion, Grecia, junio de 2010.

[Mapping-5] A. Freitas, JC Pereira Da Silva, E. Curry, "Sobre el mapeo semántico de consultas agnósticas de esquema: un estudio preliminar" , Taller de interfaces de lenguaje natural para la Web de datos (NLIWoD), 13a Semántica internacional Conferencia Web (ISWC), Rival del Garda, 2014.

[Bischof-6] S. Bischof, M. Kroetzsch, A. Polleres, S. Rudolph, ["Reescritura de consultas agnósticas de esquema en SPARQL 1.1"], en las actas de la 13ª Conferencia Internacional de Web Semántica. Springer 2014.

[7] Unger et al., ["Introducción a la respuesta a preguntas sobre datos vinculados"], en las actas de la escuela de verano de 2014 Reasoning Web, 2014

[8] A. Freitas, JE Sales, S. Handschuh, E. Curry, "¿Qué tan difícil es la consulta? Medir la complejidad semántica de consultas agnósticas de esquema" , en las actas de la 11ª Conferencia Internacional sobre Semántica Computacional (IWCS), Londres, 2015.

[1]