Una base de datos distribucional-relacional , o base de datos de vectores de palabras , es un sistema de administración de bases de datos (DBMS) que utiliza representaciones de vectores de palabras de distribución para enriquecer la semántica de los datos estructurados .
Como los vectores de palabras de distribución se pueden construir automáticamente a partir de corpus a gran escala , [1] este enriquecimiento apoya la construcción de bases de datos que pueden incorporar conocimientos de fondo de sentido común a gran escala en sus operaciones. Los modelos distributivos-relacionales se pueden aplicar a la construcción de bases de datos agnósticas de esquema (bases de datos en las que los usuarios pueden consultar los datos sin conocer su esquema ), búsqueda semántica , integración de esquemas y razonadores inductivos y abductivos , así como diferentes aplicaciones en las que Se necesita un modelo de representación del conocimiento semánticamente flexible. La principal ventaja de los modelos distributivos-relacionales sobre los puramente lógicos /modelos de web semántica es el hecho de que las asociaciones semánticas centrales pueden capturarse automáticamente de los corpus en contraste con la definición de ontologías seleccionadas manualmente y bases de conocimiento de reglas. [2]
Modelos distribucionales-relacionales
Los modelos distribucionales-relacionales se formalizaron por primera vez [3] [4] como un mecanismo para hacer frente a la brecha semántica / de vocabulario entre los usuarios y el esquema detrás de los datos. En este escenario, las medidas de relación semántica distributiva , combinadas con heurísticas pivotantes semánticas, pueden apoyar la aproximación entre las consultas de los usuarios (expresadas en su propio vocabulario) y los datos (expresados en el vocabulario del diseñador).
En este modelo, los símbolos de la base de datos (entidades y relaciones) están incrustados en un espacio semántico distributivo y tienen una interpretación geométrica bajo un espacio semántico latente o explícito. El aspecto geométrico soporta la aproximación semántica entre entidades de diferentes bases de datos o entre un término de consulta y una entidad de base de datos. El modelo relacional distributivo se convierte entonces en un modelo de doble capa donde la semántica de los datos estructurados proporciona la semántica detallada prevista por el diseñador de la base de datos , que se extiende mediante el modelo semántico distributivo que contiene las asociaciones semánticas expresadas en un uso más amplio. Estos modelos apoyan la generalización de un escenario de comunicación cerrado (en el que los diseñadores de bases de datos y los usuarios viven en el mismo contexto, por ejemplo, la misma organización) a un escenario de comunicación abierta (por ejemplo, diferentes organizaciones, la Web), creando una capa de abstracción entre los usuarios y el representación específica del modelo conceptual.
Referencias
- ^ Harris, Z. (1954). "Estructura distributiva". Palabra. 10 (23): 146-162.
- ^ Métais, Elisabeth; Roche, Mathieu; Teisseire, Maguelonne (16 de junio de 2014). Procesamiento del lenguaje natural y sistemas de información: XIX Conferencia internacional sobre aplicaciones del lenguaje natural a los sistemas de información, NLDB 2014, Montpellier, Francia, 18-20 de junio de 2014. Actas . Saltador. ISBN 978-3-319-07983-7.
- ^ Freitas, A. "Consultas agnósticas de esquema sobre bases de datos de esquema grande: un enfoque de semántica distributiva" Tesis de doctorado, 2015
- ^ Freitas, A., Handschuh, S., Curry, E., Modelos distribucionales-relacionales: Semántica escalable para bases de datos, Simposio de primavera AAAI, Representación del conocimiento y pista de razonamiento, Stanford, 2014