El aprendizaje de ontologías ( extracción de ontologías , generación de ontologías o adquisición de ontologías ) es la creación automática o semiautomática de ontologías , incluida la extracción de los términos del dominio correspondiente y las relaciones entre los conceptos que estos términos representan de un corpus de texto en lenguaje natural, y la codificación. ellos con un lenguaje de ontología para una fácil recuperación. Dado que la creación de ontologías manualmente es extremadamente laboriosa y requiere mucho tiempo, existe una gran motivación para automatizar el proceso.
Por lo general, el proceso comienza extrayendo términos y conceptos o frases nominales del texto sin formato utilizando procesadores lingüísticos como el etiquetado de parte del discurso y la fragmentación de frases . Luego , se utilizan técnicas estadísticas [1] o simbólicas [2] [3] para extraer firmas de relaciones , a menudo basadas en técnicas de extracción de hiperónimos basadas en patrones [4] o basadas en definiciones [5] .
Procedimiento
El aprendizaje de ontologías (OL) se utiliza para extraer (semi) automáticamente ontologías completas del texto en lenguaje natural. [6] [7] El proceso generalmente se divide en las siguientes ocho tareas, que no se aplican necesariamente en todos los sistemas de aprendizaje de ontologías.
Extracción de terminología de dominio
Durante el paso de extracción de terminología de dominio , se extraen términos específicos de dominio, que se utilizan en el siguiente paso (descubrimiento de conceptos) para derivar conceptos. Los términos relevantes pueden determinarse, por ejemplo, mediante el cálculo de los valores TF / IDF o mediante la aplicación del método del valor C / valor NC. La lista de términos resultante debe ser filtrada por un experto en el dominio. En el paso posterior, de manera similar a la resolución de correferencia en la extracción de información , el sistema OL determina sinónimos, porque comparten el mismo significado y por lo tanto corresponden al mismo concepto. Por lo tanto, los métodos más comunes son la agrupación y la aplicación de medidas de similitud estadística.
Descubrimiento de conceptos
En el paso de descubrimiento de conceptos, los términos se agrupan en unidades portadoras de significado, que corresponden a una abstracción del mundo y, por lo tanto, a conceptos . Los términos agrupados son estos términos específicos del dominio y sus sinónimos, que se identificaron en el paso de extracción de la terminología del dominio.
Derivación de la jerarquía de conceptos
En el paso de derivación de la jerarquía de conceptos, el sistema OL intenta organizar los conceptos extraídos en una estructura taxonómica. Esto se logra principalmente mediante métodos de agrupación jerárquica no supervisados . Debido a que el resultado de tales métodos es a menudo ruidoso, se integra una supervisión, por ejemplo, mediante la evaluación por parte del usuario. Existe un método adicional para la derivación de una jerarquía de conceptos mediante el uso de varios patrones, que deberían indicar una relación de sub-o supersunción . Patrones como "X, que es una Y" o "X es una Y" indican que X es una subclase de Y. Tal patrón se puede analizar de manera eficiente, pero ocurren con poca frecuencia, para extraer suficientes relaciones de sub o supersunción. En su lugar, se desarrollan métodos de arranque, que aprenden estos patrones automáticamente y, por lo tanto, garantizan una mayor cobertura.
Aprendizaje de relaciones no taxonómicas
En el paso del aprendizaje de las relaciones no taxonómicas, se extraen las relaciones que no expresan ninguna sub o supersunción. Tales relaciones son, por ejemplo, trabajos para o localizados. Hay dos enfoques comunes para resolver esta subtarea. El primero se basa en la extracción de asociaciones anónimas, que se nombran apropiadamente en un segundo paso. El segundo enfoque extrae verbos, que indican una relación entre las entidades, representadas por las palabras circundantes. Pero el resultado de ambos enfoques debe ser evaluado por un ontólogo.
Descubrimiento de reglas
Durante el descubrimiento de reglas , [8] axiomas (descripción formal de conceptos) se generan para los conceptos extraídos. Esto se puede lograr, por ejemplo, analizando la estructura sintáctica de una definición de lenguaje natural y la aplicación de reglas de transformación en el árbol de dependencia resultante. El resultado de este proceso es una lista de axiomas, que luego se comprende en una descripción de concepto. Este tiene que ser evaluado por un ontólogo.
Población de ontología
En este paso, la ontología se aumenta con instancias de conceptos y propiedades. Para el aumento con instancias de conceptos se utilizan métodos basados en el emparejamiento de patrones léxico-sintácticos. Las instancias de propiedades se agregan mediante la aplicación de métodos de arranque , que recopilan tuplas de relación.
Extensión de la jerarquía de conceptos
En este paso, el sistema OL intenta ampliar la estructura taxonómica de una ontología existente con más conceptos. Esto puede realizarse supervisado por un clasificador capacitado o no supervisado por la aplicación de medidas de similitud .
Detección de fotogramas y eventos
Durante la detección de fotogramas / eventos, el sistema OL intenta extraer relaciones complejas del texto, por ejemplo, quién partió de dónde a qué lugar y cuándo. Los enfoques van desde la aplicación de SVM con métodos de kernel hasta el etiquetado de roles semánticos (SRL) [9] y las técnicas de análisis sintáctico semántico profundo . [10]
Herramientas
Dog4Dag (Dresden Ontology Generator for Directed Acyclic Graphs) es un complemento de generación de ontologías para Protégé 4.1 y OBOEdit 2.1. Permite la generación de términos, la generación de hermanos, la generación de definiciones y la inducción de relaciones. Integrado en Protégé 4.1 y OBO-Edit 2.1, DOG4DAG permite la extensión de ontología para todos los formatos de ontología comunes (por ejemplo, OWL y OBO). Limitado en gran medida a las extensiones del servicio de búsqueda de EBI y Bio Portal. [11]
Ver también
Bibliografía
- P. Buitelaar, P. Cimiano (Eds.). Ontology Learning and Population: Bridging the Gap between Text and Knowledge , Serie de información para Frontiers in Artificial Intelligence and Applications , IOS Press, 2008.
- P. Buitelaar, P. Cimiano y B. Magnini (Eds.). Ontology Learning from Text: Methods, Evaluation and Applications , Serie de información para Frontiers in Artificial Intelligence and Applications , IOS Press, 2005.
- Wong, W. (2009), " Aprendizaje de ontologías ligeras a partir de texto en diferentes dominios utilizando la Web como conocimiento básico ". Tesis de Doctorado en Filosofía, Universidad de Australia Occidental.
- Wong, W., Liu, W. y Bennamoun, M. (2012), " Ontología que aprende del texto: una mirada hacia atrás y hacia el futuro ". Encuestas de computación de ACM, volumen 44, número 4, páginas 20: 1-20: 36.
- Thomas Wächter, Götz Fabian, Michael Schroeder: DOG4DAG: generación de ontologías semiautomatizadas en OBO-Edit y Protégé. SWAT4LS Londres, 2011. doi: 10.1145 / 2166896.2166926
Referencias
- ^ A. Maedche y S.Staab. Aprendizaje de ontologías para la web semántica . En Semantic Web Worskhop 2001.
- ^ Roberto Navigli y Paola Velardi . Ontologías de dominio de aprendizaje de almacenes de documentos y sitios web dedicados , lingüística computacional, 30 (2), MIT Press, 2004, pp.151-179.
- ↑ P.Velardi, S.Faralli, R.Navigli. OntoLearn Reloaded: un algoritmo basado en gráficos para la inducción de taxonomía . Lingüística computacional, 39 (3), MIT Press, 2013, págs. 665-707.
- ^ Marti A. Hearst. Adquisición automática de hipónimos de grandes corpus de texto . En Actas de la Decimocuarta Conferencia Internacional sobre Lingüística Computacional, páginas 539--545, Nantes, Francia, julio de 1992.
- ↑ R.Navigli, P. Velardi. Aprendizaje de celosías de clases de palabras para la definición y extracción de hipernimos. Procedimiento de la 48ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2010), Uppsala, Suecia, 11 al 16 de julio de 2010, págs. 1318-1327.
- ^ Cimiano, Philipp; Völker, Johanna; Studer, Rudi (2006). "¿Ontologías bajo demanda? - Una descripción del estado del arte, aplicaciones, desafíos y tendencias para el aprendizaje de ontologías a partir del texto", Información, Wissenschaft und Praxis , 57, p. 315-320, http://people.aifb.kit.edu/pci/Publications/iwp06.pdf (consultado: 18.06.2012).
- ^ Wong, W., Liu, W. y Bennamoun, M. (2012), " Ontología que aprende del texto: una mirada hacia atrás y hacia el futuro ". Encuestas de computación de ACM, volumen 44, número 4, páginas 20: 1-20: 36.
- ^ Johanna Völker; Pascal Hitzler ; Cimiano, Philipp (2007). "Adquisición de axiomas de OWL DL a partir de recursos léxicos", Actas de la 4ª conferencia europea sobre la Web semántica , p. 670 - 685, http://smartweb.dfki.de/Vortraege/lexo_2007.pdf (consultado: 18.06.2012).
- ^ Coppola B .; Gangemi A .; Gliozzo A .; Picca D .; Presutti V. (2009). " Frame Detection over the Semantic Web ", Actas de la Conferencia Europea de Web Semántica (ESWC2009), Springer, 2009.
- ^ Presutti V .; Draicchio F .; Gangemi A. (2009). " Extracción de conocimiento basada en la teoría de la representación del discurso y los marcos lingüísticos ", Actas de la Conferencia sobre Ingeniería del Conocimiento y Gestión del Conocimiento (EKAW2012), LNCS, Springer, 2012.
- ^ Thomas Wächter, Götz Fabian, Michael Schroeder: DOG4DAG: generación de ontología semiautomatizada en OBO-Edit y Protégé. SWAT4LS Londres, 2011. doi : 10.1145 / 2166896.2166926 http://www.biotec.tu-dresden.de/research/schroeder/dog4dag/