Aprendizaje de ontología

El aprendizaje de ontologías ( extracción de ontologías, generación de ontologías o adquisición de ontologías ) es la creación automática o semiautomática de ontologías , incluida la extracción de los términos del dominio correspondiente y las relaciones entre los conceptos que estos términos representan de un corpus de texto en lenguaje natural, y la codificación con un lenguaje de ontología para una fácil recuperación. Dado que la construcción manual de ontologías requiere mucho trabajo y mucho tiempo, existe una gran motivación para automatizar el proceso.

Por lo general, el proceso comienza con la extracción de términos y conceptos o frases nominales de texto sin formato mediante procesadores lingüísticos como el etiquetado de partes del discurso y la fragmentación de frases . Luego, se utilizan técnicas estadísticas ^[1] o simbólicas ^[2]^[3] para extraer firmas de relaciones , a menudo basadas en técnicas de extracción de hiperónimos basadas en patrones ^[4] o basadas en definiciones ^[5] .

El aprendizaje de ontologías (OL) se utiliza para extraer (semi-)automáticamente ontologías completas del texto en lenguaje natural. ^[6]^[7] El proceso suele dividirse en las siguientes ocho tareas, que no necesariamente se aplican en todos los sistemas de aprendizaje de ontologías.

Durante el paso de extracción de terminología del dominio, se extraen términos específicos del dominio, que se utilizan en el siguiente paso (descubrimiento de conceptos) para derivar conceptos. Los términos relevantes se pueden determinar, por ejemplo, mediante el cálculo de los valores TF/IDF o mediante la aplicación del método de valor C/valor NC. La lista resultante de términos debe ser filtrada por un experto en el dominio. En el paso siguiente, de manera similar a la resolución de correferencias en la extracción de información , el sistema OL determina sinónimos, porque comparten el mismo significado y por lo tanto corresponden al mismo concepto. Por lo tanto, los métodos más comunes son el agrupamiento y la aplicación de medidas de similitud estadística.

En el paso de descubrimiento de conceptos, los términos se agrupan en unidades portadoras de significado, que corresponden a una abstracción del mundo y, por lo tanto, a conceptos . Los términos agrupados son estos términos específicos del dominio y sus sinónimos, que se identificaron en el paso de extracción de terminología del dominio.

En el paso de derivación de la jerarquía de conceptos, el sistema OL intenta organizar los conceptos extraídos en una estructura taxonómica. Esto se logra principalmente con métodos de agrupamiento jerárquico no supervisados. Debido a que el resultado de tales métodos es a menudo ruidoso, se agrega un paso de supervisión, por ejemplo, evaluación del usuario. Existe otro método para la derivación de una jerarquía de conceptos en el uso de varios patrones que deberían indicar una relación de sub o supersunción.. Patrones como "X, eso es una Y" o "X es una Y" indican que X es una subclase de Y. Dicho patrón se puede analizar de manera eficiente, pero a menudo ocurren con poca frecuencia para extraer suficientes relaciones de subsunción o supersunción. En cambio, se desarrollan métodos de arranque, que aprenden estos patrones automáticamente y, por lo tanto, garantizan una cobertura más amplia.