Construcción de taxonomía automática


La construcción automática de taxonomía (ATC) es el uso de programas de software para generar clasificaciones taxonómicas a partir de un cuerpo de textos llamado corpus . ATC es una rama del procesamiento del lenguaje natural , que a su vez es una rama de la inteligencia artificial .

Una taxonomía (o clasificación taxinómica) es un esquema de clasificación , especialmente, una clasificación jerárquica, en la que las cosas se organizan en grupos o tipos. [1] [2] [3] [4] [5] [6] Entre otras cosas, una taxonomía se puede utilizar para organizar e indexar el conocimiento (almacenado como documentos, artículos, videos, etc.), como en el formulario de un sistema de clasificación de biblioteca , o una taxonomía de motor de búsqueda , para que los usuarios puedan encontrar más fácilmente la información que están buscando. Muchas taxonomías son jerarquías (y por lo tanto, tienen una estructura de árbol intrínseca ), pero no todas lo son.

Desarrollar y mantener manualmente una taxonomía es una tarea que requiere mucha mano de obra y requiere una cantidad significativa de tiempo y recursos, incluida la familiaridad o la experiencia en el dominio de la taxonomía (alcance, tema o campo), lo que genera los costos y limita el alcance de dichos proyectos. Además, los modeladores de dominio tienen sus propios puntos de vista que inevitablemente, aunque no sea intencionalmente, se abren camino en la taxonomía. ATC utiliza técnicas de inteligencia artificial para generar rápidamente y automáticamente una taxonomía para un dominio con el fin de evitar estos problemas y eliminar las limitaciones.

Hay varios enfoques de ATC. Un enfoque es usar reglas para detectar patrones en el corpus y usar esos patrones para inferir relaciones como la hiponimia . Otros enfoques utilizan técnicas de aprendizaje automático como la inferencia bayesiana y las redes neuronales artificiales . [7]

Un enfoque para construir una taxonomía es recopilar automáticamente las palabras clave de un dominio mediante la extracción de palabras clave , luego analizar las relaciones entre ellas (ver Hiponimia , a continuación) y luego organizarlas como una taxonomía basada en esas relaciones.

En los programas de ATC, una de las tareas más importantes es el descubrimiento de relaciones de hipernimo e hipónimo entre palabras. Una forma de hacerlo desde un cuerpo de texto es buscar ciertas frases como "es un" y "como".