La minería de conceptos es una actividad que da como resultado la extracción de conceptos de artefactos . Las soluciones para la tarea generalmente involucran aspectos de inteligencia artificial y estadísticas , como minería de datos y minería de texto . [1] Debido a que los artefactos son típicamente una secuencia de palabras y otros símbolos poco estructurados (en lugar de conceptos), el problema no es trivial , pero puede proporcionar información poderosa sobre el significado, la procedencia y la similitud de los documentos.
Métodos
Tradicionalmente, la conversión de palabras a conceptos se ha realizado utilizando un tesauro , [2] y para las técnicas computacionales la tendencia es hacer lo mismo. Los tesauros utilizados son creados especialmente para la tarea o un modelo de lenguaje preexistente, generalmente relacionado con WordNet de Princeton .
Las asignaciones de palabras a conceptos [3] suelen ser ambiguas . Normalmente, cada palabra en un idioma dado se relacionará con varios conceptos posibles. Los seres humanos utilizan el contexto para eliminar la ambigüedad de los diversos significados de un texto determinado, donde los sistemas de traducción automática disponibles no pueden inferir fácilmente el contexto.
Sin embargo, para los propósitos de la minería de conceptos, estas ambigüedades tienden a ser menos importantes que con la traducción automática, ya que en documentos grandes las ambigüedades tienden a nivelarse, al igual que ocurre con la minería de texto.
Hay muchas técnicas para la desambiguación que se pueden utilizar. Algunos ejemplos son el análisis lingüístico del texto y el uso de información de frecuencia de asociación de palabras y conceptos que puede inferirse de grandes corpus de texto. Recientemente, han aparecido y ganado interés en la comunidad científica técnicas que se basan en la similitud semántica entre los posibles conceptos y el contexto.
Aplicaciones
Detectar e indexar documentos similares en grandes corpora
Una de las consecuencias del cálculo de estadísticas de documentos en el dominio de conceptos, en lugar del dominio de palabras, es que los conceptos forman estructuras de árboles naturales basadas en la hipernimia y la meronimia . Estas estructuras se pueden usar para generar estadísticas simples de pertenencia a árboles, que se pueden usar para ubicar cualquier documento en un espacio conceptual euclidiano . Si el tamaño de un documento también se considera como otra dimensión de este espacio, se puede crear un sistema de indexación extremadamente eficiente. Esta técnica se encuentra actualmente en uso comercial ubicando documentos legales similares en un corpus de documentos de 2,5 millones.
Agrupar documentos por tema
Se pueden utilizar técnicas de agrupamiento numérico estándar en el "espacio conceptual" como se describe anteriormente para ubicar e indexar documentos por el tema inferido. Estos son numéricamente mucho más eficientes que sus primos de minería de texto y tienden a comportarse de manera más intuitiva, ya que se asignan mejor a las medidas de similitud que generaría un humano.
Ver también
Referencias
- ^ Yuen-Hsien Tseng, Chun-Yen Chang, Shu-Nu Chang Rundgren y Carl-Johan Rundgren, " Mapas conceptuales de minería de noticias para medir la alfabetización científica cívica en los medios ", Informática y educación, vol. 55, núm. 1, agosto de 2010, págs. 165-177.
- ^ Yuen-Hsien Tseng, " Generación automática de tesauros para documentos chinos ", Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, vol. 53, núm. 13, noviembre de 2002, págs. 1130-1138.
- ^ Yuen-Hsien Tseng, " Etiquetado genérico de títulos para documentos agrupados ", Sistemas expertos con aplicaciones, vol. 37, núm. 3, 15 de marzo de 2010, págs. 2247-2254.