Agrupación de documentos

La agrupación de documentos (o agrupación de texto ) es la aplicación del análisis de agrupaciones a documentos textuales. Tiene aplicaciones en organización automática de documentos, extracción de temas y recuperación o filtrado rápido de información .

Descripción general

La agrupación de documentos implica el uso de descriptores y la extracción de descriptores. Los descriptores son conjuntos de palabras que describen los contenidos dentro del grupo. La agrupación de documentos generalmente se considera un proceso centralizado. Los ejemplos de agrupación de documentos incluyen la agrupación de documentos web para usuarios de búsqueda.

La aplicación de la agrupación de documentos se puede clasificar en dos tipos, en línea y fuera de línea. Las aplicaciones en línea suelen estar limitadas por problemas de eficiencia en comparación con las aplicaciones fuera de línea. La agrupación de texto se puede utilizar para diferentes tareas, como agrupar documentos similares (noticias, tweets, etc.) y el análisis de los comentarios de clientes / empleados, descubriendo temas implícitos significativos en todos los documentos.

En general, existen dos algoritmos comunes. El primero es el algoritmo de base jerárquica, que incluye enlace único, enlace completo, promedio de grupo y el método de Ward. Al agregar o dividir, los documentos se pueden agrupar en una estructura jerárquica, que es adecuada para navegar. Sin embargo, este algoritmo suele tener problemas de eficiencia. El otro algoritmo se desarrolla utilizando el algoritmo K-means y sus variantes. Generalmente, los algoritmos jerárquicos producen información más detallada para análisis detallados, mientras que los algoritmos basados en variantes del algoritmo K-means son más eficientes y brindan información suficiente para la mayoría de los propósitos. ^[1]^{: Capítulo 14}

Estos algoritmos pueden además clasificarse como algoritmos de agrupación en clústeres rígidos o blandos. La agrupación en clústeres calcula una asignación difícil: cada documento es miembro de exactamente un clúster. La asignación de algoritmos de agrupación en clústeres suaves es suave: la asignación de un documento es una distribución en todos los clústeres. En una asignación flexible, un documento tiene una pertenencia fraccionada a varios grupos. ^[1]^{: 499 Los} métodos de reducción de dimensionalidad pueden considerarse un subtipo de agrupamiento suave; para los documentos, estos incluyen indexación semántica latente ( descomposición de valores singulares truncados en histogramas de términos) ^[2] y modelos de temas .

Otros algoritmos incluyen la agrupación en clústeres basada en gráficos, la agrupación en clústeres soportada por ontologías y la agrupación en clústeres sensibles al orden.

Dada una agrupación, puede resultar beneficioso derivar automáticamente etiquetas legibles por humanos para las agrupaciones. Existen varios métodos para este propósito.

Agrupación en motores de búsqueda

Un motor de búsqueda web a menudo devuelve miles de páginas en respuesta a una consulta amplia, lo que dificulta que los usuarios naveguen o identifiquen información relevante. Los métodos de agrupación se pueden utilizar para agrupar automáticamente los documentos recuperados en una lista de categorías significativas.

Procedimientos

En la práctica, la agrupación de documentos suele seguir los siguientes pasos:

1. Tokenización

La tokenización es el proceso de analizar datos de texto en unidades más pequeñas (tokens) como palabras y frases. Los métodos de tokenización más utilizados incluyen el modelo Bag-of-words y el modelo N-gram .

2. Derivado y lematización

Diferentes tokens pueden llevar a cabo información similar (por ejemplo, tokenización y tokenización). Y podemos evitar calcular información similar repetidamente reduciendo todos los tokens a su forma base utilizando varios diccionarios de lematización y derivación.

3. Eliminación de palabras vacías y puntuación

Algunas fichas son menos importantes que otras. Por ejemplo, palabras comunes como "el" pueden no ser muy útiles para revelar las características esenciales de un texto. Por lo tanto, suele ser una buena idea eliminar las palabras vacías y los signos de puntuación antes de realizar un análisis más detallado.

4. Calcular frecuencias de términos o tf-idf

Después de preprocesar los datos de texto, podemos proceder a generar características. Para la agrupación de documentos, una de las formas más comunes de generar características para un documento es calcular las frecuencias de términos de todos sus tokens. Aunque no son perfectas, estas frecuencias generalmente pueden proporcionar algunas pistas sobre el tema del documento. Y a veces también es útil ponderar el término frecuencias por las frecuencias inversas del documento. Consulte tf-idf para obtener discusiones detalladas.

5. Agrupación

Luego, podemos agrupar diferentes documentos en función de las características que hemos generado. Consulte la sección de algoritmos en el análisis de conglomerados para conocer los diferentes tipos de métodos de agrupamiento.

6. Evaluación y visualización

Por último, los modelos de agrupación en clústeres pueden evaluarse mediante diversas métricas. Y a veces es útil visualizar los resultados trazando los grupos en un espacio de baja (dos) dimensiones. Vea el escalado multidimensional como un posible enfoque.

Agrupación versus clasificación

Los algoritmos de agrupamiento en el análisis de texto computacional agrupan los documentos en un conjunto de texto que se denomina subconjuntos o grupos donde el objetivo del algoritmo es crear grupos coherentes internamente que sean distintos entre sí. ^{[3] La} clasificación, por otro lado, es una forma de aprendizaje supervisado donde las características de los documentos se utilizan para predecir el "tipo" de documentos.

Ver también

Referencias

^ ^a ^b Manning, Chris y Hinrich Schütze, Fundamentos del procesamiento estadístico del lenguaje natural , MIT Press. Cambridge, MA: mayo de 1999.
^ http://nlp.stanford.edu/IR-book/pdf/16flat.pdf
^ "Introducción a la recuperación de información" . nlp.stanford.edu . pag. 349 . Consultado el 3 de mayo de 2016 .

Bibliografía

Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze. Agrupación plana en Introducción a la recuperación de información. Prensa de la Universidad de Cambridge. 2008
Nicholas O. Andrews y Edward A. Fox, Desarrollos recientes en la agrupación de documentos, 16 de octubre de 2007 [1]
Claudio Carpineto, Stanislaw Osiński, Giovanni Romano, Dawid Weiss. Una encuesta sobre los motores de agrupación en clústeres web. Encuestas de Computación ACM, Volumen 41, Número 3 (julio de 2009), Artículo No. 17, ISSN 0360-0300
Wui Lee Chang, Kai Meng Tay y Chee Peng Lim, Un nuevo modelo basado en árboles en evolución con reaprendizaje local para la agrupación y visualización de documentos, Letras de procesamiento neuronal, DOI: 10.1007 / s11063-017-9597-3. https://link.springer.com/article/10.1007/s11063-017-9597-3

[manning-1] Manning, Chris y Hinrich Schütze, Fundamentos del procesamiento estadístico del lenguaje natural , MIT Press. Cambridge, MA: mayo de 1999.

[2] ttp://nlp.stanford.edu/IR-book/pdf/16flat.pdf

[3] "Introducción a la recuperación de información" . nlp.stanford.edu . pag. 349 . Consultado el 3 de mayo de 2016 .

[1]