Clasificación de documentos

La clasificación de documentos o la categorización de documentos es un problema en bibliotecología , ciencias de la información e informática . La tarea consiste en asignar un documento a una o más clases o categorías . Esto puede hacerse "manualmente" (o "intelectualmente") o algorítmicamente . La clasificación intelectual de documentos ha sido principalmente competencia de la ciencia bibliotecaria, mientras que la clasificación algorítmica de documentos se encuentra principalmente en ciencias de la información e informática. Sin embargo, los problemas se superponen y, por lo tanto, existe una investigación interdisciplinaria sobre la clasificación de documentos.

Los documentos a clasificar pueden ser textos, imágenes, música, etc. Cada tipo de documento tiene sus problemas especiales de clasificación. Cuando no se especifica lo contrario, la clasificación del texto está implícita.

Los documentos pueden clasificarse según su tema o según otros atributos (como tipo de documento, autor, año de impresión, etc.). En el resto de este artículo solo se considera la clasificación de materias. Hay dos filosofías principales de la clasificación de documentos por materias: el enfoque basado en contenido y el enfoque basado en solicitudes.

Clasificación "basada en contenido" versus "basada en solicitudes"

La clasificación basada en contenido es una clasificación en la que el peso que se le da a temas particulares en un documento determina la clase a la que se asigna el documento. Es, por ejemplo, una regla común para la clasificación en bibliotecas, que al menos el 20% del contenido de un libro debe ser sobre la clase a la que está asignado el libro. ^[1] En la clasificación automática, podría ser el número de veces que aparecen determinadas palabras en un documento.

La clasificación orientada a solicitudes (o indexación) es una clasificación en la que la solicitud anticipada de los usuarios influye en la forma en que se clasifican los documentos. El clasificador se pregunta: "¿Bajo qué descriptores se debe encontrar esta entidad?" y “pensar en todas las consultas posibles y decidir para cuáles es relevante la entidad en cuestión” (Soergel, 1985, p. 230 ^[2] ).

La clasificación orientada a solicitudes puede ser una clasificación dirigida a una audiencia o grupo de usuarios en particular. Por ejemplo, una biblioteca o una base de datos para estudios feministas pueden clasificar / indexar documentos de manera diferente en comparación con una biblioteca histórica. Sin embargo, probablemente sea mejor entender la clasificación orientada a solicitudes como clasificación basada en políticas : la clasificación se realiza de acuerdo con algunos ideales y refleja el propósito de la biblioteca o base de datos que realiza la clasificación. De esta forma, no es necesariamente una especie de clasificación o indexación basada en estudios de usuarios. Solo si se aplican datos empíricos sobre el uso o los usuarios, la clasificación orientada a las solicitudes debe considerarse un enfoque basado en el usuario.

Clasificación versus indexación

A veces se hace una distinción entre asignar documentos a clases ("clasificación") versus asignar temas a documentos (" indexación de temas ") pero, como ha argumentado Frederick Wilfrid Lancaster , esta distinción no es fructífera. "Estas distinciones terminológicas", escribe, "carecen de sentido y sólo sirven para causar confusión" (Lancaster, 2003, p. 21 ^[3] ). La opinión de que esta distinción es puramente superficial también se apoya en el hecho de que una clasificación El sistema puede transformarse en un tesauro y viceversa (cf., Aitchison, 1986, ^[4] 2004; ^[5] Broughton, 2008; ^[6] Riesthuis & Bliedung, 1991 ^[7]). Por lo tanto, el acto de etiquetar un documento (digamos, asignar un término de un vocabulario controlado a un documento) es al mismo tiempo asignar ese documento a la clase de documentos indexados por ese término (todos los documentos indexados o clasificados como X pertenecen a la misma clase de documentos). En otras palabras, etiquetar un documento es lo mismo que asignarlo a la clase de documentos indexados bajo esa etiqueta.

Clasificación automática de documentos (ADC)

Las tareas de clasificación automática de documentos se pueden dividir en tres tipos: clasificación de documentos supervisada donde algún mecanismo externo (como la retroalimentación humana) proporciona información sobre la clasificación correcta de documentos, clasificación de documentos sin supervisión (también conocida como agrupación de documentos ), donde se debe realizar la clasificación totalmente sin referencia a información externa, y clasificación de documentos semi-supervisados , ^[8] donde partes de los documentos son etiquetados por el mecanismo externo. Hay varios productos de software disponibles bajo varios modelos de licencia. ^[9]^[10]^[11]^[12]^[13]^[14]

Técnicas

Las técnicas de clasificación automática de documentos incluyen:

Maximización de expectativas (EM)
Clasificador ingenuo de Bayes
tf – idf
Redes neuronales entrenadas instantáneamente
Indexación semántica latente
Soporta máquinas de vectores (SVM)
Red neuronal artificial
Algoritmos del vecino más cercano K
Árboles de decisión como ID3 o C4.5
Minería de conceptos
Clasificador basado en conjuntos aproximados
Clasificador basado en soft set
Aprendizaje de instancias múltiples
Enfoques de procesamiento del lenguaje natural

Aplicaciones

Se han aplicado técnicas de clasificación a

filtrado de correo no deseado , un proceso que intenta distinguir los mensajes de correo no deseado de los correos electrónicos legítimos
enrutamiento de correo electrónico , envío de un correo electrónico enviado a una dirección general a una dirección o buzón de correo específico según el tema ^[15]
identificación de idioma , determinando automáticamente el idioma de un texto
clasificación de género, que determina automáticamente el género de un texto ^[16]
Evaluación de la legibilidad , que determina automáticamente el grado de legibilidad de un texto, ya sea para encontrar materiales adecuados para diferentes grupos de edad o tipos de lectores o como parte de un sistema de simplificación de texto más amplio.
Análisis de sentimientos , determinando la actitud de un hablante o escritor con respecto a algún tema o la polaridad contextual general de un documento.
clasificación relacionada con la salud utilizando las redes sociales en la vigilancia de la salud pública ^[17]
triaje de artículos, selección de artículos que son relevantes para la conservación manual de la literatura, por ejemplo, como se está haciendo como primer paso para generar bases de datos de anotaciones seleccionadas manualmente en biología ^[18]
Detección de humor , determinando automáticamente si el texto breve dado debe tomarse en serio o no, con casos de uso en chatbots y asistentes personales. ^[19]

Ver también

Categorización
Clasificación (desambiguación)
Procesamiento de término compuesto
Indexación de imágenes basada en conceptos
Recuperación de imágenes basada en contenido
Numeración de secciones decimales
Documento
Recuperación de documentos
Agrupación de documentos
Recuperación de información
Organización del conocimiento
Sistema de organización del conocimiento
Clasificación de bibliotecas
Aprendizaje automático
Identificación del idioma nativo
Métricas de cadenas
Asunto (documentos)
Indexación de materias
Aprendizaje supervisado , aprendizaje no supervisado
Minería de texto , minería web , minería de conceptos

Otras lecturas

Fabrizio Sebastiani. Aprendizaje automático en la categorización automatizada de textos . Encuestas de computación de ACM, 34 (1): 1–47, 2002.
Stefan Büttcher, Charles LA Clarke y Gordon V. Cormack. Recuperación de información: implementación y evaluación de motores de búsqueda . Prensa del MIT, 2010.

Referencias

^ Biblioteca del Congreso (2008). El manual de encabezados de materia. Washington, DC: Biblioteca del Congreso, División de Normas y Políticas. (Hoja H 180: "Asigne títulos solo para temas que comprendan al menos el 20% del trabajo").
^ Soergel, Dagobert (1985). Organización de la información: Principios de la base de datos y los sistemas de recuperación . Orlando, FL: Prensa académica.
^ Lancaster, FW (2003). Indexación y abstracción en teoría y práctica. Asociación de Bibliotecas, Londres.
^ Aitchison, J. (1986). "Una clasificación como fuente de tesauro: La clasificación bibliográfica de HE Bliss como fuente de términos y estructura de tesauro". Revista de documentación, vol. 42, núm. 3, págs. 160-181.
^ Aitchison, J. (2004). "Tesauros de BC2: Problemas y posibilidades revelados en un tesauro experimental derivado de la programación de Bliss Music". Bliss Classification Bulletin, vol. 46, págs. 20-26.
^ Broughton, V. (2008). " Una clasificación facetada como base de una terminología facetada: Conversión de una estructura clasificada al formato de tesauro en la Clasificación Bibliográfica Bliss (2ª Ed.).]" Axiomathes, Vol. 18, núm. 2, págs. 193-210.
^ Riesthuis, GJA y Bliedung, St. (1991). "Tesaurificación de la UDC". Herramientas para la organización del conocimiento y la interfaz humana, vol. 2, págs. 109-117. Index Verlag, Frankfurt.
↑ Rossi, RG, Lopes, A. d. A. y Rezende, SO (2016). Optimización y propagación de etiquetas en redes bipartitas heterogéneas para mejorar la clasificación transductiva de textos . Tratamiento y gestión de la información, 52 (2): 217–257.
^ "Un prototipo interactivo de clasificación automática de documentos" (PDF) . Archivado desde el original (PDF) el 15 de noviembre de 2017 . Consultado el 14 de noviembre de 2017 .
^ Prototipo interactivo de clasificación automática de documentos archivado el 24 de abril de 2015 en la Wayback Machine.
^ Clasificación de documentos - Artsyl
^ ABBYY FineReader Engine 11 para Windows
^ Clasificador - Antídoto
^ "3 métodos de clasificación de documentos para proyectos difíciles" . www.bisok.com . Consultado el 4 de agosto de 2021 .
^ Stephan Busemann, Sven Schmeier y Roman G. Arens (2000). Clasificación de mensajes en el centro de llamadas . En Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna y Robert Dale, eds., Proc. Sexta Conf. Procesamiento del Lenguaje Natural Aplicado. (ANLP'00), págs. 158-165, ACL.
^ Santini, Marina; Rosso, Mark (2008), Testing a Genre-Enabled Application: A Preliminary Assessment (PDF) , Simposio BCS IRSG: Future Directions in Information Access, Londres, Reino Unido, págs. 54–63
^ X. Dai, M. Bikdash y B. Meyer, "De las redes sociales a la vigilancia de la salud pública: método de agrupación basado en incrustaciones de palabras para la clasificación de Twitter", SoutheastCon 2017, Charlotte, NC, 2017, págs. 1-7. doi : 10.1109 / SECON.2017.7925400
^ Krallinger, M; Leitner, F; Rodríguez-Penagos, C; Valencia, A (2008). "Resumen de la tarea de extracción de anotaciones de interacción proteína-proteína de Bio Creative II" . Biología del genoma . 9 Supl. 2: S4. doi : 10.1186 / gb-2008-9-s2-s4 . PMC 2559988 . PMID 18834495 .
↑ Annamoradnejad, I. (2020). Colbert: Usar la incrustación de frases de bert para detectar el humor . preimpresión de arXiv arXiv: 2004.12765.

enlaces externos

Introducción a la clasificación de documentos
Bibliografía sobre categorización automatizada de textos
Bibliografía sobre clasificación de consultas
Página de análisis de clasificación de texto
Aprender a clasificar texto - Cap. 6 del libro Procesamiento del lenguaje natural con Python (disponible en línea)
TechTC - Repositorio de Technion de conjuntos de datos de categorización de texto
Conjuntos de datos de David D. Lewis
Conjunto de datos BioCreative III ACT (tarea de clasificación de artículos)

[1] Biblioteca del Congreso (2008). El manual de encabezados de materia. Washington, DC: Biblioteca del Congreso, División de Normas y Políticas. (Hoja H 180: "Asigne títulos solo para temas que comprendan al menos el 20% del trabajo").

[2] Soergel, Dagobert (1985). Organización de la información: Principios de la base de datos y los sistemas de recuperación . Orlando, FL: Prensa académica.

[3] Lancaster, FW (2003). Indexación y abstracción en teoría y práctica. Asociación de Bibliotecas, Londres.

[4] Aitchison, J. (1986). "Una clasificación como fuente de tesauro: La clasificación bibliográfica de HE Bliss como fuente de términos y estructura de tesauro". Revista de documentación, vol. 42, núm. 3, págs. 160-181.

[5] Aitchison, J. (2004). "Tesauros de BC2: Problemas y posibilidades revelados en un tesauro experimental derivado de la programación de Bliss Music". Bliss Classification Bulletin, vol. 46, págs. 20-26.

[6] Broughton, V. (2008). " Una clasificación facetada como base de una terminología facetada: Conversión de una estructura clasificada al formato de tesauro en la Clasificación Bibliográfica Bliss (2ª Ed.).]" Axiomathes, Vol. 18, núm. 2, págs. 193-210.

[7] Riesthuis, GJA y Bliedung, St. (1991). "Tesaurificación de la UDC". Herramientas para la organización del conocimiento y la interfaz humana, vol. 2, págs. 109-117. Index Verlag, Frankfurt.

[8] Rossi, RG, Lopes, A. d. A. y Rezende, SO (2016). Optimización y propagación de etiquetas en redes bipartitas heterogéneas para mejorar la clasificación transductiva de textos . Tratamiento y gestión de la información, 52 (2): 217–257.

[9] "Un prototipo interactivo de clasificación automática de documentos" (PDF) . Archivado desde el original (PDF) el 15 de noviembre de 2017 . Consultado el 14 de noviembre de 2017 .

[10] Prototipo interactivo de clasificación automática de documentos archivado el 24 de abril de 2015 en la Wayback Machine.

[11] Clasificación de documentos - Artsyl

[12] ABBYY FineReader Engine 11 para Windows

[13] Clasificador - Antídoto

[14] "3 métodos de clasificación de documentos para proyectos difíciles" . www.bisok.com . Consultado el 4 de agosto de 2021 .

[15] Stephan Busemann, Sven Schmeier y Roman G. Arens (2000). Clasificación de mensajes en el centro de llamadas . En Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna y Robert Dale, eds., Proc. Sexta Conf. Procesamiento del Lenguaje Natural Aplicado. (ANLP'00), págs. 158-165, ACL.

[16] Santini, Marina; Rosso, Mark (2008), Testing a Genre-Enabled Application: A Preliminary Assessment (PDF) , Simposio BCS IRSG: Future Directions in Information Access, Londres, Reino Unido, págs. 54–63

[17] X. Dai, M. Bikdash y B. Meyer, "De las redes sociales a la vigilancia de la salud pública: método de agrupación basado en incrustaciones de palabras para la clasificación de Twitter", SoutheastCon 2017, Charlotte, NC, 2017, págs. 1-7. doi : 10.1109 / SECON.2017.7925400

[:0-18] Krallinger, M; Leitner, F; Rodríguez-Penagos, C; Valencia, A (2008). "Resumen de la tarea de extracción de anotaciones de interacción proteína-proteína de Bio Creative II" . Biología del genoma . 9 Supl. 2: S4. doi : 10.1186 / gb-2008-9-s2-s4 . PMC 2559988 . PMID 18834495 .

[19] Annamoradnejad, I. (2020). Colbert: Usar la incrustación de frases de bert para detectar el humor . preimpresión de arXiv arXiv: 2004.12765.

[1]