Clasificación de documentos


La clasificación de documentos o categorización de documentos es un problema en biblioteconomía , informática y ciencias de la computación . La tarea consiste en asignar un documento a una o más clases o categorías . Esto se puede hacer "manualmente" (o "intelectualmente") o algorítmicamente . La clasificación intelectual de documentos ha sido principalmente competencia de la biblioteconomía, mientras que la clasificación algorítmica de documentos corresponde principalmente a las ciencias de la información y la informática. Sin embargo, los problemas se superponen y, por lo tanto, existe una investigación interdisciplinaria sobre la clasificación de documentos.

Los documentos a clasificar pueden ser textos, imágenes, música, etc. Cada tipo de documento posee sus especiales problemas de clasificación. Cuando no se especifica lo contrario, la clasificación del texto está implícita.

Los documentos pueden clasificarse según su tema o según otros atributos (como tipo de documento, autor, año de impresión, etc.). En el resto de este artículo sólo se considera la clasificación temática. Hay dos filosofías principales de clasificación temática de documentos: el enfoque basado en el contenido y el enfoque basado en la solicitud.

La clasificación basada en contenido es una clasificación en la que el peso otorgado a temas particulares en un documento determina la clase a la que se asigna el documento. Es, por ejemplo, una regla común para la clasificación en las bibliotecas que al menos el 20% del contenido de un libro debe ser sobre la clase a la que está asignado el libro. [1] En la clasificación automática, podría ser el número de veces que aparecen determinadas palabras en un documento.

La clasificación (o indexación) orientada a solicitudes es una clasificación en la que la solicitud anticipada de los usuarios influye en cómo se clasifican los documentos. El clasificador se pregunta: "¿Bajo qué descriptores debería encontrarse esta entidad?" y “pensar en todas las consultas posibles y decidir para cuáles es relevante la entidad en cuestión” (Soergel, 1985, p. 230 [2] ).

La clasificación orientada a solicitudes puede ser una clasificación dirigida a una audiencia o grupo de usuarios en particular. Por ejemplo, una biblioteca o una base de datos para estudios feministas puede clasificar/indexar documentos de manera diferente en comparación con una biblioteca histórica. Probablemente sea mejor, sin embargo, entender la clasificación orientada a solicitudes como una clasificación basada en políticas : la clasificación se realiza de acuerdo con algunos ideales y refleja el propósito de la biblioteca o base de datos que realiza la clasificación. De esta forma no se trata necesariamente de una especie de clasificación o indexación basada en estudios de usuarios. Sólo si se aplican datos empíricos sobre el uso o los usuarios se debe considerar la clasificación orientada a las solicitudes como un enfoque basado en el usuario.