La sobrecategorización, la sobrecategorización o el desorden de categorías es el proceso de asignar demasiadas categorías, clases o términos de índice a un documento determinado . Está relacionado con los conceptos de bibliotecas y ciencias de la información (LIS) de clasificación de documentos e indexación de materias .
En LIS, el número ideal de términos que deben asignarse para clasificar un artículo se mide mediante las variables precisión y recuperación . La asignación de pocas etiquetas de categoría que estén más estrechamente relacionadas con el contenido del elemento que se clasifica dará como resultado búsquedas de alta precisión, es decir, donde una alta proporción de los resultados están estrechamente relacionados con la consulta. La asignación de más etiquetas de categoría a cada elemento reducirá la precisión de cada búsqueda, pero aumentará la recuperación y obtendrá resultados más relevantes. Los conceptos de LIS relacionados incluyen la exhaustividad de la indexación y la sobrecarga de información .
Principios básicos
Si se asignan demasiadas categorías a un documento determinado, las implicaciones para los usuarios dependen de qué tan informativos sean los enlaces. Si el usuario es capaz de distinguir entre enlaces útiles y no útiles, el daño es limitado: el usuario solo pierde tiempo seleccionando enlaces. En muchos casos, sin embargo, el usuario no puede juzgar si un enlace determinado resultará fructífero o no. En ese caso, debe seguir el enlace y leer o hojear otro documento. El peor de los casos es, por supuesto, que incluso después de leer el nuevo documento, el usuario no puede decidir si podría ser útil o no si su tema no se investiga a fondo.
La sobrecategorización también tiene otra implicación desagradable: hace que el sistema (por ejemplo en Wikipedia ) sea difícil de mantener de manera coherente . Si el sistema es inconsistente, significa que cuando el usuario considera los enlaces en una categoría determinada, no encontrará todos los documentos relevantes para esa categoría.
Básicamente, el problema de la sobrecategorización debe entenderse desde la perspectiva de la relevancia y las medidas tradicionales de recuerdo y precisión . Si se asignan muy pocas categorías relevantes a un documento, la recuperación puede disminuir. Si se asignan demasiadas categorías no relevantes, la precisión se reduce. El trabajo difícil consiste en decir qué categorías son fructíferas o relevantes para el uso futuro del documento.