Relevancia (recuperación de información)


En la ciencia de la información y la recuperación de información , la relevancia denota qué tan bien un documento recuperado o un conjunto de documentos satisface la necesidad de información del usuario. La relevancia puede incluir preocupaciones como la puntualidad, la autoridad o la novedad del resultado.

La preocupación por el problema de encontrar información relevante se remonta al menos a la primera publicación de revistas científicas en el siglo XVII. [ cita requerida ]

El estudio formal de la relevancia se inició en el siglo XX con el estudio de lo que luego se denominaría bibliometría . En las décadas de 1930 y 1940, SC Bradford utilizó el término "relevante" para caracterizar los artículos relevantes para un tema (véase la ley de Bradford ). En la década de 1950, surgieron los primeros sistemas de recuperación de información y los investigadores señalaron la recuperación de artículos irrelevantes como una preocupación importante. En 1958, BC Vickery explicitó el concepto de relevancia en un discurso en la Conferencia Internacional sobre Información Científica. [1]

Desde 1958, los científicos de la información han explorado y debatido las definiciones de relevancia. Un foco particular del debate fue la distinción entre "relevancia para un tema" o "relevancia de actualidad" y "relevancia para el usuario". [1]

La comunidad de recuperación de información ha enfatizado el uso de colecciones de pruebas y tareas de referencia para medir la relevancia temática, comenzando con los Experimentos de Cranfield de principios de la década de 1960 y culminando con las evaluaciones de TREC que continúan hasta el día de hoy como el principal marco de evaluación para la investigación de recuperación de información. [2]

Para evaluar qué tan bien un sistema de recuperación de información recuperó resultados de relevancia tópica, se debe cuantificar la relevancia de los resultados recuperados. En las evaluaciones de estilo Cranfield , esto generalmente implica asignar un nivel de relevancia a cada resultado recuperado, un proceso conocido como evaluación de relevancia . Los niveles de relevancia pueden ser binarios (lo que indica que un resultado es relevante o que no es relevante) o graduados (lo que indica que los resultados tienen un grado variable de coincidencia entre el tema del resultado y la necesidad de información). Una vez que se han asignado los niveles de relevancia a los resultados recuperados, las medidas de rendimiento de la recuperación de información se pueden utilizar para evaluar la calidad de la salida de un sistema de recuperación.