Medidas de evaluación (recuperación de información)

Las medidas de evaluación para un sistema de recuperación de información se utilizan para evaluar qué tan bien los resultados de la búsqueda satisficieron la intención de consulta del usuario. Tales métricas a menudo se dividen en tipos: las métricas en línea analizan las interacciones de los usuarios con el sistema de búsqueda, mientras que las métricas fuera de línea miden la relevancia, en otras palabras, la probabilidad de que cada resultado, o la página de resultados del motor de búsqueda (SERP) en su conjunto, cumpla las necesidades de información del usuario.

Las métricas en línea generalmente se crean a partir de registros de búsqueda. Las métricas se utilizan a menudo para determinar el éxito de una prueba A/B .

La tasa de clics (CTR) es la relación entre los usuarios que hacen clic en un enlace específico y el número total de usuarios que ven una página, un correo electrónico o un anuncio. Se usa comúnmente para medir el éxito de una campaña publicitaria en línea para un sitio web en particular, así como la efectividad de las campañas de correo electrónico. ^[1]

La tasa de éxito de la sesión mide la proporción de sesiones de usuario que conducen al éxito. La definición de "éxito" a menudo depende del contexto, pero para la búsqueda, un resultado exitoso a menudo se mide utilizando el tiempo de permanencia como factor principal junto con la interacción secundaria del usuario, por ejemplo, el usuario que copia la URL del resultado se considera un resultado exitoso, al igual que la copia. /pegando del fragmento.

La tasa de resultados cero ( ZRR ) es la proporción de páginas de resultados del motor de búsqueda (SERP) que arrojaron cero resultados. La métrica indica un problema de recuperación o que la información que se busca no está en el índice.

Las métricas fuera de línea generalmente se crean a partir de sesiones de juicio de relevancia donde los jueces califican la calidad de los resultados de búsqueda. Se pueden utilizar escalas tanto binarias (relevante/no relevante) como multinivel (p. ej., relevancia de 0 a 5) para puntuar cada documento devuelto en respuesta a una consulta. En la práctica, las consultas pueden estar mal planteadas y puede haber diferentes matices de relevancia. Por ejemplo, hay ambigüedad en la consulta "mars": el juez no sabe si el usuario está buscando el planeta Marte , la barra de chocolate Mars o el cantante Bruno Mars .