Las medidas de evaluación para un sistema de recuperación de información se utilizan para evaluar qué tan bien los resultados de la búsqueda satisfacen la intención de consulta del usuario. Dichas métricas a menudo se dividen en tipos: las métricas en línea analizan las interacciones de los usuarios con el sistema de búsqueda, mientras que las métricas fuera de línea miden la relevancia, en otras palabras, la probabilidad de que se cumpla cada resultado o página de resultados del motor de búsqueda (SERP) las necesidades de información del usuario.
Notación
Los símbolos matemáticos utilizados en las fórmulas siguientes significan:
- - Intersección : en este caso, especificando los documentos en ambos conjuntos X e Y
- - Cardinalidad : en este caso, el número de documentos del conjunto X
- - Integral
- - Suma
- - Diferencia simétrica
Métricas en línea
Las métricas en línea generalmente se crean a partir de registros de búsqueda. Las métricas se utilizan a menudo para determinar el éxito de una prueba A / B .
Tasa de abandono de sesiones
La tasa de abandono de sesiones es una proporción de sesiones de búsqueda que no generan un clic.
Clic por calificaciones
La tasa de clics (CTR) es la proporción de usuarios que hacen clic en un enlace específico con respecto al número total de usuarios que ven una página, correo electrónico o anuncio. Se usa comúnmente para medir el éxito de una campaña publicitaria en línea para un sitio web en particular, así como la efectividad de las campañas de correo electrónico. [1]
Tasa de éxito de la sesión
La tasa de éxito de la sesión mide la proporción de sesiones de usuario que conducen al éxito. La definición de "éxito" a menudo depende del contexto, pero para la búsqueda, un resultado exitoso a menudo se mide utilizando el tiempo de permanencia como factor principal junto con la interacción secundaria del usuario; por ejemplo, el usuario que copia la URL del resultado se considera un resultado exitoso, al igual que la copia. / pegar desde el fragmento.
Tasa de resultado cero
La tasa de resultado cero ( ZRR ) es la proporción de SERP que arrojaron resultados cero. La métrica indica un problema de recuperación o que la información que se busca no está en el índice.
Métricas sin conexión
Las métricas sin conexión generalmente se crean a partir de sesiones de juicio de relevancia donde los jueces califican la calidad de los resultados de búsqueda. Se pueden usar escalas binarias (relevantes / no relevantes) y multinivel (por ejemplo, relevancia de 0 a 5) para calificar cada documento devuelto en respuesta a una consulta. En la práctica, las consultas pueden estar mal planteadas y puede haber diferentes matices de relevancia. Por ejemplo, hay ambigüedad en la consulta "marte": el juez no sabe si el usuario está buscando el planeta Marte , la barra de chocolate Marte o el cantante Bruno Mars .
Precisión
La precisión es la fracción de los documentos recuperados que son relevantes para la necesidad de información del usuario.
En la clasificación binaria , la precisión es análoga al valor predictivo positivo . La precisión tiene en cuenta todos los documentos recuperados. También se puede evaluar considerando solo los mejores resultados devueltos por el sistema usando Precision @ k .
Tenga en cuenta que el significado y uso de "precisión" en el campo de la recuperación de información difiere de la definición de exactitud y precisión dentro de otras ramas de la ciencia y la estadística .
Recordar
La recuperación es la fracción de los documentos que son relevantes para la consulta que se recuperan correctamente.
En la clasificación binaria, el recuerdo se denomina a menudo sensibilidad . Por lo tanto, se puede considerar como la probabilidad de que la consulta recupere un documento relevante .
Es trivial lograr una recuperación del 100% devolviendo todos los documentos en respuesta a cualquier consulta. Por lo tanto, recordar por sí solo no es suficiente, sino que también es necesario medir el número de documentos no relevantes, por ejemplo, calculando la precisión.
Caer
La proporción de documentos no relevantes que se recuperan, de todos los documentos no relevantes disponibles:
En la clasificación binaria, la caída está estrechamente relacionada con la especificidad y es igual a. Se puede considerar como la probabilidad de que la consulta recupere un documento no relevante .
Es trivial lograr una caída del 0% al devolver cero documentos en respuesta a cualquier consulta.
Puntuación F / medida F
La media armónica ponderada de precisión y recuperación, la medida F tradicional o la puntuación F equilibrada es:
Esto también se conoce como medida, porque la memoria y la precisión se ponderan uniformemente.
La fórmula general para real no negativo es:
Otras dos medidas F comúnmente utilizadas son las medida, cuyos pesos recuerdan el doble que la precisión, y la medida, que pondera la precisión dos veces más que el recuerdo.
La medida F fue derivada por van Rijsbergen (1979) de modo que "mide la eficacia de la recuperación con respecto a un usuario que adjunta veces tanta importancia recordar como precisión ". Se basa en la medida de eficacia de van Rijsbergen . Su relación es:
- dónde
La medida F puede ser una mejor métrica única en comparación con la precisión y la recuperación; tanto la precisión como la memoria brindan información diferente que puede complementarse entre sí cuando se combinan. Si uno de ellos sobresale más que el otro, la medida F lo reflejará. [ cita requerida ]
Precisión media
La precisión y la recuperación son métricas de valor único basadas en la lista completa de documentos devueltos por el sistema. Para los sistemas que devuelven una secuencia clasificada de documentos, es deseable considerar también el orden en el que se presentan los documentos devueltos. Al calcular una precisión y recuperar en cada posición en la secuencia clasificada de documentos, se puede trazar una curva de recuperación de precisión, trazando precisión en función del recuerdo . La precisión media calcula el valor medio de durante el intervalo de a : [2]
Esa es el área bajo la curva de recuperación de precisión. En la práctica, esta integral se reemplaza por una suma finita sobre cada posición en la secuencia clasificada de documentos:
dónde es el rango en la secuencia de documentos recuperados, es el número de documentos recuperados, es la precisión en el corte en la lista, y es el cambio en la recuperación de artículos a . [2]
Esta suma finita equivale a:
dónde es una función indicadora igual a 1 si el elemento en el rango es un documento relevante, cero en caso contrario. [3] Tenga en cuenta que el promedio está sobre todos los documentos relevantes y los documentos relevantes no recuperados obtienen una puntuación de precisión de cero.
Algunos autores optan por interpolar los función para reducir el impacto de "meneos" en la curva. [4] [5] Por ejemplo, el desafío PASCAL Visual Object Classes (un punto de referencia para la detección de objetos por visión por computadora) hasta 2010 [6] calculó la precisión promedio al promediar la precisión sobre un conjunto de niveles de recuperación espaciados uniformemente {0, 0.1 0.2, ... 1.0}: [4] [5]
dónde es una precisión interpolada que toma la máxima precisión sobre todas las recuperaciones mayores que :
- .
Una alternativa es derivar un análisis función asumiendo una distribución paramétrica particular para los valores de decisión subyacentes. Por ejemplo, se puede obtener una curva binormal de recuperación de precisión asumiendo que los valores de decisión en ambas clases siguen una distribución gaussiana. [7]
Precisión en k
Para la recuperación de información moderna (a escala web), la recuperación ya no es una métrica significativa, ya que muchas consultas tienen miles de documentos relevantes y pocos usuarios estarán interesados en leerlos todos. La precisión en k documentos (P @ k) sigue siendo una métrica útil (p. Ej., P @ 10 o "Precisión en 10" corresponde al número de resultados relevantes entre los 10 principales documentos recuperados), pero no tiene en cuenta las posiciones de los documentos relevantes entre los primeros k. [8] Otra deficiencia es que en una consulta con menos resultados relevantes que k, incluso un sistema perfecto tendrá una puntuación menor a 1. [9] Es más fácil puntuar manualmente ya que solo los mejores resultados k necesitan ser examinados para determinar si son relevantes o no.
R-Precisión
La precisión R requiere conocer todos los documentos que son relevantes para una consulta. El número de documentos relevantes,, se utiliza como el límite para el cálculo, y esto varía de una consulta a otra. Por ejemplo, si hay 15 documentos relevantes para "rojo" en un corpus (R = 15), la precisión R para "rojo" mira los 15 documentos principales devueltos, cuenta el número que es relevante convierte eso en una fracción de relevancia: . [10]
R-Precision es igual a recuperar en la posición R -th. [9]
Empíricamente, esta medida suele estar muy correlacionada con la precisión media media. [9]
Precisión media media
La precisión promedio promedio para un conjunto de consultas es la media de las puntuaciones de precisión promedio para cada consulta.
donde Q es el número de consultas.
Ganancia acumulada descontada
Fuentes: Fawcett (2006), [11] Piryonesi y El-Diraby (2020), [12] Powers (2011), [13] Ting (2011), [14] CAWCR, [15] D. Chicco & G. Jurman (2020, 2021) , [16] [17] Tharwat (2018). [18] |
DCG utiliza una escala de relevancia calificada de documentos del conjunto de resultados para evaluar la utilidad, o ganancia, de un documento en función de su posición en la lista de resultados. La premisa de DCG es que los documentos muy relevantes que aparecen más abajo en una lista de resultados de búsqueda deben ser penalizados ya que el valor de relevancia calificado se reduce logarítmicamente proporcional a la posición del resultado.
El DCG acumulado en una posición de rango particular Se define como:
Dado que el conjunto de resultados puede variar en tamaño entre diferentes consultas o sistemas, para comparar los rendimientos, la versión normalizada de DCG utiliza un DCG ideal. Para ello, clasifica los documentos de una lista de resultados por relevancia, produciendo un DCG ideal en la posición p (), que normaliza la puntuación:
Los valores de nDCG para todas las consultas se pueden promediar para obtener una medida del rendimiento promedio de un algoritmo de clasificación. Tenga en cuenta que en un algoritmo de clasificación perfecto, el será el mismo que el produciendo un nDCG de 1.0. Todos los cálculos de nDCG son valores relativos en el intervalo de 0.0 a 1.0 y, por lo tanto, son comparables entre consultas.
Otras medidas
- Rango recíproco medio
- Coeficiente de correlación de rango de Spearman
- bpref: una medida basada en la suma de cuántos documentos relevantes se clasifican antes que los documentos irrelevantes [10]
- GMAP: media geométrica de precisión promedio (por tema) [10]
- Medidas basadas en relevancia marginal y diversidad de documentos - ver Relevancia (recuperación de información) § Problemas y alternativas
- Medidas de relevancia y credibilidad (para noticias falsas en los resultados de búsqueda) [19]
Visualización
Las visualizaciones del rendimiento de recuperación de información incluyen:
- Gráficos que trazan la precisión en un eje y recuerdan en el otro [10]
- Histogramas de precisión media sobre varios temas [10]
- Característica de funcionamiento del receptor (curva ROC)
- Matriz de confusión
No métricas
Lista de consultas principales
Las consultas principales son las consultas más comunes durante un período de tiempo fijo. La lista de consultas principales ayuda a conocer el estilo de las consultas introducidas por los usuarios.
Métricas de no relevancia
Consultas por tiempo
La medición de cuántas consultas se realizan en el sistema de búsqueda por (mes / día / hora / minuto / segundo) rastrea la utilización del sistema de búsqueda. Se puede usar para diagnósticos para indicar un aumento inesperado en las consultas, o simplemente como una línea de base cuando se compara con otras métricas, como la latencia de las consultas. Por ejemplo, un pico en el tráfico de consultas puede usarse para explicar un pico en la latencia de consultas.
Ver también
- Evaluación IR universal
- Aprendiendo a clasificar
Referencias
- ^ Diccionario de la Asociación de marketing estadounidense . [1] Consultado el 2 de noviembre de 2012. La Junta de Normas de Responsabilidad de Marketing (MASB) respalda esta definición como parte de su Proyecto de Lenguaje Común en Marketing en curso.
- ↑ a b Zhu, Mu (2004). "Recuperación, precisión y precisión media" (PDF) . Archivado desde el original (PDF) el 4 de mayo de 2011. Cite journal requiere
|journal=
( ayuda ) - ^ Turpin, Andrew; Scholer, Falk (2006). Rendimiento del usuario frente a medidas de precisión para tareas de búsqueda simples . Actas de la 29ª Conferencia Anual Internacional ACM SIGIR sobre Investigación y Desarrollo en Recuperación de Información (Seattle, WA, 06-11 de agosto de 2006) . Nueva York, NY: ACM. págs. 11-18 . CiteSeerX 10.1.1.533.4100 . doi : 10.1145 / 1148170.1148176 . ISBN 978-1-59593-369-0. S2CID 9810253 .
- ^ a b Everingham, Mark; Van Gool, Luc; Williams, Christopher KI; Winn, John; Zisserman, Andrew (junio de 2010). "El desafío de las clases de objetos visuales (VOC) de PASCAL" (PDF) . Revista Internacional de Visión por Computador . 88 (2): 303–338. doi : 10.1007 / s11263-009-0275-4 . hdl : 20.500.11820 / 88a29de3-6220-442b-ab2d-284210cf72d6 . S2CID 4246903 . Archivado desde el original (PDF) el 20 de noviembre de 2011 . Consultado el 29 de agosto de 2011 .
- ^ a b Manning, Christopher D .; Raghavan, Prabhakar; Schütze, Hinrich (2008). Introducción a la recuperación de información . Prensa de la Universidad de Cambridge.
- ^ "El kit de desarrollo PASCAL Visual Object Classes Challenge 2012 (VOC2012)" . host.robots.ox.ac.uk . Consultado el 23 de marzo de 2019 .
- ^ KH Brodersen, CS Ong, KE Stephan, JM Buhmann (2010). La suposición binormal sobre curvas de recuperación de precisión Archivado el 8 de diciembre de 2012 en Wayback Machine . Actas de la 20ª Conferencia Internacional sobre Reconocimiento de Patrones , 4263-4266.
- ^ Kalervo, J ~ irvelin (2017). "Métodos de evaluación de infrarrojos para la recuperación de documentos de gran relevancia" (PDF) . Foro ACM SIGIR . 51, 2 : 243-250.
- ^ a b c Christopher D. Manning; Prabhakar Raghavan y Hinrich Schütze (2009). "Capítulo 8: Evaluación en la recuperación de información" (PDF) . Consultado el 14 de junio de 2015 .Parte de Introducción a la recuperación de información [2]
- ^ a b c d e http://trec.nist.gov/pubs/trec15/appendices/CE.MEASURES06.pdf
- ^ Fawcett, Tom (2006). "Introducción al análisis ROC" (PDF) . Cartas de reconocimiento de patrones . 27 (8): 861–874. doi : 10.1016 / j.patrec.2005.10.010 .
- ^ Piryonesi S. Madeh; El-Diraby Tamer E. (1 de marzo de 2020). "Análisis de datos en la gestión de activos: predicción rentable del índice de condición del pavimento". Revista de sistemas de infraestructura . 26 (1): 04019036. doi : 10.1061 / (ASCE) IS.1943-555X.0000512 .
- ^ Powers, David MW (2011). "Evaluación: de precisión, recuperación y medida F a ROC, información, marca y correlación" . Revista de tecnologías de aprendizaje automático . 2 (1): 37–63.
- ^ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I. (eds.). Enciclopedia de aprendizaje automático . Saltador. doi : 10.1007 / 978-0-387-30164-8 . ISBN 978-0-387-30164-8.
- ^ Brooks, Harold; Marrón, púa; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 de enero de 2015). "Grupo de trabajo conjunto WWRP / WGNE sobre investigación de verificación de pronósticos" . Colaboración para la investigación meteorológica y climática de Australia . Organización Meteorológica Mundial . Consultado el 17 de julio de 2019 .
- ^ Chicco D., Jurman G. (enero de 2020). "Las ventajas del coeficiente de correlación de Matthews (MCC) sobre la puntuación F1 y la precisión en la evaluación de clasificación binaria" . BMC Genomics . 21 (1): 6-1–6-13. doi : 10.1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Chicco D., Toetsch N., Jurman G. (febrero de 2021). "El coeficiente de correlación de Matthews (MCC) es más confiable que la precisión equilibrada, la información de las casas de apuestas y la marcación en la evaluación de la matriz de confusión de dos clases" . Minería de Biodatos . 14 (13): 1-22. doi : 10.1186 / s13040-021-00244-z . PMC 7863449 . PMID 33541410 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
- ^ Tharwat A. (agosto de 2018). "Métodos de evaluación de clasificación" . Informática y Computación Aplicada . doi : 10.1016 / j.aci.2018.08.003 .
- ^ C. Lioma; JG Simonsen; B. Larsen (2017). "Medidas de evaluación de relevancia y credibilidad en listas clasificadas" (PDF) . Actas de la Conferencia Internacional ACM SIGIR sobre Teoría de la Recuperación de Información , 91-98.