Retroalimentación de relevancia

La retroalimentación de relevancia es una característica de algunos sistemas de recuperación de información . La idea detrás de los comentarios de relevancia es tomar los resultados que se devuelven inicialmente de una consulta determinada, recopilar los comentarios de los usuarios y utilizar información sobre si esos resultados son relevantes o no para realizar una nueva consulta. Podemos distinguir de manera útil entre tres tipos de retroalimentación: retroalimentación explícita, retroalimentación implícita y retroalimentación ciega o "pseudo".

Retroalimentación explícita

La retroalimentación explícita se obtiene de los evaluadores de relevancia que indican la relevancia de un documento recuperado para una consulta. Este tipo de retroalimentación se define como explícita solo cuando los evaluadores (u otros usuarios de un sistema) saben que la retroalimentación proporcionada se interpreta como juicios de relevancia .

Los usuarios pueden indicar la relevancia explícitamente utilizando un sistema de relevancia binario o graduado . La retroalimentación de relevancia binaria indica que un documento es relevante o irrelevante para una consulta determinada. La retroalimentación de relevancia calificada indica la relevancia de un documento para una consulta en una escala utilizando números, letras o descripciones (como "no relevante", "algo relevante", "relevante" o "muy relevante"). La relevancia graduada también puede tomar la forma de un orden cardinal de los documentos creados por un evaluador; es decir, el evaluador coloca los documentos de un conjunto de resultados en orden de relevancia (generalmente descendente). Un ejemplo de esto sería la función SearchWiki implementada por Google en su sitio web de búsqueda.

La información de retroalimentación de relevancia debe interpolarse con la consulta original para mejorar el rendimiento de la recuperación, como el conocido algoritmo de Rocchio .

Una métrica de rendimiento que se hizo popular alrededor de 2005 para medir la utilidad de un algoritmo de clasificación basado en la retroalimentación de relevancia explícita es NDCG . Otras medidas incluyen la precisión en k y media de precisión media .

Retroalimentación implícita

La retroalimentación implícita se infiere del comportamiento del usuario, como anotar qué documentos selecciona y qué no selecciona para ver, la duración del tiempo dedicado a ver un documento o las acciones de navegación o desplazamiento de la página. ^[1] Hay muchas señales durante el proceso de búsqueda que se pueden utilizar para la retroalimentación implícita y los tipos de información que se deben proporcionar en respuesta. ^[2]^[3]

Las diferencias clave entre la retroalimentación de relevancia implícita y la explícita incluyen: ^[4]

el usuario no está evaluando la relevancia para el beneficio del sistema de RI, sino que solo satisface sus propias necesidades y
el usuario no está necesariamente informado de que su comportamiento (documentos seleccionados) se utilizará como retroalimentación de relevancia

Un ejemplo de esto es el tiempo de permanencia , que es una medida de cuánto tiempo pasa un usuario viendo la página vinculada en un resultado de búsqueda. Es un indicador de qué tan bien el resultado de la búsqueda cumplió con la intención de la consulta del usuario y se utiliza como un mecanismo de retroalimentación para mejorar los resultados de la búsqueda.

Retroalimentación ciega

La retroalimentación de pseudo relevancia, también conocida como retroalimentación de relevancia ciega, proporciona un método para el análisis local automático. Automatiza la parte manual de la retroalimentación de relevancia, de modo que el usuario obtenga un rendimiento de recuperación mejorado sin una interacción prolongada. El método consiste en realizar una recuperación normal para encontrar un conjunto inicial de los documentos más relevantes, para luego asumir que los documentos con la clasificación "k" superior son relevantes y, finalmente, hacer una retroalimentación de relevancia como antes bajo esta suposición. El procedimiento es:

Considere los resultados devueltos por la consulta inicial como resultados relevantes (solo top k con k entre 10 y 50 en la mayoría de los experimentos).
Seleccione los 20-30 términos principales (número indicativo) de estos documentos utilizando, por ejemplo , pesos tf-idf .
Realice la expansión de consultas, agregue estos términos a la consulta y luego haga coincidir los documentos devueltos para esta consulta y, finalmente, devuelva los documentos más relevantes.

Algunos experimentos, como los resultados del sistema Cornell SMART publicados en (Buckley et al. 1995), muestran una mejora del rendimiento de los sistemas de recuperación utilizando retroalimentación de pseudo-relevancia en el contexto de los experimentos TREC 4.

Esta técnica automática funciona principalmente. La evidencia sugiere que tiende a funcionar mejor que el análisis global. ^[5] A través de una expansión de consultas, algunos documentos relevantes perdidos en la ronda inicial se pueden recuperar para mejorar el rendimiento general. Claramente, el efecto de este método depende en gran medida de la calidad de los términos de expansión seleccionados. Se ha descubierto que mejora el rendimiento en la tarea ad hoc de TREC ^{[ cita requerida ]} . Pero no está exento de los peligros de un proceso automático. Por ejemplo, si la consulta es sobre minas de cobre y los principales documentos son sobre minas en Chile, entonces puede haber un desvío de la consulta en la dirección de los documentos en Chile. Además, si las palabras agregadas a la consulta original no están relacionadas con el tema de la consulta, es probable que la calidad de la recuperación se degrade, especialmente en la búsqueda web, donde los documentos web a menudo cubren varios temas diferentes. Para mejorar la calidad de las palabras de expansión en la retroalimentación de pseudo-relevancia, se ha propuesto una retroalimentación de relevancia posicional para la retroalimentación de pseudo-relevancia para seleccionar de los documentos de retroalimentación aquellas palabras que se centran en el tema de la consulta según las posiciones de las palabras en los documentos de retroalimentación. ^[6] Específicamente, el modelo de relevancia posicional asigna más peso a las palabras que se encuentran más cerca de las palabras de consulta basándose en la intuición de que las palabras más cercanas a las palabras de consulta tienen más probabilidades de estar relacionadas con el tema de la consulta.

La retroalimentación ciega automatiza la parte manual de la retroalimentación de relevancia y tiene la ventaja de que no se requieren evaluadores.

Usar información de relevancia

La información de relevancia se utiliza al usar el contenido de los documentos relevantes para ajustar los pesos de los términos en la consulta original o al usar ese contenido para agregar palabras a la consulta. La retroalimentación de relevancia a menudo se implementa mediante el algoritmo de Rocchio .

Referencias

^ https://web.archive.org/web/20040316204714/http://www.scils.rutgers.edu/etc/mongrel/kelly-belkin-SIGIR2001.pdf
^ Jansen, BJ y McNeese, MD 2005. Evaluación de la eficacia y los patrones de interacciones con la asistencia automatizada en los sistemas de infrarrojos . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información. 56 (14), 1480-1503
^ Kelly, Diane y Jaime Teevan. " Retroalimentación implícita para inferir la preferencia del usuario: una bibliografía ". Foro ACM SIGIR. Vol. 37. No. 2. ACM, 2003.
^ https://web.archive.org/web/20070611121933/http://haystack.lcs.mit.edu/papers/kelly.sigirforum03.pdf
^ Jinxi Xu y W. Bruce Croft, Ampliación de consultas mediante análisis de documentos locales y globales , en Actas de la 19a conferencia internacional anual ACM SIGIR sobre Investigación y desarrollo en la recuperación de información (SIGIR), 1996.
^ Yuanhua Lv y ChengXiang Zhai, Modelo de relevancia posicional para la retroalimentación de pseudo-relevancia , en Actas de la 33a conferencia internacional ACM SIGIR sobre Investigación y desarrollo en la recuperación de información (SIGIR), 2010.

Otras lecturas

Notas de lectura de retroalimentación de relevancia: notas de conferencia de Jimmy Lin, adaptadas de Doug Oard
[1] - capítulo de Recuperación de información moderna
Stefan Büttcher, Charles LA Clarke y Gordon V. Cormack. Recuperación de información: implementación y evaluación de motores de búsqueda . MIT Press, Cambridge, Massachusetts, 2010.

[1] ttps://web.archive.org/web/20040316204714/http://www.scils.rutgers.edu/etc/mongrel/kelly-belkin-SIGIR2001.pdf

[2] Jansen, BJ y McNeese, MD 2005. Evaluación de la eficacia y los patrones de interacciones con la asistencia automatizada en los sistemas de infrarrojos . Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información. 56 (14), 1480-1503

[3] Kelly, Diane y Jaime Teevan. " Retroalimentación implícita para inferir la preferencia del usuario: una bibliografía ". Foro ACM SIGIR. Vol. 37. No. 2. ACM, 2003.

[4] ttps://web.archive.org/web/20070611121933/http://haystack.lcs.mit.edu/papers/kelly.sigirforum03.pdf

[5] Jinxi Xu y W. Bruce Croft, Ampliación de consultas mediante análisis de documentos locales y globales , en Actas de la 19a conferencia internacional anual ACM SIGIR sobre Investigación y desarrollo en la recuperación de información (SIGIR), 1996.

[6] Yuanhua Lv y ChengXiang Zhai, Modelo de relevancia posicional para la retroalimentación de pseudo-relevancia , en Actas de la 33a conferencia internacional ACM SIGIR sobre Investigación y desarrollo en la recuperación de información (SIGIR), 2010.

[1]