Ampliación de consultas

La expansión de consultas ( QE ) es el proceso de reformular una consulta determinada para mejorar el rendimiento de recuperación en las operaciones de recuperación de información , particularmente en el contexto de comprensión de consultas . ^[1] En el contexto de los motores de búsqueda , la expansión de consultas implica evaluar la entrada de un usuario (qué palabras se escribieron en el área de consulta de búsqueda y, a veces, otros tipos de datos ) y expandir la consulta de búsqueda para que coincida con documentos adicionales. La expansión de consultas implica técnicas como:

Encontrar sinónimos de palabras y buscar sinónimos también
Encontrar palabras relacionadas semánticamente (por ejemplo , antónimos , merónimos , hipónimos , hiperónimos )
Encontrar todas las diversas formas morfológicas de las palabras derivando cada palabra en la consulta de búsqueda
Corregir errores ortográficos y buscar automáticamente el formulario corregido o sugerirlo en los resultados
Volver a ponderar los términos en la consulta original

La expansión de consultas es una metodología estudiada en el campo de la informática , particularmente en el ámbito del procesamiento del lenguaje natural y la recuperación de información .

Compensación de precisión y recuperación

Los motores de búsqueda invocan la expansión de consultas para aumentar la calidad de los resultados de búsqueda de los usuarios. Se supone que los usuarios no siempre formulan consultas de búsqueda utilizando los mejores términos. Lo mejor en este caso puede ser que la base de datos no contenga los términos ingresados por el usuario.

Al derivar un término ingresado por el usuario, se emparejan más documentos, ya que también se emparejan las formas de palabras alternativas para un término ingresado por el usuario, lo que aumenta la recuperación total . Esto se produce a expensas de reducir la precisión . Al expandir una consulta de búsqueda para buscar los sinónimos de un término ingresado por el usuario, el recuerdo también aumenta a expensas de la precisión. Esto se debe a la naturaleza de la ecuación de cómo se calcula la precisión, en el sentido de que un recuerdo más grande causa implícitamente una disminución en la precisión, dado que los factores de recuerdo son parte del denominador. También se infiere que una recuperación más grande impacta negativamente en la calidad general de los resultados de búsqueda, dado que muchos usuarios no quieren que se analicen más resultados, independientemente de la precisión.

El objetivo de la expansión de consultas en este sentido es aumentar la memoria, la precisión puede aumentar potencialmente (en lugar de disminuir como se equipara matemáticamente), al incluir en el conjunto de resultados páginas que son más relevantes (de mayor calidad), o al menos igualmente relevantes. Se incluyen las páginas que no se incluirían en el conjunto de resultados, que tienen el potencial de ser más relevantes para la consulta deseada por el usuario, y sin la expansión de la consulta no lo tendrían, independientemente de la relevancia. Al mismo tiempo, muchos de los motores de búsqueda comerciales actuales utilizan la frecuencia de palabras ( tf-idf ) para ayudar en la clasificación. ^{[ cita requerida ]} Al clasificar las apariciones de palabras y sinónimos ingresados por el usuario y formas morfológicas alternativas, los documentos con una mayor densidad (alta frecuencia y proximidad) tienden a migrar más arriba en los resultados de búsqueda, lo que lleva a una mayor calidad resultados de búsqueda cerca de la parte superior de los resultados, a pesar de la mayor recordación.

Métodos de expansión de consultas

Los métodos automáticos para la expansión de consultas fueron propuestos en 1960 por Maron y Kuhns. ^[2] Los métodos modernos de expansión de consultas implican el análisis de la colección de documentos (global o local) ^[3] o se basan en diccionarios u ontologías. ^[4] El análisis global de la colección de documentos se aplica para buscar relaciones entre términos. El análisis local se refiere a la retroalimentación de relevancia introducida por Rocchio. ^[5] Rocchio propuso juzgar manualmente algunos de los documentos recuperados y utilizar esta información de retroalimentación para ampliar la consulta. Dado que recopilar el juicio de los usuarios puede ser un desafío, solo los primeros documentos recuperados se consideran relevantes. Esto se denomina retroalimentación de pseudo- relevancia (PRF). ^{[6] La} retroalimentación de pseudo-relevancia es eficiente en promedio, pero puede dañar los resultados de algunas consultas, ^[7] especialmente las difíciles ya que los principales documentos recuperados probablemente no sean relevantes. Los documentos pseudo-relevantes se utilizan para encontrar términos candidatos de expansión que coexisten con muchos términos de consulta. ^[8] Esta idea se desarrolló aún más dentro del formalismo del modelo de lenguaje de relevancia en los modelos de relevancia posicional ^[9] y de relevancia de proximidad ^[10] que consideran la distancia a los términos de consulta en los documentos pseudo-relevantes. Otra dirección en la expansión de consultas es la aplicación de incrustaciones de palabras . ^[11]

Una alternativa a la expansión de consultas es la expansión de documentos , que reformula el texto de los documentos que se buscan en lugar del texto de la consulta. ^[12]

Ver también

Bibliotecas de software

QueryTermAnalyzer de código abierto, C #. Analizador de peso y sinónimos de términos de consulta basado en aprendizaje automático para la expansión de consultas.
LucQE : código abierto, Java. Proporciona un marco junto con varias implementaciones que permiten realizar la expansión de consultas con el uso de Apache Lucene .
Xapian es una biblioteca de búsqueda de código abierto que incluye soporte para la expansión de consultas
ReQue código abierto, Python. Un marco de software configurable y una colección de conjuntos de datos estándar de oro para entrenar y evaluar métodos de expansión de consultas supervisados. ^[13]^[14]

Referencias

Citas

↑ Vectomova, Olga; Wang, Ying (2006). "Un estudio del efecto de la proximidad de términos en la expansión de consultas". Revista de Ciencias de la Información . 32 (4): 324–333. CiteSeerX 10.1.1.552.5987 . doi : 10.1177 / 0165551506065787 .
^ Maron, ME y Kuhns, JL 1960. Sobre relevancia, indexación probabilística y recuperación de información. Journal of the ACM 7, 3, 216–244.
^ C. Carpineto y G. Romano. Una encuesta sobre la expansión automática de consultas en la recuperación de información. Encuestas de computación de ACM, 44 (1): 1-50, enero de 2012.
^ J. Bhogal, A. Macfarlane y P. Smith. Una revisión de la expansión de consultas basada en ontologías. Inf. Proceso. Manage., 43 (4): 866-886, julio de 2007.
^ J. Rocchio. Retroalimentación de relevancia en la recuperación de información. En El sistema de recuperación SMART, pág. 313-323. 1971.
^ C. Buckley. Expansión automática de consultas utilizando SMART: TREC 3. En las actas de la tercera Conferencia de recuperación de texto (TREC-3). Publicación especial del NIST, p. 69-80. Instituto Nacional de Estándares y Tecnología, 1995.
^ G. Amati, C. Carpineto y G. Romano. Dificultad, solidez y aplicación selectiva de la expansión de consultas en las consultas. Avances en la recuperación de información, pág. 127-137, 2004.
^ J. Xu y WB Croft. Ampliación de consultas mediante análisis de documentos locales y globales. En Actas de la 19ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información, páginas 4-11. ACM, 1996.
^ Y. Lv y C. Zhai. Modelo de relevancia posicional para retroalimentación de pseudo relevancia. En Actas de la 33ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información, páginas 579-586. ACM, 2010.
^ L. Ermakova, J. Mothe y E. Nikitina. 2016. Modelo de relevancia de proximidad para la expansión de consultas. En Actas del 31º Simposio Anual ACM sobre Computación Aplicada (SAC '16). ACM, Nueva York, NY, EE. UU., 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696
^ S. Kuzi, A. Shtok y O. Kurland. 2016. Ampliación de consultas mediante incrustaciones de Word. En Actas de la 25ª Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento (CIKM '16). ACM, Nueva York, NY, EE. UU., 1929-1932. DOI: https://doi.org/10.1145/2983323.2983876
^ Lin, Jimmy; Nogueira, Rodrigo; Yates, Andrew (13 de octubre de 2020). "Transformadores previamente entrenados para clasificación de texto: BERT y más allá" . arXiv: 2010.06467 [cs] .
^ Mahtab Tamannaee, Hossein Fani, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri: ReQue: un flujo de trabajo configurable y una colección de conjuntos de datos para el refinamiento de consultas. CIKM 2020: 3165-3172
^ Hossein Fani, Mahtab Tamannaee, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri; Un kit de herramientas extensible de métodos de refinamiento de consultas y generación de conjuntos de datos Gold Standard. Avances en la recuperación de información: 43a Conferencia Europea sobre Investigación en RI (ECIR'21), 2021.

Fuentes

D. Abberley, D. Kirby, S. Renals y T. Robinson, El sistema de recuperación de noticias de transmisión THISL. En Proc. Taller ESCA ETRW Acceso a información en audio hablado , (Cambridge), págs. 14-19, 1999. Sección sobre ampliación de consultas : descripción general matemática y concisa.
R. Navigli, P. Velardi. Un análisis de las estrategias de expansión de consultas basadas en ontologías . Proc. del Workshop on Adaptive Text Extraction and Mining (ATEM 2003) , en la 14th European Conference on Machine Learning (ECML 2003) , Cavtat-Dubrovnik, Croacia, 22-26 de septiembre de 2003, págs. 42–49 - Un análisis de la expansión de consultas métodos que se basan en WordNet como ontología de referencia.
Y. Qiu y HP Frei. Expansión de consultas basadas en conceptos . En Actas de SIGIR-93, 16a Conferencia Internacional de ACM sobre Investigación y Desarrollo en Recuperación de Información , Pittsburgh, Foro SIGIR, ACM Press, junio de 1993 - Documento académico sobre un método específico de expansión de consultas
Efthimis N. Efthimiadis. Ampliación de consultas . En: Martha E. Williams (ed.), Annual Review of Information Systems and Technology (ARIST) , v31, pp 121-187, 1996 - Una introducción para espectadores menos técnicos.

[1] Vectomova, Olga; Wang, Ying (2006). "Un estudio del efecto de la proximidad de términos en la expansión de consultas". Revista de Ciencias de la Información . 32 (4): 324–333. CiteSeerX 10.1.1.552.5987 . doi : 10.1177 / 0165551506065787 .

[2] Maron, ME y Kuhns, JL 1960. Sobre relevancia, indexación probabilística y recuperación de información. Journal of the ACM 7, 3, 216–244.

[3] C. Carpineto y G. Romano. Una encuesta sobre la expansión automática de consultas en la recuperación de información. Encuestas de computación de ACM, 44 (1): 1-50, enero de 2012.

[4] J. Bhogal, A. Macfarlane y P. Smith. Una revisión de la expansión de consultas basada en ontologías. Inf. Proceso. Manage., 43 (4): 866-886, julio de 2007.

[5] J. Rocchio. Retroalimentación de relevancia en la recuperación de información. En El sistema de recuperación SMART, pág. 313-323. 1971.

[6] C. Buckley. Expansión automática de consultas utilizando SMART: TREC 3. En las actas de la tercera Conferencia de recuperación de texto (TREC-3). Publicación especial del NIST, p. 69-80. Instituto Nacional de Estándares y Tecnología, 1995.

[7] G. Amati, C. Carpineto y G. Romano. Dificultad, solidez y aplicación selectiva de la expansión de consultas en las consultas. Avances en la recuperación de información, pág. 127-137, 2004.

[8] J. Xu y WB Croft. Ampliación de consultas mediante análisis de documentos locales y globales. En Actas de la 19ª conferencia anual internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información, páginas 4-11. ACM, 1996.

[9] Y. Lv y C. Zhai. Modelo de relevancia posicional para retroalimentación de pseudo relevancia. En Actas de la 33ª conferencia internacional ACM SIGIR sobre investigación y desarrollo en la recuperación de información, páginas 579-586. ACM, 2010.

[10] L. Ermakova, J. Mothe y E. Nikitina. 2016. Modelo de relevancia de proximidad para la expansión de consultas. En Actas del 31º Simposio Anual ACM sobre Computación Aplicada (SAC '16). ACM, Nueva York, NY, EE. UU., 1054-1059. DOI: https://doi.org/10.1145/2851613.2851696

[11] S. Kuzi, A. Shtok y O. Kurland. 2016. Ampliación de consultas mediante incrustaciones de Word. En Actas de la 25ª Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento (CIKM '16). ACM, Nueva York, NY, EE. UU., 1929-1932. DOI: https://doi.org/10.1145/2983323.2983876

[12] Lin, Jimmy; Nogueira, Rodrigo; Yates, Andrew (13 de octubre de 2020). "Transformadores previamente entrenados para clasificación de texto: BERT y más allá" . arXiv: 2010.06467 [cs] .

[13] Mahtab Tamannaee, Hossein Fani, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri: ReQue: un flujo de trabajo configurable y una colección de conjuntos de datos para el refinamiento de consultas. CIKM 2020: 3165-3172

[14] Hossein Fani, Mahtab Tamannaee, Fattane Zarrinkalam, Jamil Samouh, Samad Paydar, Ebrahim Bagheri; Un kit de herramientas extensible de métodos de refinamiento de consultas y generación de conjuntos de datos Gold Standard. Avances en la recuperación de información: 43a Conferencia Europea sobre Investigación en RI (ECIR'21), 2021.

[1]