Una búsqueda de concepto (o búsqueda conceptual ) es un método automatizado de recuperación de información que se utiliza para buscar texto no estructurado almacenado electrónicamente (por ejemplo, archivos digitales , correo electrónico, literatura científica, etc.) en busca de información que sea conceptualmente similar a la información proporcionada en un consulta de busqueda. En otras palabras, las ideas expresadas en la información recuperada en respuesta a una consulta de búsqueda de conceptos son relevantes para las ideas contenidas en el texto de la consulta.
Desarrollo
Las técnicas de búsqueda de conceptos se desarrollaron debido a las limitaciones impuestas por las tecnologías clásicas de búsqueda de palabras clave booleanas cuando se trata de colecciones de texto digitales grandes y no estructuradas. Las búsquedas de palabras clave a menudo arrojan resultados que incluyen muchos elementos no relevantes ( falsos positivos ) o que excluyen demasiados elementos relevantes (falsos negativos) debido a los efectos de la sinonimia y la polisemia . Sinonimia significa que una de dos o más palabras en el mismo idioma tienen el mismo significado, y polisemia significa que muchas palabras individuales tienen más de un significado.
La polisemia es un obstáculo importante para todos los sistemas informáticos que intentan lidiar con el lenguaje humano. En inglés, los términos más utilizados tienen varios significados comunes. Por ejemplo, la palabra fuego puede significar: una actividad de combustión; terminar el empleo; para lanzar, o para excitar (como en fire up). Para los 200 términos más polisémicos en inglés, el verbo típico tiene más de doce significados o sentidos comunes. El sustantivo típico de este conjunto tiene más de ocho sentidos comunes. Para los 2000 términos más polisémicos en inglés, el verbo típico tiene más de ocho sentidos comunes y el sustantivo típico tiene más de cinco. [1]
Además de los problemas de polisémico y todos sus sinónimos, búsquedas de palabras clave puede excluir inadvertidamente mal escritas palabras, así como las variaciones en la vástagos (o raíces) de palabras (por ejemplo, la huelga contra llamativos). Las búsquedas de palabras clave también son susceptibles a errores introducidos por los procesos de escaneo de reconocimiento óptico de caracteres (OCR), que pueden introducir errores aleatorios en el texto de los documentos (a menudo denominado texto ruidoso ) durante el proceso de escaneo.
Una búsqueda de conceptos puede superar estos desafíos empleando la desambiguación del sentido de las palabras (WSD), [2] y otras técnicas, para ayudar a derivar los significados reales de las palabras y sus conceptos subyacentes, en lugar de simplemente hacer coincidir cadenas de caracteres como las tecnologías de búsqueda de palabras clave .
Enfoques
En general, la investigación y la tecnología de recuperación de información se pueden dividir en dos categorías amplias: semántica y estadística. Los sistemas de recuperación de información que entran en la categoría semántica intentarán implementar algún grado de análisis sintáctico y semántico del texto en lenguaje natural que proporcionaría un usuario humano (ver también lingüística computacional ). Los sistemas que caen en la categoría estadística encontrarán resultados basados en medidas estadísticas de qué tan cerca coinciden con la consulta. Sin embargo, los sistemas de la categoría semántica también suelen depender de métodos estadísticos para ayudarlos a encontrar y recuperar información. [3]
Los esfuerzos para proporcionar sistemas de recuperación de información con capacidades de procesamiento semántico básicamente han utilizado tres enfoques diferentes:
- Estructuras auxiliares
- Estadísticas de co-ocurrencia local
- Transformar técnicas (particularmente descomposiciones matriciales )
Estructuras auxiliares
Se han aplicado una variedad de técnicas basadas en inteligencia artificial (IA) y procesamiento del lenguaje natural (PNL) al procesamiento semántico, y la mayoría de ellas se han basado en el uso de estructuras auxiliares como vocabularios controlados y ontologías . Los vocabularios controlados (diccionarios y tesauros) y las ontologías permiten incorporar términos más amplios, términos más restringidos y términos relacionados en las consultas. [4] Los vocabularios controlados son una forma de superar algunas de las limitaciones más severas de las consultas de palabras clave booleanas. A lo largo de los años , se han construido estructuras auxiliares adicionales de interés general, como los grandes conjuntos de sinónimos de WordNet . [5] Se demostró que la búsqueda de conceptos que se basa en estructuras auxiliares, como WordNet, se puede implementar de manera eficiente mediante la reutilización de modelos de recuperación y estructuras de datos de la recuperación de información clásica. [6] Los enfoques posteriores han implementado gramáticas para expandir el rango de construcciones semánticas. La creación de modelos de datos que representan conjuntos de conceptos dentro de un dominio específico ( ontologías de dominio ), y que pueden incorporar las relaciones entre términos, también se ha implementado en los últimos años.
Los vocabularios controlados hechos a mano contribuyen a la eficiencia y la amplitud de la recuperación de información y las operaciones de análisis de texto relacionadas, pero funcionan mejor cuando los temas se definen de forma estricta y la terminología está estandarizada. Los vocabularios controlados requieren una amplia participación y supervisión humana para mantenerse al día con la rápida evolución del lenguaje. Tampoco se adaptan bien a los crecientes volúmenes de texto no estructurado que cubre un número ilimitado de temas y contiene miles de términos únicos porque es necesario introducir nuevos términos y temas constantemente. Los vocabularios controlados también son propensos a capturar una visión del mundo en particular en un momento específico, lo que los hace difíciles de modificar si cambian los conceptos en un área temática determinada. [7]
Estadísticas de co-ocurrencia local
Los sistemas de recuperación de información que incorporan este enfoque cuentan el número de veces que los grupos de términos aparecen juntos (coexisten) dentro de una ventana deslizante de términos u oraciones (por ejemplo, ± 5 oraciones o ± 50 palabras) dentro de un documento. Se basa en la idea de que las palabras que aparecen juntas en contextos similares tienen significados similares. Es local en el sentido de que la ventana deslizante de términos y oraciones que se utilizan para determinar la co-ocurrencia de términos es relativamente pequeña.
Este enfoque es simple, pero captura solo una pequeña parte de la información semántica contenida en una colección de texto. En el nivel más básico, numerosos experimentos han demostrado que aproximadamente solo ¼ de la información contenida en el texto es de naturaleza local. [8] Además, para ser más eficaz, este método requiere conocimientos previos sobre el contenido del texto, lo que puede resultar difícil con colecciones de documentos grandes y no estructuradas. [7]
Transformar técnicas
Algunos de los enfoques más poderosos del procesamiento semántico se basan en el uso de técnicas de transformación matemática. Las técnicas de descomposición matricial han sido las más exitosas. Algunas técnicas de descomposición de matrices ampliamente utilizadas son las siguientes: [9]
- Análisis de componentes independientes
- Descomposición semidiscreta
- Factorización matricial no negativa
- Valor singular de descomposición
Las técnicas de descomposición de matrices se basan en datos, lo que evita muchos de los inconvenientes asociados con las estructuras auxiliares. También son de naturaleza global, lo que significa que son capaces de una extracción de información y una representación de información semántica mucho más robustas que las técnicas basadas en estadísticas de co-ocurrencia local. [7]
El análisis de componentes independientes es una técnica que crea representaciones dispersas de forma automatizada, [10] y los enfoques de matriz semidiscreta y no negativa sacrifican la precisión de la representación para reducir la complejidad computacional. [7]
La descomposición de valores singulares (SVD) se aplicó por primera vez al texto en Bell Labs a fines de la década de 1980. Se utilizó como base para una técnica llamada indexación semántica latente (LSI) debido a su capacidad para encontrar el significado semántico que está latente en una colección de texto. Al principio, la adopción de la SVD fue lenta debido a los requisitos de recursos necesarios para trabajar con grandes conjuntos de datos. Sin embargo, el uso de LSI se ha expandido significativamente en los últimos años a medida que se superaron los desafíos anteriores en escalabilidad y rendimiento [11] e incluso se abrieron. [12] LSI se utiliza en una variedad de aplicaciones de recuperación de información y procesamiento de texto, aunque su aplicación principal ha sido la búsqueda de conceptos y la categorización automatizada de documentos. [13]
Usos
- eDiscovery : las tecnologías de búsqueda basadas en conceptos se utilizan cada vez más para Electronic Document Discovery (EDD o eDiscovery) para ayudar a las empresas a prepararse para los litigios. En eDiscovery, la capacidad de agrupar, categorizar y buscar grandes colecciones de texto no estructurado sobre una base conceptual es mucho más eficiente que las técnicas tradicionales de revisión lineal. La búsqueda basada en conceptos se está aceptando como un método de búsqueda confiable y eficiente que tiene más probabilidades de producir resultados relevantes que las búsquedas de palabras clave o booleanas. [14]
- Enterprise Search y Enterprise Content Management (ECM) : las tecnologías de búsqueda de conceptos se están utilizando ampliamente en la búsqueda empresarial. A medida que crece el volumen de información dentro de la empresa, la capacidad de agrupar, categorizar y buscar grandes colecciones de texto no estructurado sobre una base conceptual se ha vuelto esencial. En 2004, Gartner Group estimó que los profesionales dedican el 30 por ciento de su tiempo a buscar, recuperar y administrar información. [15] La empresa de investigación IDC descubrió que una corporación de 2000 empleados puede ahorrar hasta $ 30 millones por año al reducir el tiempo que los empleados dedican a buscar información y duplicar documentos existentes. [15]
- Recuperación de imágenes basada en contenido (CBIR) : se están utilizando enfoques basados en contenido para la recuperación semántica de imágenes y videos digitalizados de grandes cuerpos visuales. Uno de los primeros sistemas de recuperación de imágenes basados en contenido para abordar el problema semántico fue el motor de búsqueda ImageScape. En este sistema, el usuario puede realizar consultas directas para múltiples objetos visuales como cielo, árboles, agua, etc. utilizando iconos posicionados espacialmente en un índice WWW que contiene más de diez millones de imágenes y videos usando fotogramas clave. El sistema utilizó la teoría de la información para determinar las mejores características para minimizar la incertidumbre en la clasificación. [16] La brecha semántica se menciona a menudo con respecto a CBIR. La brecha semántica se refiere a la brecha entre la información que se puede extraer de los datos visuales y la interpretación que los mismos datos tienen para un usuario en una situación determinada. [17] El taller ACM SIGMM sobre recuperación de información multimedia [18] está dedicado a los estudios de CBIR.
- Multimedia y publicación : la búsqueda de conceptos es utilizada por las industrias multimedia y editorial para brindar a los usuarios acceso a noticias, información técnica y experiencia en el tema proveniente de una variedad de fuentes no estructuradas. Los métodos basados en contenido para la recuperación de información multimedia (MIR) se han vuelto especialmente importantes cuando faltan anotaciones de texto o están incompletas. [dieciséis]
- Bibliotecas y archivos digitales : las imágenes, los videos, la música y los elementos de texto de las bibliotecas digitales y los archivos digitales se están poniendo a disposición de grandes grupos de usuarios (especialmente en la Web) mediante el uso de técnicas de búsqueda de conceptos. Por ejemplo, el Executive Daily Brief (EDB), un producto de alerta y monitoreo de información comercial desarrollado por EBSCO Publishing, utiliza tecnología de búsqueda de conceptos para brindar a los usuarios finales corporativos acceso a una biblioteca digital que contiene una amplia gama de contenido comercial. De manera similar, el Music Genome Project generó Pandora, que emplea la búsqueda de conceptos para crear de forma espontánea bibliotecas de música individuales o estaciones de radio virtuales .
- Recuperación de información genómica (GIR) : la recuperación de información genómica (GIR) utiliza técnicas de búsqueda de conceptos aplicadas a bases de datos de literatura genómica para superar las ambigüedades de la literatura científica.
- Contratación y contratación de personal de recursos humanos: muchas organizaciones de contratación y contratación de personal de recursos humanos han adoptado tecnologías de búsqueda de conceptos para producir resultados de búsqueda de currículums altamente relevantes que brindan currículos de candidatos más precisos y relevantes que los resultados de palabras clave poco relacionadas.
Búsqueda eficaz
La efectividad de una búsqueda de concepto puede depender de una variedad de elementos, incluido el conjunto de datos que se busca y el motor de búsqueda que se utiliza para procesar consultas y mostrar resultados. Sin embargo, la mayoría de los motores de búsqueda de conceptos funcionan mejor para ciertos tipos de consultas:
- Las consultas efectivas se componen de suficiente texto para transmitir adecuadamente los conceptos previstos. Las consultas efectivas pueden incluir oraciones completas, párrafos o incluso documentos completos. Es poco probable que las consultas compuestas por unas pocas palabras devuelvan los resultados más relevantes.
- Las consultas efectivas no incluyen conceptos en una consulta que no son objeto de la búsqueda. La inclusión de demasiados conceptos no relacionados en una consulta puede afectar negativamente a la relevancia de los elementos de resultado. Por ejemplo, es más probable que la búsqueda de información sobre paseos en bote por el río Mississippi arroje resultados relevantes que una búsqueda de navegación por el río Mississippi en un día lluvioso en medio del verano de 1967.
- Las consultas efectivas se expresan en un estilo de lenguaje natural de texto completo similar en estilo a los documentos que se buscan. Por ejemplo, el uso de consultas compuestas por extractos de un libro de texto de introducción a las ciencias no sería tan efectivo para la búsqueda de conceptos si el conjunto de datos que se busca está compuesto por textos de ciencia avanzados de nivel universitario. Las consultas sustanciales que representan mejor los conceptos, estilos y lenguaje generales de los elementos para los que se realiza la consulta son generalmente más efectivas.
Al igual que con todas las estrategias de búsqueda, los usuarios experimentados generalmente refinar sus consultas a través de múltiples búsquedas, comenzando con una inicial de semilla de consulta para obtener resultados conceptualmente relevantes que luego pueden ser utilizados para componer y / o refinar las consultas adicionales para obtener resultados cada vez más relevantes. Dependiendo del motor de búsqueda, el uso de conceptos de consulta que se encuentran en los documentos de resultados puede ser tan fácil como seleccionar un documento y realizar una función de búsqueda similar . Cambiar una consulta agregando términos y conceptos para mejorar la relevancia de los resultados se denomina expansión de consultas . [19] Se ha estudiado el uso de ontologías como WordNet para ampliar las consultas con palabras relacionadas conceptualmente. [20]
Retroalimentación de relevancia
La retroalimentación de relevancia es una característica que ayuda a los usuarios a determinar si los resultados devueltos por sus consultas satisfacen sus necesidades de información. En otras palabras, la relevancia se evalúa en relación con una necesidad de información, no con una consulta. Un documento es relevante si aborda la necesidad de información declarada, no porque simplemente contenga todas las palabras de la consulta. [21] Es una forma de involucrar a los usuarios en el proceso de recuperación para mejorar el conjunto de resultados finales. [21] Los usuarios pueden refinar sus consultas en función de sus resultados iniciales para mejorar la calidad de sus resultados finales.
En general, la relevancia de la búsqueda de conceptos se refiere al grado de similitud entre los conceptos expresados en la consulta y los conceptos contenidos en los resultados devueltos por la consulta. Cuanto más similares sean los conceptos de los resultados a los conceptos contenidos en la consulta, más relevantes se considerarán los resultados. Los resultados generalmente se clasifican y ordenan por relevancia, de modo que los resultados más relevantes se encuentran en la parte superior de la lista de resultados y los resultados menos relevantes están al final de la lista.
Se ha demostrado que la retroalimentación sobre la relevancia es muy eficaz para mejorar la relevancia de los resultados. [21] Una búsqueda de concepto reduce el riesgo de perder elementos de resultado importantes porque todos los elementos relacionados con los conceptos de la consulta se devolverán independientemente de que contengan las mismas palabras utilizadas en la consulta o no. [15]
La clasificación seguirá formando parte de cualquier sistema moderno de recuperación de información. Sin embargo, los problemas de datos heterogéneos, escalas y tipos de discurso no tradicionales reflejados en el texto, junto con el hecho de que los motores de búsqueda serán cada vez más componentes integrados de procesos complejos de gestión de información, no solo sistemas independientes, requerirán nuevos tipos. de las respuestas del sistema a una consulta. Por ejemplo, uno de los problemas con las listas clasificadas es que es posible que no revelen las relaciones que existen entre algunos de los elementos de resultado. [22]
Directrices para evaluar un motor de búsqueda de conceptos
- Los elementos de resultado deben ser relevantes para la necesidad de información expresada por los conceptos contenidos en las declaraciones de la consulta, incluso si la terminología utilizada por los elementos de resultado es diferente de la terminología utilizada en la consulta.
- Los elementos de resultado deben ordenarse y clasificarse por relevancia.
- Los elementos de resultados relevantes deben ubicarse y mostrarse rápidamente. Incluso las consultas complejas deberían devolver resultados relevantes con bastante rapidez.
- La longitud de la consulta no debe ser fija , es decir, una consulta puede ser tan larga como se considere necesario. Se puede enviar una oración, un párrafo o incluso un documento completo como consulta.
- Una consulta de concepto no debería requerir ninguna sintaxis especial o compleja. Los conceptos contenidos en la consulta se pueden expresar de forma clara y destacada sin utilizar reglas especiales.
- Se deben permitir consultas combinadas que utilicen conceptos, palabras clave y metadatos. [23]
- Las porciones relevantes de los elementos de resultado deben poder utilizarse como texto de consulta simplemente seleccionando el elemento e indicando al motor de búsqueda que busque elementos similares .
- Los índices listos para consultas deben crearse con relativa rapidez.
- El motor de búsqueda debe poder realizar búsquedas federadas. La búsqueda federada permite que las consultas de conceptos se utilicen para buscar información simultáneamente en múltiples fuentes de datos, que luego se combinan, clasifican y muestran en los resultados.
- Una búsqueda de conceptos no debe verse afectada por palabras mal escritas, errores tipográficos o errores de escaneo de OCR en el texto de la consulta o en el texto del conjunto de datos que se busca.
Conferencias y foros
La evaluación formalizada de los motores de búsqueda se ha realizado durante muchos años. Por ejemplo, la Text REtrieval Conference (TREC) se inició en 1992 para apoyar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de las metodologías de recuperación de texto. La mayoría de los motores de búsqueda comerciales actuales incluyen tecnología desarrollada por primera vez en TREC. [24]
En 1997, se lanzó una contraparte japonesa de TREC, denominada Colección de pruebas del Instituto Nacional de Informática para sistemas IR (NTCIR). El NTCIR lleva a cabo una serie de talleres de evaluación para la investigación en recuperación de información, respuesta a preguntas, resumen de texto , etc. En 2001 se inició una serie europea de talleres denominada Foro de Evaluación de Idiomas Cruzados (CLEF) para ayudar a la investigación en el acceso a información multilingüe. En 2002, se estableció la Iniciativa para la Evaluación de la Recuperación de XML (INEX) para la evaluación de sistemas de recuperación de XML orientados al contenido .
La precisión y la memoria han sido dos de las medidas de desempeño tradicionales para evaluar los sistemas de recuperación de información. La precisión es la fracción de los documentos de resultados recuperados que son relevantes para la necesidad de información del usuario. La recuperación se define como la fracción de documentos relevantes en toda la colección que se devuelven como documentos de resultado. [21]
Aunque los talleres y las colecciones de pruebas disponibles públicamente que se utilizan para las pruebas y la evaluación de los motores de búsqueda han proporcionado información sustancial sobre cómo se administra y recupera la información, el campo solo ha arañado la superficie de los desafíos que enfrentan las personas y las organizaciones para encontrar, administrar y usar la información. ahora que hay tanta información disponible. [22] Los datos científicos sobre cómo las personas utilizan las herramientas de información disponibles en la actualidad todavía están incompletos porque las metodologías de investigación experimental no han podido mantenerse al día con el rápido ritmo de cambio. Muchos desafíos, como la búsqueda contextualizada, la gestión de la información personal, la integración de la información y el soporte de tareas, aún deben abordarse. [22]
Ver también
- Coincidencia aproximada de cadenas
- Procesamiento de término compuesto
- Minería de conceptos
- Extracción de información
- Análisis semántico latente
- Red semántica
- Búsqueda semántica
- Web semántica
- Semántica estadística
- Extracción de textos
Referencias
- ^ Bradford, RB, Desambiguación de sentido de palabra, Content Analyst Company , LLC, Patente de EE. UU. 7415462, 2008.
- ^ R. Navigli, Desambiguación del sentido de la palabra: una encuesta , Encuestas de computación de ACM, 41 (2), 2009.
- ^ Greengrass, E., Recuperación de información: una encuesta, 2000.
- ^ Dubois, C., El uso de tesauros en la recuperación en línea, Journal of Information Science, 8 (2), marzo de 1984, págs. 63-66.
- ^ Miller, G., número especial, WordNet: una base de datos léxica en línea , Intl. Revista de lexicografía, 3 (4), 1990.
- ^ Fausto Giunchiglia, Uladzimir Kharkevich e Ilya Zaihrayeu. Búsqueda de conceptos Archivado el 10 de febrero de 2014 en la Wayback Machine , en las actas de la Conferencia de Web Semántica Europea, 2009.
- ^ a b c d Bradford, RB, ¿Por qué LSI? Recuperación de información e indexación semántica latente, informe técnico , Content Analyst Company , LLC, 2008.
- ^ Landauer, T. y Dumais, S., Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento , Psychological Review, 1997, 104 (2), págs. 211-240.
- ^ Skillicorn, D., Comprensión de conjuntos de datos complejos: minería de datos con descomposiciones matriciales , CRC Publishing, 2007.
- ^ Honkela, T., Hyvarinen, A. y Vayrynen, J. WordICA - Emergencia de representaciones lingüísticas para palabras mediante análisis de componentes independientes. Ingeniería del lenguaje natural, 16 (3): 277-308, 2010
- ^ Řehůřek, Radim (2011). "Escalabilidad del análisis semántico en el procesamiento del lenguaje natural" (PDF) . Consultado el 27 de enero de 2015 .
- ^ Software de código abierto Gensim
- ^ Dumais, S., Análisis semántico latente, Revisión de ARIST de ciencia y tecnología de la información, vol. 38, Capítulo 4, 2004.
- ↑ Magistrate Judge John M. Facciola of the US District Court for the District of Washington, DC Disability Rights Council v. Washington Metropolitan Transit Authority, 242 FRD 139 (DDC 2007), citando a George L. Paul y Jason R. Baron, "Información Inflación: ¿Puede adaptarse el sistema legal? " 13 Rico. JL & Tech. 10 (2007).
- ^ a b c Laplanche, R., Delgado, J., Turck, M., La tecnología de búsqueda de conceptos va más allá de las palabras clave, Perspectiva de la información, julio de 2004.
- ^ a b Lew, MS, Sebe, N., Djeraba, C., Jain, R., Recuperación de información multimedia basada en contenido: estado del arte y desafíos , transacciones ACM sobre informática, comunicaciones y aplicaciones multimedia, febrero de 2006.
- ^ Datta R., Joshi, D., Li J., Wang, JZ, Recuperación de imágenes: ideas, influencias y tendencias de la nueva era , Encuestas de computación ACM, vol. 40, No. 2, abril de 2008.
- ^ https://web.archive.org/web/20140307134534/http://www.liacs.nl/~mir/
- ^ Robertson, SE , Spärck Jones, K. , Enfoques simples y probados para la recuperación de texto, Informe técnico, Laboratorio de Computación de la Universidad de Cambridge, diciembre de 1994.
- ^ Navigli, R., Velardi, P. Un análisis de las estrategias de expansión de consultas basadas en ontología. Archivado el 26 de abril de 2012en la Wayback Machine . Proc. del Workshop on Adaptive Text Extraction and Mining (ATEM 2003) , en la 14th European Conference on Machine Learning (ECML 2003) , Cavtat-Dubrovnik, Croacia, 22-26 de septiembre de 2003, págs. 42–49
- ^ a b c d Manning, CD, Raghavan P., Schütze H., Introducción a la recuperación de información, Cambridge University Press, 2008.
- ^ a b c Callan, J., Allan, J., Clarke, CLA, Dumais, S., Evans, D., A., Sanderson, M., Zhai, C., Meeting of the MINDS: An Information Retrieval Research Agenda , ACM, Foro SIGIR, Vol. 41 No. 2, diciembre de 2007.
- ^ Rehurek, R., Un sistema combinado para la búsqueda de similitudes vectoriales basado en el índice de texto completo invertido, motor de búsqueda ScaleText , patente estadounidense pendiente 15726803, 2017.
- ^ Croft, B., Metzler, D., Strohman, T., Motores de búsqueda, Recuperación de información en la práctica, Addison Wesley, 2009.
enlaces externos
- Conferencia de recuperación de texto (TREC)
- Colección de pruebas del Instituto Nacional de Informática para sistemas IR (NTCIR)
- Foro de evaluación de idiomas cruzados (CLEF)
- Iniciativa para la Evaluación de la Recuperación de XML (INEX)