Conferencia de recuperación de texto

La Conferencia de recuperación de texto ( TREC ) es una serie continua de talleres que se centran en una lista de diferentes áreas de investigación o pistas de recuperación de información (IR) . Está copatrocinado por el Instituto Nacional de Estándares y Tecnología (NIST) y la Actividad de Proyectos de Investigación Avanzada de Inteligencia (parte de la oficina del Director de Inteligencia Nacional ), y comenzó en 1992 como parte del programa TIPSTER Text . Su propósito es apoyar y fomentar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de recuperación de texto y para aumentar la velocidad de la transferencia de tecnología del laboratorio al producto .

Los protocolos de evaluación de TREC han mejorado muchas tecnologías de búsqueda. Un estudio de 2010 estimó que "sin TREC, los usuarios de Internet de EE. UU. habrían pasado hasta 3150 millones de horas adicionales utilizando motores de búsqueda web entre 1999 y 2009". ^[1] Hal Varian , economista jefe de Google , escribió que "los datos de TREC revitalizaron la investigación sobre la recuperación de información. Tener un conjunto de datos estándar, ampliamente disponible y cuidadosamente construido sentó las bases para una mayor innovación en este campo". ^[2]

Cada pista tiene un desafío en el que NIST proporciona a los grupos participantes conjuntos de datos y problemas de prueba. Dependiendo de la pista, los problemas de prueba pueden ser preguntas, temas o características extraíbles de destino . Se realiza una puntuación uniforme para que los sistemas puedan evaluarse de manera justa. Después de la evaluación de los resultados, un taller proporciona un lugar para que los participantes recopilen pensamientos e ideas y presenten el trabajo de investigación actual y futuro. La Conferencia de Recuperación de Texto comenzó en 1992, financiada por DARPA (Proyecto de Investigación Avanzada de Defensa de EE. UU.) y dirigida por NIST. Su propósito era apoyar la investigación dentro de la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación a gran escala de metodologías de recuperación de texto.

TREC es supervisado por un comité de programa compuesto por representantes del gobierno, la industria y la academia. Para cada TREC, NIST proporciona un conjunto de documentos y preguntas. Los participantes ejecutan su propio sistema de recuperación de datos y devuelven al NIST una lista de los documentos mejor clasificados recuperados. El NIST agrupa el resultado individual, juzga la corrección de los documentos recuperados y evalúa los resultados. El ciclo TREC finaliza con un taller que es un foro para que los participantes compartan sus experiencias.

TREC utiliza un criterio de relevancia binaria, ya sea que el documento sea relevante o no relevante. Dado que el tamaño de la colección TREC es grande, es imposible calcular la recuperación absoluta para cada consulta. Para evaluar la relevancia de los documentos en relación con una consulta, TREC utiliza un método específico de agrupación de llamadas para calcular la recuperación relativa. Todos los documentos relevantes que ocurrieron en los 100 documentos principales para cada sistema y para cada consulta se combinan para producir un grupo de documentos relevantes. Recuerde que es la proporción del conjunto de documentos relevantes que un solo sistema recuperó para un tema de consulta.

En 1992 se llevó a cabo TREC-1 en NIST. La primera conferencia atrajo a 28 grupos de investigadores de la academia y la industria. Demostró una amplia gama de enfoques diferentes para la recuperación de texto de grandes colecciones de documentos. Finalmente, TREC1 reveló los hechos de que la construcción automática de consultas a partir de declaraciones de consulta en lenguaje natural parece funcionar. Las técnicas basadas en el procesamiento del lenguaje natural no fueron mejores ni peores que las basadas en el enfoque vectorial o probabilístico.