La recuperación de información ( RI ) es el proceso de obtener recursos del sistema de información que son relevantes para una necesidad de información a partir de una colección de esos recursos. Las búsquedas pueden basarse en el texto completo o en otra indexación basada en contenido. La recuperación de información es la ciencia de buscar información en un documento, buscar los propios documentos y también buscar los metadatos que describen los datos y las bases de datos de textos, imágenes o sonidos.
Los sistemas automatizados de recuperación de información se utilizan para reducir lo que se ha denominado sobrecarga de información . Un sistema de IR es un sistema de software que proporciona acceso a libros, revistas y otros documentos; almacena y gestiona esos documentos. Los motores de búsqueda web son las aplicaciones de infrarrojos más visibles.
Descripción general
Un proceso de recuperación de información comienza cuando un usuario ingresa una consulta en el sistema. Las consultas son declaraciones formales de necesidades de información, por ejemplo, cadenas de búsqueda en motores de búsqueda web. En la recuperación de información, una consulta no identifica de forma única un solo objeto en la colección. En cambio, varios objetos pueden coincidir con la consulta, quizás con diferentes grados de relevancia .
Un objeto es una entidad que está representada por información en una colección de contenido o base de datos . Las consultas de los usuarios se comparan con la información de la base de datos. Sin embargo, a diferencia de las consultas SQL clásicas de una base de datos, en la recuperación de información, los resultados devueltos pueden coincidir o no con la consulta, por lo que los resultados suelen clasificarse. Esta clasificación de resultados es una diferencia clave de la búsqueda de recuperación de información en comparación con la búsqueda en la base de datos. [1]
Dependiendo de la aplicación, los objetos de datos pueden ser, por ejemplo, documentos de texto, imágenes, [2] audio, [3] mapas mentales [4] o videos. A menudo, los documentos en sí mismos no se guardan o almacenan directamente en el sistema de infrarrojos, sino que se representan en el sistema mediante sustitutos de documentos o metadatos .
La mayoría de los sistemas de IR calculan una puntuación numérica sobre qué tan bien coincide cada objeto de la base de datos con la consulta y clasifican los objetos de acuerdo con este valor. A continuación, se muestran al usuario los objetos de clasificación superior. Luego, el proceso puede repetirse si el usuario desea refinar la consulta. [5]
Historia
hay ... una máquina llamada Univac ... mediante la cual las letras y las cifras se codifican como un patrón de puntos magnéticos en una larga cinta de acero. De esta forma se puede grabar el texto de un documento, precedido por su símbolo de código de asunto ... la máquina ... selecciona y escribe automáticamente aquellas referencias que han sido codificadas de la forma deseada a una velocidad de 120 palabras por minuto
- JE Holmstrom, 1948
La idea de usar computadoras para buscar información relevante se popularizó en el artículo As We May Think de Vannevar Bush en 1945. [6] Parece que Bush se inspiró en las patentes de una 'máquina estadística', presentada por Emanuel Goldberg. en las décadas de 1920 y 1930, que buscaba documentos almacenados en película. [7] La primera descripción de una computadora que buscaba información fue descrita por Holmstrom en 1948, [8] detallando una mención temprana de la computadora Univac . Los sistemas automatizados de recuperación de información se introdujeron en la década de 1950: uno incluso apareció en la comedia romántica de 1957, Desk Set . En la década de 1960, Gerard Salton en Cornell formó el primer gran grupo de investigación de recuperación de información . En la década de 1970 se había demostrado que varias técnicas de recuperación diferentes funcionaban bien en corpus de texto pequeños , como la colección Cranfield (varios miles de documentos). [6] Los sistemas de recuperación a gran escala, como el sistema Lockheed Dialog, se empezaron a utilizar a principios de la década de 1970.
En 1992, el Departamento de Defensa de EE. UU. Junto con el Instituto Nacional de Estándares y Tecnología (NIST) copatrocinó la Conferencia de Recuperación de Texto (TREC) como parte del programa de texto TIPSTER. El objetivo de esto era examinar la comunidad de recuperación de información proporcionando la infraestructura necesaria para la evaluación de las metodologías de recuperación de texto en una colección de textos muy grande. Esto catalizó la investigación sobre métodos que escalan a grandes corpora. La introducción de motores de búsqueda web ha aumentado aún más la necesidad de sistemas de recuperación a gran escala.
Aplicaciones
Las áreas donde se emplean técnicas de recuperación de información incluyen (las entradas están en orden alfabético dentro de cada categoría):
Aplicaciones generales
- Bibliotecas digitales
- Filtrado de información
- Búsqueda de medios
- Búsqueda de blogs
- Recuperación de imágenes
- Recuperación 3D
- Recuperación de música
- Búsqueda de noticias
- Recuperación de voz
- Recuperación de video
- Los motores de búsqueda
- Búsqueda de sitio
- Búsqueda de escritorio
- Búsqueda empresarial
- Búsqueda federada
- Búsqueda móvil
- Búsqueda social
- búsqueda Web
Aplicaciones específicas de dominio
- Hallazgo de búsqueda experto
- Recuperación de información genómica
- Recuperación de información geográfica
- Recuperación de información para estructuras químicas
- Recuperación de información en ingeniería de software
- Recuperación de información legal
- Búsqueda vertical
Otros métodos de recuperación
Los métodos / técnicas en los que se emplean las técnicas de recuperación de información incluyen:
- Recuperación de información contradictoria
- Resumen automático
- Resumen de varios documentos
- Procesamiento de término compuesto
- Recuperación en varios idiomas
- Clasificación de documentos
- Filtrado de spam
- Respuesta a preguntas
Tipos de modelos
Para recuperar de forma eficaz documentos relevantes mediante estrategias de RI, los documentos se suelen transformar en una representación adecuada. Cada estrategia de recuperación incorpora un modelo específico para sus propósitos de representación de documentos. La imagen de la derecha ilustra la relación de algunos modelos comunes. En la imagen, los modelos están categorizados según dos dimensiones: la base matemática y las propiedades del modelo.
Primera dimensión: base matemática
- Los modelos de teoría de conjuntos representan documentos como conjuntos de palabras o frases. Las similitudes se derivan generalmente de operaciones de la teoría de conjuntos en esos conjuntos. Los modelos comunes son:
- Modelo booleano estándar
- Modelo booleano extendido
- Recuperación difusa
- Los modelos algebraicos representan documentos y consultas generalmente como vectores, matrices o tuplas. La similitud del vector de consulta y el vector de documento se representa como un valor escalar.
- Modelo de espacio vectorial
- Modelo de espacio vectorial generalizado
- (Mejorado) Modelo de espacio vectorial basado en temas
- Modelo booleano extendido
- Indexación semántica latente también conocida como análisis semántico latente
- Los modelos probabilísticos tratan el proceso de recuperación de documentos como una inferencia probabilística. Las similitudes se calculan como probabilidades de que un documento sea relevante para una consulta determinada. Los teoremas probabilísticos como el teorema de Bayes se utilizan a menudo en estos modelos.
- Modelo de independencia binaria
- Modelo probabilístico de relevancia en el que se basa la función de relevancia okapi (BM25)
- Inferencia incierta
- Modelos de lenguaje
- Modelo de divergencia de aleatoriedad
- Asignación de Dirichlet latente
- Los modelos de recuperación basados en características ven los documentos como vectores de valores de funciones de características (o simplemente características ) y buscan la mejor manera de combinar estas características en una única puntuación de relevancia, generalmente aprendiendo a clasificar métodos. Las funciones de características son funciones arbitrarias de documentos y consultas y, como tales, pueden incorporar fácilmente casi cualquier otro modelo de recuperación como una característica más.
Segunda dimensión: propiedades del modelo
- Los modelos sin interdependencias de términos tratan diferentes términos / palabras como independientes. Este hecho suele estar representado en modelos de espacio vectorial por el supuesto de ortogonalidad de vectores de término o en modelos probabilísticos por un supuesto de independencia para variables de término.
- Los modelos con interdependencias de términos inmanentes permiten una representación de las interdependencias entre términos. Sin embargo, el grado de interdependencia entre dos términos lo define el modelo mismo. Por lo general, se deriva directa o indirectamente (por ejemplo, por reducción dimensional ) de la coexistencia de esos términos en todo el conjunto de documentos.
- Los modelos con interdependencias de términos trascendentes permiten una representación de las interdependencias entre términos, pero no alegan cómo se define la interdependencia entre dos términos. Dependen de una fuente externa para conocer el grado de interdependencia entre dos términos. (Por ejemplo, un humano o algoritmos sofisticados).
Medidas de desempeño y corrección
La evaluación de un sistema de recuperación de información es el proceso de evaluar qué tan bien un sistema satisface las necesidades de información de sus usuarios. En general, la medición considera una colección de documentos a buscar y una consulta de búsqueda. Las métricas de evaluación tradicionales, diseñadas para la recuperación booleana [se necesita aclaración ] o la recuperación top-k, incluyen precisión y recuperación . Todas las medidas asumen una noción de relevancia de verdad fundamental : se sabe que cada documento es relevante o no relevante para una consulta en particular. En la práctica, las consultas pueden estar mal planteadas y puede haber diferentes matices de relevancia.
Cronología
- Antes del 1900
- 1801 : Joseph Marie Jacquard inventa el telar Jacquard , la primera máquina que utiliza tarjetas perforadas para controlar una secuencia de operaciones.
- Década de 1880 : Herman Hollerith inventa un tabulador de datos electromecánico que utiliza tarjetas perforadas como medio legible por máquina.
- 1890 Tarjetas Hollerith , pulsaciones de teclas y tabuladores utilizados para procesar los datos del censo de los EE . UU. De 1890 .
- Década de 1920-1930
- Emanuel Goldberg presenta patentes para su "Máquina estadística", un motor de búsqueda de documentos que usaba células fotoeléctricas y reconocimiento de patrones para buscar los metadatos en rollos de documentos microfilmados.
- Década de 1940 a 1950
- Finales de la década de 1940 : el ejército estadounidense se enfrentó a problemas de indexación y recuperación de documentos de investigación científica capturados a los alemanes durante la guerra.
- 1945 : Vannevar Bush 'es como creemos aparecido en el Atlantic Monthly .
- 1947 : Hans Peter Luhn (ingeniero de investigación de IBM desde 1941) comenzó a trabajar en un sistema mecanizado basado en tarjetas perforadas para buscar compuestos químicos.
- Década de 1950 : La creciente preocupación en los Estados Unidos por una "brecha científica" con la URSS motivó, alentó la financiación y proporcionó un telón de fondo para los sistemas mecanizados de búsqueda de literatura ( Allen Kent et al. ) Y la invención de la indexación de citas ( Eugene Garfield ).
- 1950 : Calvin Mooers acuñó el término "recuperación de información" . [9]
- 1951 : Philip Bagley realizó el primer experimento de recuperación de documentos computarizados en una tesis de maestría en el MIT . [10]
- 1955 : Allen Kent se incorporó a la Case Western Reserve University y, finalmente, se convirtió en director asociado del Centro de Investigación de Documentación y Comunicaciones. Ese mismo año, Kent y sus colegas publicaron un artículo en American Documentation que describe las medidas de precisión y recuperación, además de detallar un "marco" propuesto para evaluar un sistema de RI que incluía métodos de muestreo estadístico para determinar el número de documentos relevantes no recuperados. [11]
- 1958 : Conferencia Internacional sobre Información Científica Washington DC incluyó la consideración de los sistemas IR como una solución a los problemas identificados. Ver: Actas de la Conferencia Internacional sobre Información Científica, 1958 (Academia Nacional de Ciencias, Washington, DC, 1959)
- 1959 : Hans Peter Luhn publicó "Autocodificación de documentos para la recuperación de información".
- Finales de la década de 1940 : el ejército estadounidense se enfrentó a problemas de indexación y recuperación de documentos de investigación científica capturados a los alemanes durante la guerra.
- 1960 :
- principios de la década de 1960 : Gerard Salton comenzó a trabajar en RI en Harvard y luego se mudó a Cornell.
- 1960 : Melvin Earl Maron y John Lary Kuhns [12] publicaron "Sobre relevancia, indexación probabilística y recuperación de información" en el Journal of the ACM 7 (3): 216–244, julio de 1960.
- 1962 :
- Cyril W. Cleverdon publicó los primeros resultados de los estudios de Cranfield, desarrollando un modelo para la evaluación del sistema de infrarrojos. Ver: Cyril W. Cleverdon, "Informe sobre las pruebas y el análisis de una investigación sobre la eficiencia comparativa de los sistemas de indexación". Colección Cranfield de Aeronáutica, Cranfield, Inglaterra, 1962.
- Kent publicó Information Analysis and Retrieval .
- 1963 :
- El informe de Weinberg "Ciencia, gobierno e información" dio una articulación completa de la idea de una "crisis de la información científica". El informe lleva el nombre del Dr. Alvin Weinberg .
- Joseph Becker y Robert M. Hayes publicaron un texto sobre la recuperación de información. Becker, Joseph; Hayes, Robert Mayo. Almacenamiento y recuperación de información: herramientas, elementos, teorías . Nueva York, Wiley (1963).
- 1964 :
- Karen Spärck Jones terminó su tesis en Cambridge, Sinonimia y Clasificación Semántica , y continuó trabajando en lingüística computacional aplicada a las RI.
- La Oficina Nacional de Normas patrocinó un simposio titulado "Métodos de asociaciones estadísticas para la documentación mecanizada". Varios artículos muy importantes, incluida la primera referencia publicada de G. Salton (creemos) al sistema SMART .
- mediados de la década de 1960 :
- La Biblioteca Nacional de Medicina desarrolló el Sistema de Análisis y Recuperación de Literatura Médica MEDLARS , la primera base de datos importante legible por máquina y sistema de recuperación por lotes.
- Proyecto Intrex en MIT.
- 1965 : JCR Licklider publicó Bibliotecas del futuro .
- 1966 : Don Swanson participó en estudios en la Universidad de Chicago sobre Requisitos para futuros catálogos.
- finales de la década de 1960 : F. Wilfrid Lancaster completó los estudios de evaluación del sistema MEDLARS y publicó la primera edición de su texto sobre recuperación de información.
- 1968 :
- Gerard Salton publicó Organización y recuperación automática de información .
- El informe RADC Tech de John W. Sammon, Jr. "Algunas matemáticas del almacenamiento y recuperación de información ..." describió el modelo vectorial.
- 1969 : " Un mapeo no lineal para el análisis de la estructura de datos " de Sammon (transacciones IEEE en computadoras) fue la primera propuesta para la interfaz de visualización para un sistema de infrarrojos.
- 1970
- principios de la década de 1970 :
- Primeros sistemas en línea: AIM-TWX, MEDLINE de NLM; Diálogo de Lockheed; ÓRBITA DE COSUDE.
- Theodor Nelson, que promueve el concepto de hipertexto , publicó Computer Lib / Dream Machines .
- 1971 : Nicholas Jardine y Cornelis J. van Rijsbergen publicaron "El uso del agrupamiento jerárquico en la recuperación de información", que articuló la "hipótesis del agrupamiento". [13]
- 1975 : Tres publicaciones muy influyentes de Salton articularon completamente su marco de procesamiento de vectores y modelo de discriminación de términos :
- A Theory of Indexing (Sociedad de Matemáticas Industriales y Aplicadas)
- Una teoría de la importancia del término en el análisis automático de texto ( JASIS v.26 )
- Un modelo de espacio vectorial para indexación automática ( CACM 18:11)
- 1978 : Primera conferencia ACM SIGIR .
- 1979 : CJ van Rijsbergen publicó Information Retrieval (Butterworths). Fuerte énfasis en modelos probabilísticos.
- 1979 : Tamas Doszkocs implementó la interfaz de usuario de lenguaje natural CITE para MEDLINE en la Biblioteca Nacional de Medicina. El sistema CITE admitía la entrada de consultas de forma libre, la salida clasificada y los comentarios de relevancia. [14]
- principios de la década de 1970 :
- Los ochenta
- 1980 : Primera conferencia internacional ACM SIGIR, conjunta con el grupo IR de la British Computer Society en Cambridge.
- 1982 : Nicholas J. Belkin , Robert N. Oddy y Helen M. Brooks propusieron el punto de vista ASK (estado anómalo del conocimiento) para la recuperación de información. Este fue un concepto importante, aunque su herramienta de análisis automatizado resultó en última instancia decepcionante.
- 1983 : Salton (y Michael J. McGill) publicaron Introducción a la recuperación de información moderna (McGraw-Hill), con gran énfasis en los modelos vectoriales.
- 1985 : David Blair y Bill Maron publican: Una evaluación de la efectividad de la recuperación para un sistema de recuperación de documentos de texto completo
- mediados de la década de 1980 : Esfuerzos para desarrollar versiones de usuarios finales de sistemas IR comerciales.
- 1985-1993 : artículos clave y sistemas experimentales para interfaces de visualización.
- Trabajo de Donald B. Crouch , Robert R. Korfhage , Matthew Chalmers, Anselm Spoerri y otros.
- 1989 : Primeras propuestas de World Wide Web de Tim Berners-Lee en el CERN .
- Decenio de 1990
- 1992 : Primera conferencia TREC .
- 1997 : Publicación de Korfhage 's almacenamiento y recuperación de [15] con énfasis en los sistemas de visualización y de puntos múltiples de referencia.
- 1999 : publicación de Ricardo Baeza-Yates y Berthier Ribeiro-Neto Modern Information Retrieval de Addison Wesley, el primer libro que intenta cubrir todas las RI.
- Finales de la década de 1990 : implementación de motores de búsqueda web de muchas características que antes solo se encontraban en sistemas IR experimentales. Los motores de búsqueda se convierten en la instanciación más común y quizás la mejor instancia de modelos de IR.
Grandes conferencias
- SIGIR: Conferencia sobre Investigación y Desarrollo en Recuperación de Información
- ECIR: Conferencia europea sobre recuperación de información
- CIKM: Jornada sobre Gestión de la Información y el Conocimiento
- WWW: Conferencia internacional de la World Wide Web
- WSDM: Conferencia sobre búsqueda web y minería de datos
- ICTIR: Conferencia Internacional sobre Teoría de la Recuperación de Información
Premios en el campo
- Premio Tony Kent Strix
- Premio Gerard Salton
- Premio Karen Spärck Jones
Ver también
- Recuperación de información de adversarios : estrategias de recuperación de información en conjuntos de datos
- Búsqueda colaborativa de información
- Memoria de computadora : dispositivo utilizado en una computadora para almacenar datos
- Vocabulario controlado
- Recuperación de información en varios idiomas
- Minería de datos : búsqueda de patrones en grandes conjuntos de datos utilizando métodos computacionales complejos
- Escuela de verano europea en recuperación de información
- Recuperación de información entre humanos y computadoras (HCIR)
- Extracción de información: extracción automática de información estructurada de documentos legibles por máquina no estructurados o semiestructurados, como textos en lenguaje humano.
- Instalación de recuperación de información
- Visualización del conocimiento
- Recuperación de información multimedia
- Manejo de información personal
- Relevancia (recuperación de información)
- Retroalimentación de relevancia
- Clasificación de Rocchio
- Indexación de motores de búsqueda
- Búsqueda de información social
- Grupo de interés especial sobre recuperación de información
- Indexación de materias
- Recuperación de información temporal
- tf – idf - (término frecuencia – frecuencia inversa del documento) una estadística numérica destinada a reflejar la importancia de una palabra para un documento en una colección o corpúsculos de texto
- Recuperación XML
- Minería web
Referencias
- ^ Jansen, BJ y Rieh, S. (2010) Las diecisiete construcciones teóricas de búsqueda de información y recuperación de información Archivado el 4 de marzo de 2016 en la Wayback Machine . Revista de la Sociedad Estadounidense de Ciencias y Tecnología de la Información. 61 (8), 1517-1534.
- ^ Goodrum, Abby A. (2000). "Recuperación de información de imagen: una descripción general de la investigación actual". Informar a la ciencia . 3 (2).
- ^ Foote, Jonathan (1999). "Una descripción general de la recuperación de información de audio". Sistemas multimedia . 7 : 2-10. CiteSeerX 10.1.1.39.6339 . doi : 10.1007 / s005300050106 . S2CID 2000641 .
- ^ Beel, Jöran; Gipp, Bela; Stiller, Jan-Olaf (2009). Recuperación de información en mapas mentales: ¿para qué podría ser bueno? . Actas de la 5ª Conferencia Internacional sobre Computación Colaborativa: Redes, Aplicaciones y Compartición de Trabajo (CollaborateCom'09). Washington, DC: IEEE. Archivado desde el original el 13 de mayo de 2011 . Consultado el 13 de marzo de 2012 .
- ^ Frakes, William B .; Baeza-Yates, Ricardo (1992). Estructuras y algoritmos de datos de recuperación de información . Prentice-Hall, Inc. ISBN 978-0-13-463837-9. Archivado desde el original el 28 de septiembre de 2013.
- ^ a b Singhal, Amit (2001). "Recuperación de información moderna: una breve descripción" (PDF) . Boletín del Comité Técnico de Ingeniería de Datos de la IEEE Computer Society . 24 (4): 35–43.
- ^ Mark Sanderson y W. Bruce Croft (2012). "La historia de la investigación de recuperación de información" . Actas del IEEE . 100 : 1444-1451. doi : 10.1109 / jproc.2012.2189916 .
- ^ JE Holmstrom (1948). " ' Sección III. Sesión plenaria de apertura" . Conferencia de información científica de la Royal Society, 21 de junio a 2 de julio de 1948: Informe y artículos enviados : 85.
- ^ Mooers, Calvin N .; La teoría del manejo digital de información no numérica y sus implicaciones para la economía de las máquinas (Boletín técnico de Zator No. 48), citado en Fairthorne, RA (1958). "Recuperación automática de información registrada" . The Computer Journal . 1 (1): 37. doi : 10.1093 / comjnl / 1.1.36 .
- ^ Doyle, Lauren; Becker, Joseph (1975). Recuperación y procesamiento de información . Melville. págs. 410 págs. ISBN 978-0-471-22151-7.
- ^ Perry, James W .; Kent, Allen; Berry, Madeline M. (1955). "Literatura de máquinas buscando X. Lenguaje de máquina; factores subyacentes a su diseño y desarrollo". Documentación americana . 6 (4): 242-254. doi : 10.1002 / asi.5090060411 .
- ^ Maron, Melvin E. (2008). "Una nota histórica sobre los orígenes de la indexación probabilística" (PDF) . Tratamiento y Gestión de la Información . 44 (2): 971–972. doi : 10.1016 / j.ipm.2007.02.012 .
- ^ N. Jardine, CJ van Rijsbergen (diciembre de 1971). "El uso de la agrupación jerárquica en la recuperación de información". Almacenamiento y recuperación de información . 7 (5): 217–240. doi : 10.1016 / 0020-0271 (71) 90051-9 .
- ^ Doszkocs, TE y Rapp, BA (1979). "Búsqueda de MEDLINE en inglés: una interfaz de usuario prototipo con consulta en lenguaje natural, salida clasificada y comentarios de relevancia", en: Actas de la reunión anual de ASIS, 16: 131-139.
- ^ Korfhage, Robert R. (1997). Almacenamiento y recuperación de información . Wiley. págs. 368 págs . ISBN 978-0-471-14338-3.
Otras lecturas
- Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Recuperación de información moderna: los conceptos y la tecnología detrás de la búsqueda (segunda edición) . Addison-Wesley, Reino Unido, 2011.
- Stefan Büttcher, Charles LA Clarke y Gordon V. Cormack. Recuperación de información: implementación y evaluación de motores de búsqueda . MIT Press, Cambridge, Massachusetts, 2010.
- "Sistema de recuperación de información" . Red de Bibliotecas y Ciencias de la Información . 24 de abril de 2015.
- Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze. Introducción a la recuperación de información . Prensa de la Universidad de Cambridge, 2008.
enlaces externos
- ACM SIGIR: Grupo de interés especial de recuperación de información
- BCS IRSG: British Computer Society - Grupo de especialistas en recuperación de información
- Conferencia de recuperación de texto (TREC)
- Foro para la evaluación de la recuperación de información (FIRE)
- Recuperación de información (libro en línea) por CJ van Rijsbergen
- Wiki de recuperación de información
- Instalación de recuperación de información
- Recuperación de información @ DUTH
- Informe TREC sobre técnicas de evaluación de recuperación de información
- Cómo mide eBay la relevancia de la búsqueda
- Herramienta de evaluación del desempeño de recuperación de información @ Athena Research Center