Recuperación de información

La recuperación de información ( IR ) en informática y ciencias de la información es el proceso de obtener recursos del sistema de información que son relevantes para una necesidad de información a partir de una colección de esos recursos. Las búsquedas se pueden basar en el texto completo o en otra indexación basada en el contenido. La recuperación de información es la ciencia de buscar información en un documento, buscar los propios documentos y también buscar los metadatos que describen los datos y las bases de datos de textos, imágenes o sonidos.

Los sistemas automatizados de recuperación de información se utilizan para reducir lo que se ha denominado sobrecarga de información . Un sistema IR es un sistema de software que brinda acceso a libros, revistas y otros documentos; almacena y administra esos documentos. Los motores de búsqueda web son las aplicaciones IR más visibles.

Un proceso de recuperación de información comienza cuando un usuario ingresa una consulta al sistema. Las consultas son declaraciones formales de necesidades de información, por ejemplo, cadenas de búsqueda en motores de búsqueda web. En la recuperación de información, una consulta no identifica de manera única un solo objeto en la colección. En cambio, varios objetos pueden coincidir con la consulta, quizás con diferentes grados de relevancia .

Un objeto es una entidad que está representado por la información de una colección de contenido o de la base de datos . Consultas de los usuarios se comparan con la información de la base de datos. Sin embargo, a diferencia de las consultas SQL clásicos de una base de datos, en la recuperación de la información de los resultados devueltos puede o no coincidir con la consulta, por lo que los resultados se clasifican normalmente. Esta clasificación de los resultados es una diferencia clave de búsqueda de recuperación de información en comparación con la búsqueda de bases de datos. ^[1]

Dependiendo de la aplicación , los objetos de datos pueden ser, por ejemplo, documentos de texto, imágenes, ^[2] audio, ^[3] mapas mentales ^[4] o videos. A menudo, los documentos en sí mismos no se guardan o almacenan directamente en el sistema IR, sino que se representan en el sistema mediante sustitutos de documentos o metadatos .

La mayoría de los sistemas de IR calculan una puntuación numérica sobre qué tan bien cada objeto en la base de datos coincide con la consulta y clasifican los objetos de acuerdo con este valor. A continuación, se muestran al usuario los objetos de mayor rango. Luego, el proceso puede iterarse si el usuario desea refinar la consulta. ^[5]

Categorización de modelos IR (traducido de la entrada alemana , fuente original Dominik Kuropka ).