Búsqueda de texto completo


En la recuperación de texto , la búsqueda de texto completo se refiere a técnicas para buscar un solo documento almacenado en una computadora o una colección en una base de datos de texto completo . La búsqueda de texto completo se distingue de las búsquedas basadas en metadatos o en partes de los textos originales representados en bases de datos (como títulos, resúmenes, secciones seleccionadas o referencias bibliográficas).

En una búsqueda de texto completo, un motor de búsqueda examina todas las palabras de cada documento almacenado mientras intenta coincidir con los criterios de búsqueda (por ejemplo, el texto especificado por un usuario). Las técnicas de búsqueda de texto completo se hicieron comunes en las bases de datos bibliográficas en línea en la década de 1990. [ verificación necesaria ] Muchos sitios web y programas de aplicación (como el software de procesamiento de texto) ofrecen funciones de búsqueda de texto completo. Algunos motores de búsqueda web, como AltaVista , emplean técnicas de búsqueda de texto completo, mientras que otros indexan solo una parte de las páginas web examinadas por sus sistemas de indexación. [1]

Cuando se trata de una pequeña cantidad de documentos, es posible que el motor de búsqueda de texto completo escanee directamente el contenido de los documentos con cada consulta , una estrategia llamada " escaneo en serie ". Esto es lo que hacen algunas herramientas, como grep , al realizar búsquedas.

Sin embargo, cuando la cantidad de documentos para buscar es potencialmente grande, o la cantidad de consultas de búsqueda para realizar es sustancial, el problema de la búsqueda de texto completo a menudo se divide en dos tareas: indexación y búsqueda. La etapa de indexación escaneará el texto de todos los documentos y creará una lista de términos de búsqueda (a menudo denominada índice , pero más correctamente denominada concordancia ). En la etapa de búsqueda, al realizar una consulta específica, solo se hace referencia al índice, en lugar del texto de los documentos originales. [2]

El indexador hará una entrada en el índice para cada término o palabra que se encuentre en un documento, y posiblemente anotará su posición relativa dentro del documento. Por lo general, el indexador ignorará las palabras vacías (como "el" y "y") que son comunes y no tienen el significado suficiente para ser útiles en la búsqueda. Algunos indexadores también emplean derivaciones específicas del idioma en las palabras que se indexan. Por ejemplo, las palabras "impulsa", "impulsa" y "impulsa" se registrarán en el índice bajo la palabra de concepto único "unidad".

La recuperación mide la cantidad de resultados relevantes devueltos por una búsqueda, mientras que la precisión es la medida de la calidad de los resultados devueltos. El recuerdo es la proporción de resultados relevantes devueltos a todos los resultados relevantes. La precisión es el número de resultados relevantes devueltos al número total de resultados devueltos.


Diagrama de una búsqueda de baja precisión y baja recuperación