Se ha sugerido que este artículo se fusione con la recuperación de información . ( Discutir ) Propuesta desde octubre de 2020. |
Este artículo necesita citas adicionales para su verificación . ( agosto de 2012 ) |
En la recuperación de texto , la búsqueda de texto completo se refiere a técnicas para buscar un solo documento almacenado en computadora o una colección en una base de datos de texto completo . La búsqueda de texto completo se distingue de las búsquedas basadas en metadatos o en partes de los textos originales representados en bases de datos (como títulos, resúmenes, secciones seleccionadas o referencias bibliográficas).
En una búsqueda de texto completo, un motor de búsqueda examina todas las palabras de cada documento almacenado mientras intenta coincidir con los criterios de búsqueda (por ejemplo, el texto especificado por un usuario). Las técnicas de búsqueda de texto completo se hicieron comunes en las bases de datos bibliográficas en línea en la década de 1990. [ verificación necesaria ] Muchos sitios web y programas de aplicación (como el software de procesamiento de texto) ofrecen funciones de búsqueda de texto completo. Algunos motores de búsqueda web, como AltaVista , emplean técnicas de búsqueda de texto completo, mientras que otros indexan solo una parte de las páginas web examinadas por sus sistemas de indexación. [1]
Cuando se trata de una pequeña cantidad de documentos, es posible que el motor de búsqueda de texto completo escanee directamente el contenido de los documentos con cada consulta , una estrategia llamada " escaneo en serie ". Esto es lo que hacen algunas herramientas, como grep , al realizar búsquedas.
Sin embargo, cuando la cantidad de documentos para buscar es potencialmente grande o la cantidad de consultas de búsqueda para realizar es sustancial, el problema de la búsqueda de texto completo a menudo se divide en dos tareas: indexación y búsqueda. La etapa de indexación escaneará el texto de todos los documentos y creará una lista de términos de búsqueda (a menudo denominada índice , pero más correctamente denominada concordancia ). En la etapa de búsqueda, al realizar una consulta específica, solo se hace referencia al índice, en lugar del texto de los documentos originales. [2]
El indexador hará una entrada en el índice para cada término o palabra que se encuentre en un documento, y posiblemente anotará su posición relativa dentro del documento. Por lo general, el indexador ignorará las palabras vacías (como "el" y "y") que son comunes e insuficientemente significativas para ser útiles en la búsqueda. Algunos indexadores también emplean derivaciones específicas del idioma en las palabras que se indexan. Por ejemplo, las palabras "impulsa", "impulsa" y "impulsa" se registrarán en el índice bajo la palabra de concepto único "unidad".
La recuperación mide la cantidad de resultados relevantes devueltos por una búsqueda, mientras que la precisión es la medida de la calidad de los resultados devueltos. El recuerdo es la proporción de resultados relevantes devueltos a todos los resultados relevantes. La precisión es el número de resultados relevantes devueltos al número total de resultados devueltos.
El diagrama de la derecha representa una búsqueda de baja precisión y poca recuperación. En el diagrama, los puntos rojos y verdes representan la población total de posibles resultados de búsqueda para una búsqueda determinada. Los puntos rojos representan resultados irrelevantes y los puntos verdes representan resultados relevantes. La relevancia se indica por la proximidad de los resultados de búsqueda al centro del círculo interior. De todos los resultados posibles mostrados, los que realmente fueron devueltos por la búsqueda se muestran sobre un fondo azul claro. En el ejemplo, solo se devolvió 1 resultado relevante de 3 posibles resultados relevantes, por lo que la recuperación es una proporción muy baja de 1/3, o 33%. La precisión para el ejemplo es muy baja 1/4, o 25%, ya que solo 1 de los 4 resultados devueltos fue relevante. [3]
Debido a las ambigüedades del lenguaje natural , los sistemas de búsqueda de texto completo generalmente incluyen opciones como palabras vacías para aumentar la precisión y la derivación para aumentar la memoria. La búsqueda de vocabulario controlado también ayuda a aliviar los problemas de baja precisión al etiquetar los documentos de tal manera que se eliminan las ambigüedades. La compensación entre precisión y recuperación es simple: un aumento en la precisión puede reducir la recuperación general, mientras que un aumento en la recuperación reduce la precisión. [4]
Es probable que la búsqueda de texto completo recupere muchos documentos que no son relevantes para la pregunta de búsqueda deseada . Dichos documentos se denominan falsos positivos (consulte el error Tipo I ). La recuperación de documentos irrelevantes a menudo se debe a la ambigüedad inherente del lenguaje natural . En el diagrama de muestra a la derecha, los falsos positivos están representados por los resultados irrelevantes (puntos rojos) que fueron devueltos por la búsqueda (sobre un fondo azul claro).
Las técnicas de agrupación basadas en algoritmos bayesianos pueden ayudar a reducir los falsos positivos. Para un término de búsqueda de "banco", la agrupación se puede utilizar para clasificar el universo de documentos / datos en "institución financiera", "lugar para sentarse", "lugar para almacenar", etc. Dependiendo de la aparición de palabras relevantes para las categorías, Los términos de búsqueda o un resultado de búsqueda se pueden colocar en una o más de las categorías. Esta técnica se está implementando ampliamente en el dominio del descubrimiento electrónico . [ aclaración necesaria ]
Las deficiencias de la búsqueda de texto libre se han abordado de dos maneras: proporcionando a los usuarios herramientas que les permitan expresar sus preguntas de búsqueda con mayor precisión y desarrollando nuevos algoritmos de búsqueda que mejoran la precisión de la recuperación.
El algoritmo PageRank desarrollado por Google da más importancia a los documentos a los que se han vinculado otras páginas web . [6] Consulte Motor de búsqueda para ver ejemplos adicionales.
La siguiente es una lista parcial de productos de software disponibles cuyo propósito principal es realizar búsquedas e índices de texto completo. Algunos de estos van acompañados de descripciones detalladas de su teoría de funcionamiento o algoritmos internos, que pueden proporcionar información adicional sobre cómo se puede realizar la búsqueda de texto completo.