En el procesamiento de texto , una búsqueda de proximidad busca documentos donde dos o más ocurrencias de términos coincidentes por separado se encuentran dentro de una distancia específica , donde distancia es el número de palabras o caracteres intermedios. Además de la proximidad, algunas implementaciones también pueden imponer una restricción en el orden de las palabras, en el sentido de que el orden en el texto buscado debe ser idéntico al orden de la consulta de búsqueda. La búsqueda de proximidad va más allá de la simple coincidencia de palabras al agregar la restricción de proximidad y generalmente se considera una forma de búsqueda avanzada.
Por ejemplo, se podría utilizar una búsqueda para encontrar "casa de ladrillo rojo" y buscar frases como "casa de ladrillo rojo" o "casa de ladrillo rojo". Al limitar la proximidad, estas frases pueden combinarse evitando documentos donde las palabras están dispersas o esparcidas por una página o en artículos no relacionados en una antología.
Razón fundamental
El supuesto lingüístico básico de la búsqueda de proximidad es que la proximidad de las palabras en un documento implica una relación entre las palabras. Dado que los autores de documentos intentan formular oraciones que contienen una sola idea, o un grupo de ideas relacionadas dentro de oraciones vecinas u organizadas en párrafos, existe una probabilidad inherente, relativamente alta, dentro de la estructura del documento de que las palabras usadas juntas estén relacionadas. Por otro lado, cuando dos palabras están en los extremos opuestos de un libro, la probabilidad de una relación entre las palabras es relativamente débil. Al limitar los resultados de la búsqueda para que solo incluyan coincidencias en las que las palabras se encuentran dentro de la proximidad o distancia máxima especificada, se supone que los resultados de la búsqueda son de mayor relevancia que las coincidencias en las que las palabras están dispersas.
Los motores de búsqueda de Internet comerciales tienden a producir demasiadas coincidencias (lo que se conoce como recuperación) para la consulta de búsqueda promedio. La búsqueda de proximidad es un método para reducir el número de coincidencias de páginas y mejorar la relevancia de las páginas coincidentes mediante el uso de la proximidad de palabras para ayudar en la clasificación. Como beneficio adicional, la búsqueda de proximidad ayuda a combatir la indexación de correo no deseado al evitar páginas web que contienen listas de diccionarios o listas de escopeta de miles de palabras, que de otro modo tendrían un alto rango si el motor de búsqueda estuviera fuertemente sesgado hacia la frecuencia de palabras .
Sintaxis y operadores booleanos
Tenga en cuenta que una búsqueda de proximidad puede indicar que solo algunas palabras clave deben estar dentro de una distancia específica. La búsqueda de proximidad se puede utilizar con otra sintaxis de búsqueda y / o controles para permitir consultas de búsqueda más articuladas. A veces, los operadores de consulta como NEAR, NOT NEAR, FOLLOWED BY, NOT FOLLOWED BY, SENTENCE o FAR se utilizan para indicar un límite de búsqueda de proximidad entre palabras clave específicas: por ejemplo, "ladrillo CERCA de casa".
Uso en motores de búsqueda comerciales
En lo que respecta a la búsqueda de proximidad implícita / automática frente a la explícita, a partir de noviembre de 2008, la mayoría de los motores de búsqueda de Internet solo implementan una función de búsqueda de proximidad implícita. Es decir, clasifican automáticamente los resultados de búsqueda más altos cuando las palabras clave del usuario tienen una buena "puntuación de proximidad general" en dichos resultados. Si solo hay dos palabras clave en la consulta de búsqueda, esto no tiene diferencia con una búsqueda de proximidad explícita que coloca un operador NEAR entre las dos palabras clave. Sin embargo, si hay tres o más de tres palabras clave, a menudo es importante que el usuario especifique qué subconjuntos de estas palabras clave esperan una proximidad en los resultados de búsqueda. Esto es útil si el usuario desea realizar una búsqueda de la técnica anterior (por ejemplo, encontrar un enfoque existente para completar una tarea específica, encontrar un documento que divulga un sistema que exhibe un comportamiento de procedimiento realizado en colaboración por varios componentes y enlaces entre estos componentes).
Los motores de búsqueda web que admiten la búsqueda de proximidad a través de un operador de proximidad explícito en su lenguaje de consulta incluyen Walhello , Exalead , Yandex , Yahoo! , Altavista y Bing :
- Cuando se utiliza el motor de búsqueda Walhello , la proximidad se puede definir por el número de caracteres entre las palabras clave. [1]
- El motor de búsqueda Exalead permite al usuario especificar la proximidad requerida, como el número máximo de palabras entre palabras clave. La sintaxis es
(keyword1 NEAR/n keyword2)
donde n es el número de palabras. [2] - Yandex usa la sintaxis
keyword1 /n keyword2
para buscar dos palabras clave separadas como máximo porpalabras, y admite algunas otras variaciones de esta sintaxis. [3] - Yahoo! y Altavista apoyan a un operador NEAR indocumentado. [4] [5] La sintaxis es
keyword1 NEAR keyword2
. - La búsqueda de Google admite AROUND (#). [6] [7]
- Bing admite NEAR. [8] La sintaxis es
keyword1 near:n keyword2
donde n = el número máximo de palabras de separación.
Búsqueda ordenada dentro de Google y Yahoo! Los motores de búsqueda son posibles usando el asterisco (*) comodines de palabra completa : en Google esto coincide con una o más palabras, [9] y una en Yahoo! Buscar esto coincide exactamente con una palabra. [10] (¡Esto se verifica fácilmente buscando la siguiente frase tanto en Google como en Yahoo !: "adictivo * de la biblioscopia").
Para emular la búsqueda desordenada del operador NEAR se puede realizar una combinación de búsquedas ordenadas. Por ejemplo, para especificar una co-ocurrencia cercana de "casa" y "perro", se podría especificar la siguiente expresión de búsqueda: "perro de casa" O "casa de perro" O "casa * perro" O "perro * casa" O "casa * * perro" O "perro * * casa".
Ver también
- Procesamiento de término compuesto
- Editar distancia
- Recuperación de información
- Buscador
- Indexación de motores de búsqueda : cómo se indexan los textos para admitir la búsqueda de proximidad
- Proximidad semántica
Notas
- ^ "Acerca de Walhello" Archivado el 1 de mayo de 2012 en archive.today , visitado el 23 de diciembre de 2009
- ^ "Sintaxis de búsqueda web" , visitado el 23 de diciembre de 2009
- ^ Página de ayuda de Yandex sobre el idioma de consulta (en ruso)
- ^ "Consulta de proximidad exitosa de Yahoo!" (22 de febrero de 2010)
- ^ "Consulta de proximidad de Yahoo! Fallida" (22 de febrero de 2010)
- ^ "GuidingTech: Conozca al operador AROUND poco conocido de Google Search"
- ^ "Búsqueda de proximidad de ofertas de Google" (8 de febrero de 2011)
- ^ "Cómo utilizar los operadores de búsqueda avanzada de Bing"
- ^ "Más ayuda de búsqueda de Google" visitado el 23 de diciembre de 2009
- ^ "Revisión de Yahoo! Search", por Search Engine Showdown, visitado el 23 de diciembre de 2009