Un metabuscador (o agregador de búsqueda ) es una herramienta de recuperación de información en línea que utiliza los datos de un motor de búsqueda web para producir sus propios resultados. [1] [2] Los metabuscadores toman información de un usuario e inmediatamente consultan los motores de búsqueda [3] para obtener resultados. Se recopilan, clasifican y presentan datos suficientes a los usuarios.
Problemas como el spam reducen la exactitud y precisión de los resultados. [4] El proceso de fusión tiene como objetivo mejorar la ingeniería de un motor de metabúsqueda. [5]
Ejemplos de metabuscadores incluyen Skyscanner y Kayak.com , que agregan resultados de búsqueda de agencias de viajes en línea y sitios web de proveedores, y Excite , que agrega resultados de motores de búsqueda de Internet.
Historia
La primera persona en incorporar la idea de la metabúsqueda fue Daniel Dreilinger de la Universidad Estatal de Colorado . Desarrolló SearchSavvy, que permite a los usuarios buscar hasta 20 motores de búsqueda y directorios diferentes a la vez. Aunque rápido, el motor de búsqueda estaba restringido a búsquedas simples y, por lo tanto, no era confiable. Eric Selberg, estudiante de la Universidad de Washington , lanzó una versión más "actualizada" llamada MetaCrawler . Este motor de búsqueda mejoró la precisión de SearchSavvy al agregar su propia sintaxis de búsqueda entre bastidores y hacer coincidir la sintaxis con la de los motores de búsqueda que estaba probando. Metacrawler redujo la cantidad de motores de búsqueda consultados a 6, pero aunque produjo resultados más precisos, todavía no se consideró tan preciso como buscar una consulta en un motor individual. [6]
El 20 de mayo de 1996, HotBot , entonces propiedad de Wired , era un motor de búsqueda con resultados de búsqueda provenientes de las bases de datos Inktomi y Direct Hit. Era conocido por sus resultados rápidos y como un motor de búsqueda con la capacidad de buscar dentro de los resultados de búsqueda. Al ser comprado por Lycos en 1998, el desarrollo del motor de búsqueda se tambaleó y su participación en el mercado cayó drásticamente. Después de pasar por algunas modificaciones, HotBot fue rediseñado en una interfaz de búsqueda simplificada, con sus características incorporadas en el rediseño del sitio web de Lycos. [7]
Bo Shu y Subhash Kak desarrollaron un metabuscador llamado Anvish en 1999; los resultados de la búsqueda se ordenaron utilizando redes neuronales entrenadas instantáneamente . [8] Esto se incorporó más tarde a otro motor de metabúsqueda llamado Solosearch. [9]
En agosto de 2000, India obtuvo su primer metabuscador cuando se lanzó HumHaiIndia.com. [10] Fue desarrollado por Sumeet Lamba, que entonces tenía 16 años. [11] El sitio web fue rebautizado posteriormente como Tazaa.com. [12]
Ixquick es un motor de búsqueda conocido por su declaración de política de privacidad. Desarrollado y lanzado en 1998 por David Bodnick, es propiedad de Surfboard Holding BV. En junio de 2006, Ixquick comenzó a eliminar datos privados de sus usuarios siguiendo el mismo proceso con Scroogle . La política de privacidad de Ixquick no incluye el registro de las direcciones IP de los usuarios, las cookies de identificación, la recopilación de datos personales y el intercambio de datos personales con terceros. [13] También utiliza un sistema de clasificación único en el que un resultado se clasifica por estrellas. Cuantas más estrellas haya en un resultado, más motores de búsqueda estuvieron de acuerdo con el resultado.
En abril de 2005, Dogpile , entonces propiedad y operado por InfoSpace , Inc., colaboró con investigadores de la Universidad de Pittsburgh y la Universidad Estatal de Pensilvania para medir la superposición y las diferencias de clasificación de los principales motores de búsqueda web con el fin de evaluar los beneficios de utilizar una metabúsqueda motor para buscar en la web. Los resultados encontraron que de 10,316 consultas aleatorias definidas por el usuario de Google , Yahoo! y Ask Jeeves , solo el 3,2% de los resultados de búsqueda de la primera página fueron los mismos en esos motores de búsqueda para una consulta determinada. Otro estudio más tarde ese año utilizando 12,570 consultas aleatorias definidas por el usuario de Google , Yahoo! , MSN Search y Ask Jeeves encontraron que solo el 1.1% de los resultados de búsqueda de la primera página eran los mismos en esos motores de búsqueda para una consulta determinada. [14]
Ventajas
Al enviar múltiples consultas a varios otros motores de búsqueda, esto amplía los datos de cobertura del tema y permite encontrar más información. Utilizan los índices creados por otros motores de búsqueda, agregando y, a menudo, postprocesando los resultados de formas únicas. Un metabuscador tiene una ventaja sobre un solo motor de búsqueda porque se pueden recuperar más resultados con la misma cantidad de esfuerzo. [2] También reduce el trabajo de los usuarios de tener que escribir individualmente búsquedas de diferentes motores para buscar recursos. [2]
La metabúsqueda también es un enfoque útil si el propósito de la búsqueda del usuario es obtener una descripción general del tema o obtener respuestas rápidas. En lugar de tener que pasar por varios motores de búsqueda como Yahoo! o Google y comparando resultados, los metabuscadores pueden compilar y combinar resultados rápidamente. Pueden hacerlo enumerando los resultados de cada motor consultado sin posprocesamiento adicional (Dogpile) o analizando los resultados y clasificándolos según sus propias reglas (IxQuick, Metacrawler y Vivismo).
Un metabuscador también puede ocultar la dirección IP del buscador de los motores de búsqueda consultados, proporcionando así privacidad a la búsqueda. En vista de esto, el gobierno francés decretó en 2018 que todas las búsquedas gubernamentales se realicen utilizando Qwant , que se cree que es un metabuscador. [15]
Desventajas
Los metabuscadores no son capaces de analizar formularios de consulta ni de traducir completamente la sintaxis de las consultas . El número de hipervínculos generados por los metabuscadores es limitado y, por lo tanto, no proporcionan al usuario los resultados completos de una consulta. [dieciséis]
La mayoría de los metabuscadores no proporcionan más de diez archivos vinculados desde un solo motor de búsqueda y, por lo general, no interactúan con motores de búsqueda más grandes para obtener resultados. Los enlaces de pago por clic tienen prioridad y normalmente se muestran primero. [17]
La metabúsqueda también da la ilusión de que hay más cobertura del tema consultado, especialmente si el usuario está buscando información popular o común. Es común terminar con varios resultados idénticos de los motores consultados. También es más difícil para los usuarios realizar búsquedas con la sintaxis de búsqueda avanzada que se enviará con la consulta, por lo que es posible que los resultados no sean tan precisos como cuando un usuario utiliza una interfaz de búsqueda avanzada en un motor específico. Esto da como resultado que muchos metabuscadores utilicen búsquedas simples. [18]
Operación
Un motor de metabúsqueda acepta una única solicitud de búsqueda del usuario . Esta solicitud de búsqueda se pasa luego a la base de datos de otro motor de búsqueda . Un motor de metabúsqueda no crea una base de datos de páginas web, sino que genera un sistema de base de datos federada de integración de datos de múltiples fuentes. [19] [20] [21]
Dado que cada motor de búsqueda es único y tiene diferentes algoritmos para generar datos clasificados, también se generarán duplicados. Para eliminar los duplicados, un motor de metabúsqueda procesa estos datos y aplica su propio algoritmo. Se produce una lista revisada como salida para el usuario. [ cita requerida ] Cuando un metabuscador se pone en contacto con otros motores de búsqueda, estos motores de búsqueda responderán de tres formas:
- Ambos cooperarán y proporcionarán acceso completo a la interfaz para el motor de metabúsqueda, incluido el acceso privado a la base de datos del índice, e informarán al motor de metabúsqueda de cualquier cambio realizado en la base de datos del índice;
- Los motores de búsqueda pueden comportarse de manera no cooperativa, por lo que no negarán ni proporcionarán ningún acceso a las interfaces;
- El motor de búsqueda puede ser completamente hostil y negarle al metabuscador el acceso total a su base de datos y en circunstancias graves, mediante la búsqueda de métodos legales . [22]
Arquitectura de ranking
Es probable que las páginas web que están altamente clasificadas en muchos motores de búsqueda sean más relevantes para proporcionar información útil. [22] Sin embargo, todos los motores de búsqueda tienen diferentes puntajes de clasificación para cada sitio web y la mayoría de las veces estos puntajes no son los mismos. Esto se debe a que los motores de búsqueda priorizan diferentes criterios y métodos de puntuación, por lo que un sitio web puede aparecer con una clasificación alta en un motor de búsqueda y una clasificación baja en otro. Esto es un problema porque los motores de metabúsqueda dependen en gran medida de la coherencia de estos datos para generar cuentas fiables. [22]
Fusión
Un motor de metabúsqueda utiliza el proceso de Fusion para filtrar datos y obtener resultados más eficientes. Los dos métodos principales de fusión utilizados son: Collection Fusion y Data Fusion.
- Collection Fusion: también conocida como recuperación distribuida, se ocupa específicamente de los motores de búsqueda que indexan datos no relacionados. Para determinar qué tan valiosas son estas fuentes, Collection Fusion analiza el contenido y luego clasifica los datos sobre la probabilidad de que proporcionen información relevante en relación con la consulta. A partir de lo que se genera, Collection Fusion puede seleccionar los mejores recursos del rango. Estos recursos elegidos luego se fusionan en una lista. [22]
- Fusión de datos: se ocupa de la información recuperada de los motores de búsqueda que indexa conjuntos de datos comunes. El proceso es muy similar. Los puntajes de rango inicial de los datos se combinan en una sola lista, después de lo cual se analizan los rangos originales de cada uno de estos documentos. Los datos con puntuaciones altas indican un alto nivel de relevancia para una consulta en particular y, por lo tanto, se seleccionan. Para producir una lista, las puntuaciones deben normalizarse mediante algoritmos como CombSum. Esto se debe a que los motores de búsqueda adoptan diferentes políticas de algoritmos, lo que hace que la puntuación producida sea incomparable. [23] [24]
Spamdexing
Spamdexing es la manipulación deliberada de los índices de los motores de búsqueda. Utiliza varios métodos para manipular la relevancia o prominencia de los recursos indexados de una manera no alineada con la intención del sistema de indexación. La indexación por correo no deseado puede resultar muy angustiante para los usuarios y problemática para los motores de búsqueda porque el contenido de retorno de las búsquedas tiene poca precisión. [ cita requerida ] Esto eventualmente resultará en que el motor de búsqueda se vuelva poco confiable y no confiable para el usuario. Para abordar el Spamdexing, los algoritmos de los robots de búsqueda se hacen más complejos y se cambian casi todos los días para eliminar el problema. [25]
Es un problema importante para los metabuscadores porque interfiere con los criterios de indexación del rastreador web , que se utilizan en gran medida para dar formato a las listas de clasificación. Spamdexing manipula el sistema de clasificación natural de un motor de búsqueda y coloca a los sitios web más arriba en la lista de clasificación de lo que normalmente se colocarían. [26] Hay tres métodos principales que se utilizan para lograrlo:
Spam de contenido
El spam de contenido son las técnicas que alteran la visión lógica que tiene un motor de búsqueda sobre el contenido de la página. Las técnicas incluyen:
- Relleno de palabras clave: ubicaciones calculadas de palabras clave dentro de una página para aumentar el recuento, la variedad y la densidad de palabras clave de la página.
- Texto oculto / invisible: texto no relacionado disfrazado haciéndolo del mismo color que el fondo, usando un tamaño de fuente pequeño u ocultándolo dentro del código HTML
- Relleno de metaetiquetas: repetición de palabras clave en metaetiquetas y / o uso de palabras clave no relacionadas con el contenido del sitio
- Páginas de entrada: páginas web de baja calidad con poco contenido, pero palabras clave o frases identificables
- Sitios Scraper: programas que permiten a los sitios web copiar contenido de otros sitios web y crear contenido para un sitio web.
- Giro de artículos: reescritura de artículos existentes en lugar de copiar contenido de otros sitios
- Traducción automática: utiliza la traducción automática para reescribir contenido en varios idiomas diferentes, lo que da como resultado un texto ilegible.
Enlace spam
El spam de enlaces son enlaces entre páginas presentes por motivos distintos al mérito. Las técnicas incluyen:
- Software de creación de enlaces: automatización del proceso de optimización de motores de búsqueda (SEO)
- Link Farms: páginas que hacen referencia entre sí (también conocidas como sociedades de admiración mutua)
- Enlaces ocultos: colocar hipervínculos donde los visitantes no puedan o no puedan verlos
- Sybil Attack: falsificación de múltiples identidades con fines maliciosos
- Blogs de spam: blogs creados únicamente para la promoción comercial y el paso de la autoridad de enlace a los sitios de destino.
- Secuestro de página: crear una copia de un sitio web popular con contenido similar, pero redirige a los navegantes web a sitios web no relacionados o incluso maliciosos
- Compra de dominios caducados: compra de dominios caducados y reemplazo de páginas con enlaces a sitios web no relacionados
- Relleno de cookies: colocar una cookie de seguimiento de afiliados en la computadora de un visitante del sitio web sin su conocimiento
- Spam de foros: sitios web que los usuarios pueden editar para insertar enlaces a sitios de spam
Encubierto
Esta es una técnica de SEO en la que se envían diferentes materiales e información al rastreador web y al navegador web . [27] Se utiliza comúnmente como una técnica de indexación de spam porque puede engañar a los motores de búsqueda para que visiten un sitio que sea sustancialmente diferente de la descripción del motor de búsqueda o para que un determinado sitio tenga una clasificación más alta.
Ver también
- Búsqueda federada
- Lista de metabuscadores
- Metabrowsing
- Multisearch
- Agregador de búsqueda
- Optimización de motores de búsqueda
- Motor de búsqueda híbrido
Referencias
- ^ Berger, Sandy (2005). "Guía de Internet de la gran edad de Sandy Berger" . Que Publishing.ISBN 0-7897-3442-7
- ^ a b c "Arquitectura de un motor de metabúsqueda que soporta las necesidades de información del usuario" . 1999.
- ^ Paseo, cebolla (2021). "Cómo funcionan los motores de búsqueda" . onionride.
- ^ Lawrence, Stephen R .; Lee Giles, C. (10 de octubre de 1997). "Patente US6999959 - Meta motor de búsqueda" - a través de Google Books .
- ^ Voorhees, Ellen M .; Gupta, Narendra; Johnson-Laird, Ben (abril de 2000). "El problema de la fusión de colecciones" .
- ^ "La metabúsqueda - Historia del motor de búsqueda" .
- ^ "Ranking de motores de búsqueda en HotBot: una breve historia del motor de búsqueda HotBot" .
- ^ Shu, Bo; Kak, Subhash (1999). "Un motor de metabúsqueda inteligente basado en redes neuronales": 1–11. CiteSeerX 10.1.1.84.6837 . Cite journal requiere
|journal=
( ayuda ) - ^ Kak, Subhash (noviembre de 1999). "Mejores búsquedas y predicciones en la Web con redes neuronales entrenadas instantáneamente" (PDF) . Sistemas inteligentes IEEE.
- ^ "Chico nuevo en la ciudad" .
- ^ "Rediff Search: ¡los adolescentes tienen.com mayor de edad!" .
- ^ "Tazaa.com - Acerca de Tazaa.com" .
- ^ "SOBRE NOSOTROS - Nuestra historia" .
- ^ Spink, Amanda; Jansen, Bernard J .; Kathuria, Vinish; Koshman, Jerez (2006). "Superposición entre los principales motores de búsqueda web" (PDF) . Esmeralda.
- ^ GOUJARD, CLOTHILDE (20 de noviembre de 2018). "Francia está abandonando a Google para reclamar su independencia en línea" . Cableado .
- ^ "Departamento de Informática" . Universidad de Friburgo .
- ^ "Explotación de inteligencia de Internet" (PDF) . 2002.
- ^ HENNEGAR, ANNE. "Los motores de metabúsqueda expanden su horizonte" .
- ^ MENG, WEIYI (5 de mayo de 2008). "Motores de metabúsqueda" (PDF) .
- ^ Selberg, Erik; Etzioni, Oren (1997). "La arquitectura MetaCrawler para la agregación de recursos en la Web" . Experto en IEEE. págs. 11-14.
- ^ Manoj, M; Jacob, Elizabeth (julio de 2013). "Diseño y desarrollo de un metabuscador programable" (PDF) . Fundación de Ciencias de la Computación. págs. 6-11.
- ^ a b c d Manoj, M .; Jacob, Elizabeth (octubre de 2008). "Recuperación de información en Internet mediante metabuscadores: una revisión" (PDF) . Consejo de Investigaciones Científicas e Industriales .
- ^ Wu, Shengli; Crestani, Fabio; Bi, Yaxin (2006). Evaluación de métodos de normalización de puntajes en Data Fusion . Tecnología de recuperación de información . Apuntes de conferencias en Ciencias de la Computación. 4182 . págs. 642–648. CiteSeerX 10.1.1.103.295 . doi : 10.1007 / 11880592_57 . ISBN 978-3-540-45780-0.
- ^ Manmatha, R .; Sever, H. (2014). "Un enfoque formal para la normalización de la puntuación para la metabúsqueda" (PDF) . Archivado desde el original (PDF) el 30 de septiembre de 2019 . Consultado el 27 de octubre de 2014 .
- ^ Najork, Marc (2014). "Detección de spam web" . Microsoft .
- ^ Vandendriessche, Gerrit (febrero de 2009). "Algunos comentarios legales sobre spamdexing" .
- ^ Wang, Yi-Min; Ma, Ming; Niu, Yuan; Chen, Hao (8 de mayo de 2007). "Conexión de spammers web con anunciantes" (PDF) .