rastreador web

Un rastreador web , a veces llamado araña o spiderbot y a menudo abreviado como rastreador , es un robot de Internet que navega sistemáticamente en la World Wide Web y que normalmente es operado por motores de búsqueda con el fin de indexar la web ( web spidering ). ^[1]

Los motores de búsqueda web y algunos otros sitios web utilizan software de rastreo o rastreo web para actualizar su contenido web o índices del contenido web de otros sitios. Los rastreadores web copian páginas para que las procese un motor de búsqueda, que indexa las páginas descargadas para que los usuarios puedan buscar de manera más eficiente.

Los rastreadores consumen recursos en los sistemas visitados y, a menudo, visitan los sitios sin que se les solicite. Los problemas de programación, carga y "cortesía" entran en juego cuando se accede a grandes colecciones de páginas. Existen mecanismos para que los sitios públicos que no deseen ser rastreados se lo hagan saber al agente rastreador. Por ejemplo, incluir un robots.txtarchivo puede solicitar a los bots que indexen solo partes de un sitio web, o nada en absoluto.

El número de páginas de Internet es extremadamente grande; incluso los rastreadores más grandes no logran hacer un índice completo. Por esta razón, los motores de búsqueda se esforzaron por brindar resultados de búsqueda relevantes en los primeros años de la World Wide Web, antes del 2000. Hoy en día, los resultados relevantes se brindan casi instantáneamente.

Los rastreadores pueden validar hipervínculos y código HTML . También se pueden usar para web scraping y programación basada en datos .

Un rastreador web también se conoce como araña , [ ^2] hormiga , indexador automático , ^[3] o (en el contexto del software FOAF ) web scutter . ^[4]

Arquitectura de un rastreador web

Evolución de la Frescura y la Edad en un rastreador web

Arquitectura de alto nivel de un rastreador web estándar