Googlebot es el software de rastreo web utilizado por Google , que recopila documentos de la web para crear un índice de búsqueda para el motor de búsqueda de Google . En realidad, este nombre se utiliza para hacer referencia a dos tipos diferentes de rastreadores web: un rastreador de escritorio (para simular usuarios de escritorio) y un rastreador de dispositivos móviles (para simular un usuario móvil). [1]
Autor (es) original (es) | |
---|---|
Tipo | Rastreador web |
Sitio web | Preguntas frecuentes del robot de Google |
Comportamiento
Es probable que Googlebot Desktop y Googlebot Mobile rastreen un sitio web. Sin embargo, Google anunció que, a partir de septiembre de 2020, todos los sitios cambiaron a la indexación de dispositivos móviles, lo que significa que Google está rastreando la web utilizando un robot de Google para teléfonos inteligentes. [2] El subtipo de Googlebot se puede identificar mirando la cadena de agente de usuario en la solicitud. Sin embargo, ambos tipos de rastreadores obedecen al mismo token de producto (token de usuario) en robots.txt, por lo que un desarrollador no puede segmentar de forma selectiva el robot de Google para dispositivos móviles o el ordenador de escritorio mediante robots.txt.
Si un webmaster desea restringir la información en su sitio disponible para un robot de Google u otra araña que se porta bien , puede hacerlo con las directivas apropiadas en un archivo robots.txt , [3] o agregando la metaetiqueta a la web. página. [4] Las solicitudes de Googlebot a los servidores web se pueden identificar mediante una cadena de usuario-agente que contiene "Googlebot" y una dirección de host que contiene "googlebot.com". [ cita requerida ]
Actualmente, Googlebot sigue los enlaces HREF y SRC. [3] Existe una creciente evidencia de que el robot de Google puede ejecutar JavaScript y analizar el contenido generado por las llamadas Ajax . [5] Existen muchas teorías sobre cuán avanzada es la capacidad del robot de Google para procesar JavaScript, con opiniones que van desde una capacidad mínima derivada de intérpretes personalizados. [6] Actualmente, Googlebot utiliza un servicio de renderizado web (WRS) que se basa en el motor de renderizado Chromium (versión 74 a 7 de mayo de 2019). [7] Googlebot descubre páginas recolectando todos los enlaces en cada página que encuentra. Luego sigue estos enlaces a otras páginas web. Las nuevas páginas web deben estar vinculadas desde otras páginas conocidas en la web para que el webmaster pueda rastrearlas e indexarlas o enviarlas manualmente.
Un problema que los webmasters con planes de alojamiento web de bajo ancho de banda [ cita requerida ] han notado a menudo con el robot de Google es que ocupa una enorme cantidad de ancho de banda. [ cita requerida ] Esto puede hacer que los sitios web excedan su límite de ancho de banda y se eliminen temporalmente. Esto es especialmente problemático para los sitios espejo que albergan muchos gigabytes de datos. Google proporciona una " Consola de búsqueda " que permite a los propietarios de sitios web reducir la frecuencia de rastreo. [8]
La frecuencia con la que Googlebot rastreará un sitio depende del presupuesto de rastreo. El presupuesto de rastreo es una estimación de la frecuencia con la que se actualiza un sitio web. [ cita requerida ] Técnicamente, el equipo de desarrollo de Googlebot (equipo de rastreo e indexación) utiliza varios términos definidos internamente para asumir lo que significa "presupuesto de rastreo". [9] Desde mayo de 2019, Googlebot utiliza el motor de renderizado Chromium más reciente , que es compatible con las funciones ECMAScript 6 . Esto hará que el bot sea un poco más "perenne" y garantizará que no dependa de un motor de renderizado obsoleto en comparación con las capacidades del navegador. [10]
Mediabot
Mediabot es el rastreador web que utiliza Google para analizar el contenido para que Google AdSense pueda ofrecer publicidad contextual relevante en una página web. Mediabot se identifica con la cadena de agente de usuario "Mediapartners-Google / 2.1".
A diferencia de otros rastreadores, Media bot no sigue enlaces para descubrir nuevas URL rastreables, sino que solo visita las URL que han incluido el código de AdSense. [11] Cuando ese contenido reside detrás de un inicio de sesión, se le puede dar al rastreador un inicio de sesión para que pueda rastrear contenido protegido. [12]
Referencias
- ^ "Googlebot" . Google . 2019-03-11 . Consultado el 11 de marzo de 2019 .
- ^ "Anuncio de la primera indexación móvil para toda la web" . Desarrolladores de Google . Consultado el 17 de marzo de 2021 .
- ^ a b "Consola de búsqueda de Google" . Google.com .
- ^ "Consola de búsqueda de Google" . search.google.com . Consultado el 11 de marzo de 2019 .
- ^ "Comprender los conceptos básicos de JavaScript SEO | Búsqueda de desarrolladores" . Desarrolladores de Google . Consultado el 26 de julio de 2020 .
- ^ Splitt, Martin. "Cómo la Búsqueda de Google indexa los sitios JavaScript - JavaScript SEO" . YouTube .
- ^ "El nuevo robot de Google siempre verde" . Blog oficial del Centro para webmasters de Google . Consultado el 7 de junio de 2019 .
- ^ "Google - Webmasters" . Consultado el 15 de diciembre de 2012 .
- ^ "Qué significa el presupuesto de rastreo para Googlebot" . Blog oficial del Centro para webmasters de Google . Consultado el 4 de julio de 2018 .
- ^ "El nuevo robot de Google siempre verde" . Blog oficial del Centro para webmasters de Google . Consultado el 17 de junio de 2019 .
- ^ "Acerca del rastreador de AdSense" .
- ^ "Mostrar anuncios en páginas protegidas por inicio de sesión" .
enlaces externos
- Preguntas frecuentes oficiales de Googlebot de Google