El protocolo Sitemaps permite a un webmaster informar a los motores de búsqueda sobre las URL de un sitio web que están disponibles para rastrear. Un mapa del sitio es un archivo XML que enumera las URL de un sitio. Permite a los webmasters incluir información adicional sobre cada URL: cuándo se actualizó por última vez, con qué frecuencia cambia y qué tan importante es en relación con otras URL del sitio. Esto permite a los motores de búsqueda rastrear el sitio de manera más eficiente y encontrar URL que pueden estar aisladas del resto del contenido del sitio. El protocolo Sitemaps es un protocolo de inclusión de URL y complementa robots.txt
, un protocolo de exclusión de URL.
Historia
Google introdujo por primera vez Sitemaps 0.84 en junio de 2005 para que los desarrolladores web pudieran publicar listas de enlaces de todos sus sitios. Google, Yahoo! y Microsoft anunció el apoyo conjunto para el protocolo Sitemaps en noviembre de 2006. La versión del esquema se cambió a "Sitemap 0.90", pero no se realizaron otros cambios.
En abril de 2007, Ask.com e IBM anunciaron soporte para Sitemaps. Además, Google, Yahoo, MSN anunció el descubrimiento automático de mapas de sitio a través de robots.txt
. En mayo de 2007, los gobiernos estatales de Arizona, California, Utah y Virginia anunciaron que utilizarían Sitemaps en sus sitios web.
El protocolo Sitemaps se basa en ideas [1] de "Servidores web compatibles con rastreadores" [2] con mejoras que incluyen el descubrimiento automático robots.txt
y la capacidad de especificar la prioridad y la frecuencia de cambio de las páginas.
Propósito
Los sitemaps son especialmente beneficiosos en sitios web donde:
- Algunas áreas del sitio web no están disponibles a través de la interfaz navegable [3]
- Los webmasters utilizan contenido rico en Ajax , Silverlight o Flash que normalmente no es procesado por los motores de búsqueda .
- El sitio es muy grande y existe la posibilidad de que los rastreadores web pasen por alto parte del contenido nuevo o actualizado recientemente [3]
- Cuando los sitios web tienen una gran cantidad de páginas que están aisladas o no están bien vinculadas entre sí, o [3]
- Cuando un sitio web tiene pocos enlaces externos [3]
Formato de archivo
El formato del Protocolo de mapa del sitio consta de etiquetas XML. El archivo en sí debe estar codificado en UTF-8 . Los mapas del sitio también pueden ser solo una lista de URL en texto sin formato. También se pueden comprimir en formato .gz.
A continuación, se muestra un mapa del sitio de muestra que contiene solo una URL y utiliza todas las etiquetas opcionales.
xml version = "1.0" encoding = "utf-8"?> xmlns = "http://www.sitemaps.org/schemas/sitemap/0.9" xmlns: xsi = "http: //www.w3 .org / 2001 / XMLSchema-instance " xsi: schemaLocation = " http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd " > http://example.com/ 2006-11-18 diariamente 0.8
El protocolo XML de sitemaps también se ha ampliado para proporcionar una forma de enumerar varios sitemaps en un archivo de "índice de sitemaps". El tamaño máximo del mapa del sitio de 50 MiB o 50.000 URL [4] significa que esto es necesario para sitios grandes.
A continuación, se muestra un ejemplo de índice de mapa del sitio que hace referencia a un mapa del sitio independiente.
xml version = "1.0" encoding = "UTF-8"?> xmlns = "http://www.sitemaps.org/schemas/sitemap/0.9" > http: // www .example.com / sitemap1.xml.gz 2014-10-01T18: 23: 17 + 00: 00
Definiciones de elementos
Las definiciones de los elementos se muestran a continuación: [4]
Elemento | ¿Requerido? | Descripción |
---|---|---|
| sí | El elemento de nivel de documento para el mapa del sitio. El resto del documento después del elemento ' Xml version>' debe estar incluido en este. |
| sí | Elemento padre para cada entrada. |
| sí | El elemento de nivel de documento para el índice de sitemaps. El resto del documento después del elemento ' Xml version>' debe estar incluido en este. |
| sí | Elemento principal para cada entrada del índice. |
| sí | Proporciona la URL completa de la página o el mapa del sitio, incluido el protocolo (por ejemplo, http, https) y una barra diagonal, si así lo requiere el servidor de alojamiento del sitio. Este valor debe tener menos de 2048 caracteres. Tenga en cuenta que los símbolos de unión en la URL deben escaparse como & . |
| No | La fecha de la última modificación del archivo, en formato ISO 8601 . Esto puede mostrar la fecha y la hora completas o, si lo desea, puede ser simplemente la fecha en el formato AAAA-MM-DD. |
| No | Con qué frecuencia puede cambiar la página:
"Siempre" se utiliza para indicar los documentos que cambian cada vez que se accede a ellos. "Nunca" se utiliza para indicar URL archivadas (es decir, archivos que no se volverán a modificar). Esto se usa solo como una guía para los rastreadores y no se usa para determinar la frecuencia con la que se indexan las páginas. No se aplica a |
| No | La prioridad de esa URL en relación con otras URL del sitio. Esto permite a los webmasters sugerir a los rastreadores qué páginas se consideran más importantes. El rango válido es de 0.0 a 1.0, siendo 1.0 el más importante. El valor predeterminado es 0,5. La calificación de todas las páginas de un sitio con una prioridad alta no afecta las listas de búsqueda, ya que solo se utiliza para sugerir a los rastreadores qué tan importantes son las páginas del sitio entre sí. No se aplica a |
La compatibilidad con los elementos que no son necesarios puede variar de un motor de búsqueda a otro. [4]
Otros formatos
Archivo de texto
El protocolo de mapas del sitio permite que el mapa del sitio sea una lista simple de URL en un archivo de texto. Las especificaciones de archivo de los sitemaps XML también se aplican a los sitemaps de texto; el archivo debe estar codificado en UTF-8 y no puede tener más de 50 MB (sin comprimir) ni contener más de 50.000 URL. Los mapas del sitio que superen estos límites deben dividirse en varios mapas del sitio con un archivo de índice de mapa del sitio (un archivo que apunta a varios mapas del sitio). [5]
Feed de distribución
Un feed de distribución es un método permitido para enviar URL a los rastreadores; esto se recomienda principalmente para sitios que ya tienen feeds de distribución. Un inconveniente declarado es que este método solo puede proporcionar a los rastreadores URL creadas más recientemente, pero aún se pueden descubrir otras URL durante el rastreo normal. [4]
Puede ser beneficioso tener un feed de distribución como una actualización delta (que contiene solo el contenido más reciente) para complementar un mapa del sitio completo.
Envío de motor de búsqueda
Si los mapas del sitio se envían directamente a un motor de búsqueda (se hace ping ), devolverá información de estado y cualquier error de procesamiento. Los detalles relacionados con el envío variarán según los diferentes motores de búsqueda. La ubicación del mapa del sitio también se puede incluir en el robots.txt
archivo agregando la siguiente línea:
Sitemap:
El
debe ser la URL completa al mapa del sitio, tales como:
https://www.example.org/sitemap.xml
Esta directiva es independiente de la línea de agente de usuario, por lo que no importa dónde se coloque en el archivo. Si el sitio web tiene varios mapas del sitio, se pueden incluir varios registros "Mapa del sitio:" robots.txt
o la URL puede simplemente apuntar al archivo de índice del mapa del sitio principal.
La siguiente tabla enumera las URL de envío de mapas del sitio para varios de los principales motores de búsqueda:
Buscador | URL de envío | Página de ayuda | Mercado |
---|---|---|---|
Baidu | https://zhanzhang.baidu.com/dashboard/index | Panel de control para webmasters de Baidu | China, Singapur |
Bing (y Yahoo! ) | https://www.bing.com/webmaster/ping.aspx?siteMap= | Herramientas para webmasters de Bing | Global |
https://www.google.com/webmasters/tools/ping?sitemap= | Envío de un mapa del sitio | Global | |
Yandex | https://webmaster.yandex.com/site/map.xml | Archivos de sitemaps | Rusia, Ucrania, Bielorrusia, Kazajstán, Turquía |
Las URL del mapa del sitio enviadas utilizando las URL de envío del mapa del sitio deben estar codificadas como URL , por ejemplo: reemplazar :
(dos puntos) por %3A
, /
(barra) por %2F
. [4]
Limitaciones para la indexación de motores de búsqueda
Los mapas del sitio complementan y no reemplazan los mecanismos de rastreo existentes que los motores de búsqueda ya utilizan para descubrir URL. El uso de este protocolo no garantiza que las páginas web se incluyan en los índices de búsqueda, ni influye en la forma en que se clasifican las páginas en los resultados de búsqueda. A continuación se proporcionan ejemplos específicos.
- Google - Asistencia para webmasters en sitemaps: "El uso de un mapa del sitio no garantiza que todos los elementos de su mapa del sitio se rastrearán e indexarán, ya que los procesos de Google se basan en algoritmos complejos para programar el rastreo. Sin embargo, en la mayoría de los casos, su sitio se beneficiará de tener un mapa del sitio, y nunca será penalizado por tener uno ". [6]
- Bing: Bing utiliza el protocolo estándar sitemaps.org y es muy similar al que se menciona a continuación.
- Yahoo: después de que comenzara el acuerdo de búsqueda entre Yahoo! Inc. y Microsoft, Yahoo! Site Explorer se ha fusionado con Bing Webmaster Tools
Límites del mapa del sitio
Los archivos de mapa del sitio tienen un límite de 50.000 URL y 50 MB por mapa del sitio. Los sitemaps se pueden comprimir mediante gzip , lo que reduce el consumo de ancho de banda. Se admiten varios archivos de mapa del sitio, con un archivo de índice de mapa del sitio que sirve como punto de entrada. Los archivos de índice de sitemaps no pueden incluir más de 50.000 sitemaps, no deben tener más de 50 MiB (52.428.800 bytes) y pueden comprimirse. Puede tener más de un archivo de índice de sitemaps. [4]
Al igual que con todos los archivos XML, cualquier valor de datos (incluidas las URL) debe usar códigos de escape de entidad para los caracteres y (&), comillas simples ('), comillas dobles ("), menor que (<) y mayor que (>) .
La mejor práctica para optimizar un índice de mapa del sitio para la capacidad de rastreo del motor de búsqueda es asegurarse de que el índice se refiera solo a mapas del sitio en lugar de otros índices de mapas del sitio. Anidar un índice de mapa del sitio dentro de un índice de mapa del sitio no es válido según Google. [7]
Tipos de mapas de sitio adicionales
Google admite varios tipos de mapas de sitios XML adicionales fuera del alcance del protocolo de mapas de sitios para permitir que los webmasters proporcionen datos adicionales sobre el contenido de sus sitios web. Los mapas de sitios de imágenes y videos están destinados a mejorar la capacidad de los sitios web para clasificar en las búsquedas de imágenes y videos. [8] [9]
Mapas del sitio de video
Los mapas del sitio de video indican datos relacionados con la inserción y la reproducción automática, miniaturas preferidas para mostrar en los resultados de búsqueda, fecha de publicación, duración del video y otros metadatos. [9] Los mapas de sitios de video también se utilizan para permitir que los motores de búsqueda indexen videos que están incrustados en un sitio web, pero que están alojados externamente, como en Vimeo o YouTube .
Mapas de sitios de imágenes
Los mapas de sitio de imágenes se utilizan para indicar los metadatos de las imágenes, como la información de licencia, la ubicación geográfica y el título de una imagen. [8]
Sitemaps de Google Noticias
Google admite un tipo de mapa de sitio de Google News para facilitar la indexación rápida de temas de noticias urgentes. [10] [11]
Mapas de sitio multilingües y multinacionales
En diciembre de 2011, Google anunció las anotaciones para sitios que desean dirigirse a usuarios en muchos idiomas y, opcionalmente, países. Unos meses más tarde, Google anunció, en su blog oficial, [12] que están agregando soporte para especificar las anotaciones rel = "alternate" y hreflang en Sitemaps. En lugar de los elementos de enlace HTML (hasta entonces la única opción), la opción Sitemaps ofrecía muchas ventajas que incluían un tamaño de página más pequeño y una implementación más sencilla para algunos sitios web.
Un ejemplo de mapa del sitio multilingüe sería el siguiente:
Si, por ejemplo, tenemos un sitio que se dirige a los usuarios del idioma inglés http://www.example.com/en
y a los usuarios del idioma griego http://www.example.com/gr
, hasta entonces, la única opción era agregar la anotación hreflang en el encabezado HTTP o como elementos HTML en ambas URL como esta.
rel = "alternate" hreflang = "en" href = "https://www.example.com/en" /> rel = "alternate" hreflang = "gr" href = "https: // www. example.com/gr " />
Pero ahora, se puede utilizar alternativamente el siguiente marcado equivalente en Sitemaps:
https://www.example.com/en rel = "alternativo" hreflang = "gr" href = "https://www.example.com/gr" /> rel = "alternativo" hreflang = "en" href = "https://www.example.com/en" /> https://www.example.com/gr rel = "alternativo" hreflang = "gr" href = "https://www.example.com/gr" /> rel = "alternativo" hreflang = "en" href = "https://www.example.com/en" />
Ver también
- Mapa de biositio
- Metadatos
- Recursos de un recurso
- Yahoo! Explorador del sitio
- Herramientas para webmasters de Google
Referencias
- ^ ML Nelson; JA Smith; del Campo; H. Van de Sompel; X. Liu (2006). "Recolección de recursos web automatizada y eficiente" (PDF) . WIDM'06 .
- ^ O. Brandman, J. Cho, Héctor García-Molina y Narayanan Shivakumar (2000). "Servidores web compatibles con rastreadores". Actas de ACM SIGMETRICS Performance Evaluation Review, Volumen 28, Edición 2 . doi : 10.1145 / 362883.362894 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ a b c d "Más información sobre mapas del sitio | Central de búsqueda" . Desarrolladores de Google . Consultado el 1 de junio de 2021 .
- ^ a b c d e f "Formato XML de sitemaps" . Sitemaps.org. 2016-11-21 . Consultado el 1 de diciembre de 2016 .
- ^ "Cree y envíe un mapa del sitio - Ayuda de Search Console" . Support.google.com . Consultado el 30 de noviembre de 2020 .
- ^ "Acerca de Google Sitemaps" . 2016-12-01 . Consultado el 1 de diciembre de 2016 .
- ^ "Informe de sitemaps - Ayuda de Search Console" . support.google.com . Consultado el 15 de abril de 2020 .
- ^ a b "Sitemaps de imágenes" . Consola de búsqueda de Google . Consultado el 28 de diciembre de 2018 .
- ^ a b "Sitemaps de vídeo" . Consola de búsqueda de Google . Consultado el 28 de diciembre de 2018 .
- ^ Bigby, Garenne. "Por qué debería utilizar un mapa del sitio de Google Noticias" . Dyno Mapper . Consultado el 28 de diciembre de 2018 .
- ^ "Sitemaps de Google Noticias" . Consola de búsqueda de Google . Consultado el 28 de diciembre de 2018 .
- ^ "Anotaciones de sitios multilingües y multinacionales en Sitemaps" . Blog central para webmasters de Google . Pierre Far. 24 de mayo de 2012.
enlaces externos
- Página web oficial
- "Los principales motores de búsqueda se unen para respaldar un mecanismo común para la presentación de sitios web" . 16 de noviembre de 2006.
- Grupos de noticias de Google
- Sitemaps (archivados)
- Ayuda para webmasters: mapa del sitio [ enlace inactivo ]