Estándar de exclusión de robots

El estándar de exclusión de robots , también conocido como protocolo de exclusión de robots o simplemente robots.txt , es un estándar utilizado por los sitios web para comunicarse con rastreadores web y otros robots web . El estándar especifica cómo informar al robot web sobre qué áreas del sitio web no deben procesarse o escanearse. Los motores de búsqueda suelen utilizar robots para categorizar sitios web. No todos los robots cooperan con el estándar; recolectores de correo electrónico , spambots , malwarey los robots que buscan vulnerabilidades de seguridad pueden incluso comenzar con las partes del sitio web en las que se les ha dicho que permanezcan fuera. El estándar se puede utilizar junto con Sitemaps , un estándar de inclusión de robots para sitios web.

El estándar fue propuesto por Martijn Koster , ^[1]^[2] cuando trabajaba para Nexor ^[3] en febrero de 1994 ^[4] en la lista de correo www-talk , el principal canal de comunicación para las actividades relacionadas con WWW en ese momento. Charles Stross afirma haber provocado a Koster para que sugiriera robots.txt, después de que escribiera un rastreador web que se comportaba mal y que, sin darse cuenta, provocó un ataque de denegación de servicio en el servidor de Koster. ^[5]

Rápidamente se convirtió en un estándar de facto que se esperaba que siguieran los rastreadores web presentes y futuros; la mayoría cumplió, incluidos los operados por motores de búsqueda como WebCrawler , Lycos y AltaVista . ^[6]

El 1 de julio de 2019, Google anunció la propuesta del Protocolo de exclusión de robots como estándar oficial bajo el Grupo de trabajo de ingeniería de Internet . ^[7] El borrador ^[8] pasará ahora por el proceso de aceptación.

Cuando el propietario de un sitio desea dar instrucciones a los robots web, coloca un archivo de texto llamado robots.txt en la raíz de la jerarquía del sitio web (por ejemplo, https://www.example.com/robots.txt ). Este archivo de texto contiene las instrucciones en un formato específico (ver ejemplos a continuación). Los robots que optan por seguir las instrucciones intentan obtener este archivo y leer las instrucciones antes de obtener cualquier otro archivo del sitio web . Si este archivo no existe, los robots web asumen que el propietario del sitio web no desea imponer ninguna limitación en el rastreo de todo el sitio.

Un archivo robots.txt en un sitio web funcionará como una solicitud de que los robots específicos ignoren archivos o directorios específicos al rastrear un sitio. Esto podría deberse, por ejemplo, a una preferencia por la privacidad de los resultados del motor de búsqueda, a la creencia de que el contenido de los directorios seleccionados podría ser engañoso o irrelevante para la categorización del sitio como un todo, o al deseo de que un La aplicación solo opera con ciertos datos. Los enlaces a las páginas enumeradas en robots.txt aún pueden aparecer en los resultados de búsqueda si están vinculados desde una página que se rastrea. ^[9]