Archivo web

El archivo web es el proceso de recopilar partes de la World Wide Web para garantizar que la información se conserve en un archivo para futuros investigadores, historiadores y el público. Los archivistas web suelen emplear rastreadores web para la captura automatizada debido al enorme tamaño y la cantidad de información en la web. La organización de archivo web más grande basada en un enfoque de rastreo masivo es Wayback Machine , que se esfuerza por mantener un archivo de toda la web.

La porción creciente de la cultura humana creada y registrada en la web hace inevitable que más y más bibliotecas y archivos tengan que enfrentar los desafíos del archivo web. ^[1] Las bibliotecas nacionales , los archivos nacionales y varios consorcios de organizaciones también participan en el archivo de contenido web culturalmente importante.

El software y los servicios comerciales de archivado web también están disponibles para las organizaciones que necesitan archivar su propio contenido web con fines normativos, legales o de herencia corporativa.

Si bien la conservación y organización de la web prevaleció desde mediados hasta fines de la década de 1990, uno de los primeros proyectos de archivo web a gran escala fue Internet Archive , una organización sin fines de lucro creada por Brewster Kahle en 1996. ^[2] Internet Archive lanzó su propio motor de búsqueda para ver contenido web archivado, Wayback Machine , en 2001. ^[2] A partir de 2018, Internet Archive albergaba 40 petabytes de datos. ^[3] Internet Archive también desarrolló muchas de sus propias herramientas para recopilar y almacenar sus datos, incluido PetaBox para almacenar grandes cantidades de datos de manera eficiente y segura, y Heritrix, un rastreador web desarrollado en conjunto con las bibliotecas nacionales nórdicas. ^[2] Otros proyectos lanzados al mismo tiempo incluyeron los archivos web Pandora y Tasmanian de Australia y Kulturarw3 de Suecia. ^[4]

De 2001 a 2010, ^{[ verificación fallida ]} el Taller Internacional de Archivado en la Web (IWAW) proporcionó una plataforma para compartir experiencias e intercambiar ideas. ^[5]^[6] El Consorcio Internacional de Preservación de Internet (IIPC) , establecido en 2003, ha facilitado la colaboración internacional en el desarrollo de estándares y herramientas de código abierto para la creación de archivos web. ^[7]

La ya desaparecida Internet Memory Foundation fue fundada en 2004 y fundada por la Comisión Europea para archivar la web en Europa. ^[2] Este proyecto desarrolló y lanzó muchas herramientas de código abierto, como "captura de medios enriquecidos, análisis de coherencia temporal, evaluación de spam y detección de evolución de terminología". ^[2] Los datos de la fundación ahora están alojados en Internet Archive, pero actualmente no son de acceso público. ^[8]