En el archivo web , un sitio de archivo es un sitio web que almacena información en páginas web del pasado para que cualquiera pueda verla.
Técnicas comunes
Dos técnicas comunes para archivar sitios web son utilizar un rastreador web o solicitar envíos de usuarios:
- Uso de un rastreador web : al utilizar un rastreador web (por ejemplo, Internet Archive ), el servicio no dependerá de una comunidad activa para su contenido y, por lo tanto, puede construir una base de datos más grande más rápido. Sin embargo, los rastreadores web solo pueden indexar y archivar información que el público ha elegido publicar en Internet o que está disponible para ser rastreado, ya que los desarrolladores de sitios web y los administradores del sistema tienen la capacidad de bloquear el acceso de los rastreadores web a [determinadas] páginas web (usando un archivo robots.txt ).
- Envíos de usuarios : si bien puede ser difícil iniciar los servicios de envío de usuarios debido a las tasas potencialmente bajas de envíos de usuarios, este sistema puede producir algunos de los mejores resultados. Al rastrear páginas web, solo se puede obtener la información que el público ha elegido publicar en línea; sin embargo, es posible que los proveedores de contenido potenciales no se molesten en publicar cierta información, asumiendo que nadie estaría interesado en ella, porque carecen de un lugar adecuado para publicarla o por motivos de derechos de autor. [1] Sin embargo, los usuarios que ven que alguien quiere su información pueden ser más propensos a enviarla.
Ejemplos de
grupos de Google
El 12 de febrero de 2001, Google adquirió los archivos de los grupos de discusión de Usenet de Deja.com y los convirtió en su servicio de Grupos de Google . [2] Permiten a los usuarios buscar discusiones antiguas con la tecnología de búsqueda de Google, al mismo tiempo que permiten a los usuarios publicar en las listas de correo .
Archivo de Internet
El Archivo de Internet es la construcción de un compendio de sitios web y medios digitales . A partir de 1996, el Archivo ha estado empleando un rastreador web para construir su base de datos. Es uno de los sitios de archivo más conocidos.
Archivos NBCUniversal
NBCUniversal Archives ofrece acceso a contenido exclusivo de NBCUniversal y sus subsidiarias. Su sitio web NBCUniversal Archives proporciona una fácil visualización de clips de noticias pasados y recientes, y es un excelente ejemplo de archivo de noticias. [3]
Nextpoint
Nextpoint ofrece un SaaS automatizado basado en la nube para las necesidades relacionadas con el marketing, el cumplimiento y los litigios, incluido el descubrimiento electrónico.
Archivo PANDORA
PANDORA ( Archivo de Pandora ), fundado en 1996 por la Biblioteca Nacional de Australia , significa Preservar y acceder a los recursos documentales en red de Australia, que resume su misión. Proporcionan un catálogo a largo plazo de publicaciones selectas en línea y sitios web escritos por australianos o que son de un tema australiano. Emplean su PANDAS (Sistema de archivo digital PANDORA) al crear su catálogo.
textfiles.com
textfiles.com es una gran biblioteca de archivos de texto antiguos mantenida por Jason Scott Sadofsky . Su misión es archivar los documentos antiguos que habían flotado en los sistemas de tablones de anuncios (BBS) de su juventud y documentar las experiencias de otras personas en los sistemas de tablones de anuncios.
Ver también
Referencias
- ^ Jinfang Niu, Universidad del sur de Florida (marzo-abril de 2012). "Una descripción general del archivo web" . Revista D-Lib . 18 (3/4). doi : 10.1045 / march2012-niu1 .
- ^ "Google adquiere el servicio de debate de Usenet y activos importantes de Deja.com" . 12 de febrero de 2001.
- ^ Archivos NBCUniversal