El formato de archivo Web ARChive (WARC) especifica un método para combinar múltiples recursos digitales en un archivo de archivo agregado junto con información relacionada. El formato WARC es una revisión del formato de archivo ARC_IA de Internet Archive [4] que se ha utilizado tradicionalmente para almacenar " rastreos web " como secuencias de bloques de contenido recopilados de la World Wide Web . El formato WARC generaliza el formato anterior para respaldar mejor las necesidades de recolección, acceso e intercambio de las organizaciones de archivo. Además del contenido principal actualmente grabado, la revisión incluye contenido secundario relacionado, como metadatos asignados., eventos de detección de duplicados abreviados y transformaciones posteriores. [5] El formato WARC está inspirado en los flujos HTTP / 1.0, con un encabezado similar y el uso de CRLF como delimitadores, lo que lo hace muy propicio para las implementaciones de rastreadores.
Extensión de nombre de archivo | .warc |
---|---|
Tipo de medio de Internet | aplicación / warc [1] |
Extendido desde | ARCO [2] |
Estándar | ISO 28500: 2017 [3] |
¿ Formato abierto ? | sí |
Sitio web | iipc |
Especificada por primera vez en 2008, [6] WARC es ahora reconocida por la mayoría de los sistemas bibliotecarios nacionales como el estándar a seguir para el archivo web. [7]
Software
- Archivador web Heritrix en Java
- wget (desde la versión 1.14 [8] )
- Webrecorder
- StormCrawler
- Apache Nutch
- libarchive
Referencias
- ^ "aplicación / warc" . Consultado el 17 de marzo de 2018 .
- ^ "Introducción" . Consultado el 5 de marzo de 2015 .
- ^ "Información y documentación - formato de archivo WARC" . Consultado el 16 de marzo de 2018 .
- ^ "ARC_IA, formato de archivo ARC de Internet Archive" . www.digitalpreservation.gov . Consultado el 9 de mayo de 2015 .
- ^ "WARC, formato de archivo Web ARChive" . www.digitalpreservation.gov . Consultado el 9 de mayo de 2015 .
- ^ Arvidson, Allan; Kunze, John; Mohr, Gordon; Stack, Michael (5 de julio de 2008). "El formato de archivo WARC" . IETF . Consultado el 29 de abril de 2021 .
- ^ http://digitalia.sbn.it/article/view/1473
- ^ Scrivano, Giuseppe (6 de agosto de 2012). "GNU wget 1.14 publicado" . Lanzamiento de GNU wget 1.14 . Free Software Foundation, Inc . Consultado el 25 de febrero de 2016 .
enlaces externos
- http://archive-access.sourceforge.net/warc/
- http://bibnum.bnf.fr/WARC/
- http://www.digitalpreservation.gov/formats/fdd/fdd000236.shtml
- https://netpreserve.org/resources/WARC_Guidelines_v1.pdf
- https://iipc.github.io/warc-specifications/
- http://crawler.archive.org/articles/developer_manual/arcs.html