DjVu ( / ˌ d eɪ ʒ ɑ v ü / DIA -zhah- VOO , como el francés " deja vu " [3] ) es un equipo de formato de archivo diseñado principalmente para almacenar documentos escaneados , especialmente los que contienen una combinación de texto, dibujos lineales , imágenes en color indexadas y fotografías. Utiliza tecnologías como la separación de capas de imagen de texto y fondo / imágenes, carga progresiva , codificación aritmética y compresión con pérdida para bitonal ( monocromo) imágenes. Esto permite almacenar imágenes legibles de alta calidad en un espacio mínimo, de modo que puedan estar disponibles en la web .
Extensiones de nombre de archivo | .djvu, .djv |
---|---|
Tipo de medio de Internet | imagen / vnd.djvu, imagen / x-djvu |
número mágico | AT&T |
Desarrollado por | AT&T Labs - Investigación |
Versión inicial | 1998 |
Último lanzamiento | Versión 3.5.28 [1] (8 de enero de 2021 ) |
Tipo de formato | Formatos de archivo de imagen |
Contenido por | Formato de archivo de intercambio |
¿ Formato abierto ? | GNU GPLv2 para la biblioteca de referencia DjVu y DjVuLibre-3.5; Concesiones de licencia bajo la GNU GPL para varias patentes que cubren aspectos de la biblioteca [2] |
Se ha promocionado que DjVu proporciona archivos más pequeños que PDF para la mayoría de los documentos escaneados. [4] Los desarrolladores de DjVu informan que las páginas de las revistas en color se comprimen a 40-70 kB, los papeles técnicos en blanco y negro se comprimen a 15-40 kB y los manuscritos antiguos se comprimen a alrededor de 100 kB; una imagen JPEG satisfactoria normalmente requiere 500 kB. [5] Al igual que PDF, DjVu puede contener una capa de texto OCR , lo que facilita realizar operaciones de copiar y pegar y de búsqueda de texto.
Hay disponibles creadores, manipuladores, convertidores, complementos de navegador web y visores de escritorio gratuitos. [3] DjVu es compatible con varios visores de documentos multiformato y software de lectura de libros electrónicos en Linux ( Okular , Evince ), Windows ( Okular , SumatraPDF ) y Android (FBReader, EBookDroid, PocketBook).
Historia
La tecnología DjVu fue desarrollada originalmente por Yann LeCun , Léon Bottou , Patrick Haffner , Paul G. Howard , Patrice Simard y Yoshua Bengio en AT&T Labs de 1996 a 2001. [5]
Antes de la estandarización de PDF en 2008, [6] [7] DjVu se había considerado superior debido a que era un formato de archivo abierto en contraste con la naturaleza patentada de PDF en ese momento. La relación de compresión más alta declarada (y, por lo tanto, el tamaño de archivo más pequeño) y la supuesta facilidad de convertir grandes volúmenes de texto en formato DjVu, fueron otros argumentos para la superioridad de DjVu sobre PDF en el panorama tecnológico de 2004. Tecnólogo independiente Brewster Kahle en una charla de 2004 on IT Conversations discutió los beneficios de permitir un acceso más fácil a los archivos DjVu. [8] [9]
La biblioteca DjVu distribuida como parte del paquete de código abierto DjVuLibre se ha convertido en la implementación de referencia para el formato DjVu. DjVuLibre ha sido mantenido y actualizado por los desarrolladores originales de DjVu desde 2002. [10]
La especificación del formato de archivo DjVu ha pasado por una serie de revisiones, la más reciente de 2005.
Versión | Fecha de lanzamiento | Notas | |
---|---|---|---|
[1] | 1–191996–1999 | Versiones de desarrollo realizadas por los laboratorios de AT&T antes de la venta del formato a LizardTech . | |
[1] | Versión 20Abril de 1999 | DjVu versión 3. DjVu cambió de un formato de una sola página a un formato de varias páginas. | |
[1] | Versión 21Septiembre de 1999 | Se reemplazó el formato de almacenamiento indirecto. Se agregó la capa de texto con capacidad de búsqueda. | |
[1] | Versión 22Abril de 2001 | Orientación de página, color JB2 | |
[1] | Versión 23Julio de 2002 | Fragmento de CID | |
[1] | Versión 24Febrero de 2003 | LTAnno trozo | |
[1] | Versión 25Mayo de 2003 | Fragmento de NAVM. Se agregó soporte para marcadores DjVu (contornos). Los cambios realizados por las Versiones 23 y 24 quedaron obsoletos. | |
[1] | Versión 26Abril de 2005 | Anotaciones de texto / línea | |
Leyenda: Versión antigua Versión anterior, aún mantenida Ultima versión Última versión de vista previa |
Papel en el ecosistema de software
El uso principal del formato DjVu ha sido la distribución electrónica de documentos con una calidad comparable a la de los documentos impresos. Como ese nicho es también el uso principal de PDF, era inevitable que los dos formatos se convirtieran en competidores. Sin embargo, debe observarse que los dos formatos abordan el problema de la entrega de documentos de alta resolución de formas muy diferentes: PDF codifica principalmente gráficos y texto como datos vectorizados, mientras que DjVu los codifica principalmente como imágenes de mapa de píxeles . Esto significa que PDF coloca la carga de renderizar el documento en el lector, mientras que DjVu coloca esa carga en el creador.
Durante varios años, superponiéndose significativamente con el período en el que se estaba desarrollando DjVu, no había visores de PDF para sistemas operativos gratuitos; un obstáculo particular fue la representación de fuentes vectorizadas, que son esenciales para combinar archivos de tamaño pequeño con alta resolución en PDF. Dado que mostrar DjVu era un problema más simple para el que se disponía de software libre, se sugirió que el movimiento del software libre debería emplear DjVu en lugar de PDF para distribuir la documentación; El renderizado para crear DjVu no es, en principio, muy diferente del renderizado para un controlador de impresora específico de dispositivo, y DjVu se puede generar como último recurso a partir de escaneos de soportes de papel. Sin embargo, cuando FreeType 2.0 en 2000 comenzó a proporcionar renderizado de todos los principales formatos de fuentes vectorizados, esa ventaja específica de DjVu comenzó a erosionarse.
En la década de 2000, con el crecimiento de la World Wide Web y antes de la adopción generalizada de la banda ancha , las bibliotecas digitales solían adoptar DjVu como formato de elección, gracias a su integración con software como Greenstone [11] e Internet Archive , [12 ] complementos de navegador que permitían una navegación en línea avanzada, un tamaño de archivo más pequeño para una calidad comparable de escaneos de libros y otros documentos con muchas imágenes [13] y compatibilidad para incrustar y buscar texto completo desde OCR . [14] [15] Algunas características como las vistas previas en miniatura se integraron más tarde en el BookReader de Internet Archive [16] y la navegación DjVu quedó obsoleta a su favor ya que alrededor de 2015 algunos de los principales navegadores dejaron de admitir plugins NPAPI y DjVu con ellos. [17]
DjVu.js Viewer intenta reemplazar los complementos faltantes.
Resumen técnico
Estructura de archivo
El formato de archivo DjVu se basa en el formato de archivo de intercambio y se compone de fragmentos organizados jerárquicamente. La estructura IFF está precedida por un AT&T
número mágico de 4 bytes . A continuación se muestra un solo FORM
fragmento con un identificador secundario de DJVU
o DJVM
para un documento de una sola página o de varias páginas, respectivamente.
Todos los fragmentos pueden estar contenidos en un solo archivo en el caso de los llamados documentos empaquetados, o pueden estar contenidos en varios archivos: un archivo para cada página más algunos archivos con fragmentos compartidos.
Tipos de fragmentos
Identificador de fragmentos | Contenido por | Descripción |
---|---|---|
FORMULARIO: DJVU | FORMULARIO: DJVM | Describe una sola página. Puede estar en la raíz de un documento y ser un documento de una sola página o referirse a él desde un DIRM fragmento. |
FORMULARIO: DJVM | N / A | Describe un documento de varias páginas. Es el fragmento raíz del documento. |
FORMULARIO: DJVI | FORMULARIO: DJVM | Contiene datos compartidos por varias páginas. |
FORMULARIO: THUM | FORMULARIO: DJVM | Contiene miniaturas. |
INFO | FORMULARIO: DJVU | Debe ser el primer trozo. Describe el ancho, alto, versión del formato, resolución , gamma y rotación de la página. |
DIRM | FORMULARIO: DJVM | Debe ser el primer trozo. Hace referencia a otros FORM fragmentos. Estos fragmentos pueden seguir a este fragmento dentro del FORM:DJVM fragmento o estar contenidos en archivos externos. Estos tipos de documentos se denominan agrupados o indirectos , respectivamente. |
NAVM | FORMULARIO: DJVM | Si está presente, debe seguir inmediatamente al DIRM fragmento. Contiene un esquema del documento comprimido en BZZ. |
ANTa, ANTz | FORMULARIO: DJVI o FORM: DJVU | Anotaciones. |
TXTa, TXTz | FORMULARIO: DJVU | Información de diseño y texto Unicode. |
INCL | FORMULARIO: DJVU | El ID de un FORM::DJVI fragmento incluido . |
Sjbz | FORMULARIO: DJVU | Datos bitonales JB2 comprimidos con BZZ utilizados para almacenar la máscara. |
Djbz | FORMULARIO: DJVI o FORM: DJVU | Mesa de forma compartida. |
WMRM | ? | Se requieren datos JB2 para eliminar una marca de agua. |
FORMULARIO: DJVU | Fragmento obsoleto con contenido desconocido. |
Compresión
DjVu divide una sola imagen en muchas imágenes diferentes y luego las comprime por separado. Para crear un archivo DjVu, la imagen inicial se separa primero en tres imágenes: una imagen de fondo, una imagen de primer plano y una imagen de máscara. Las imágenes de fondo y de primer plano suelen ser imágenes en color de menor resolución (por ejemplo, 100 ppp); la imagen de la máscara es una imagen binivel de alta resolución (por ejemplo, 300 ppp) y normalmente es donde se almacena el texto. Las imágenes de fondo y de primer plano se comprimen utilizando un algoritmo de compresión basado en ondas llamado IW44. [5] La imagen de la máscara se comprime mediante un método llamado JB2 (similar a JBIG2 ). El método de codificación JB2 identifica formas casi idénticas en la página, como ocurrencias múltiples de un carácter en particular en una fuente, estilo y tamaño determinados. Comprime el mapa de bits de cada forma única por separado y luego codifica las ubicaciones donde aparece cada forma en la página. Por lo tanto, en lugar de comprimir una letra "e" en una fuente determinada varias veces, comprime la letra "e" una vez (como una imagen de bits comprimida) y luego registra cada lugar de la página donde aparece.
Opcionalmente, estas formas pueden asignarse a códigos UTF-8 (ya sea a mano o potencialmente mediante un sistema de reconocimiento de texto ) y almacenarse en el archivo DjVu. Si existe esta asignación, es posible seleccionar y copiar texto.
Dado que JB2 (también llamado DjVuBitonal) es una variación de JBIG2, que trabaja con los mismos principios, [18] ambos métodos de compresión tienen los mismos problemas al realizar la compresión con pérdida. En 2013, se supo que las fotocopiadoras y escáneres Xerox habían estado sustituyendo dígitos por otros de aspecto similar, por ejemplo, reemplazando un 6 por un 8. [19] Se ha detectado un documento DjVu en la naturaleza con sustituciones de caracteres, como una n con serifas sangrantes. convirtiéndose en au y una o con una mancha en el interior convirtiéndose en una e. [20] No se almacena en el archivo si se ha producido una compresión con pérdida, [21] y la aplicación de visualización DjView no advierte al usuario de que podrían haberse producido sustituciones de glifos, ni al abrir un archivo comprimido con pérdida, ni en la información o los metadatos. cuadros de diálogo. [22]
Licencia de formato
DjVu es un formato de archivo abierto con patentes. [4] Se publica la especificación del formato de archivo, así como el código fuente para la biblioteca de referencia. [4] Los autores originales distribuyen una implementación de código abierto llamada " DjVuLibre " bajo la Licencia Pública General GNU . Los derechos para el desarrollo comercial del software de codificación se han transferido a diferentes empresas a lo largo de los años, incluidas AT&T Corporation , LizardTech , [23] Celartem [24] y Cuminas . [25]
Celartem adquirió LizardTech y Extensis. [26] [27] [24] [28] [29]
Apoyo
DjVu no es ampliamente compatible con software de escaneo y visualización. [30] Aunque los visores se pueden descargar, la apertura de archivos DjVu no está implementada en la mayoría de los sistemas operativos de forma predeterminada. La principal excepción son la mayoría de las distribuciones de Linux . [31]
En 2002, Internet Archive eligió el formato de archivo DjVu como un formato en el que su Million Book Project proporciona libros de dominio público escaneados en línea (junto con TIFF y PDF). [32] En febrero de 2016, Internet Archive anunció que DjVu ya no se utilizaría para nuevas cargas. [33]
Wikimedia Commons , un repositorio de medios utilizado por Wikipedia entre otros, permite condicionalmente archivos de medios PDF y DjVu. [34]
Ver también
- Marco internacional de interoperabilidad de imágenes (IIIF)
- JBIG2
- Comparación de formatos de libros electrónicos
Referencias
- ^ a b c d e f g h i DjVuLibre , página de descarga
- ^ "Licencia de DjVu" . Página de DjVu Sourceforge . Sourceforge.net. 2011-08-17 . Consultado el 21 de septiembre de 2011 .
- ^ a b "DjVu.org - el menú principal de recursos de djvu" . djvu.org . Consultado el 2 de julio de 2017 .
- ^ a b c "¿Qué es DjVu - DjVu.org" . DjVu.org . Consultado el 5 de marzo de 2009 .
- ^ a b c Léon Bottou; Patrick Haffner; Paul G. Howard; Patrice Simard; Yoshua Bengio; Yann Le Cun (1998). "Compresión de imágenes de documentos de alta calidad con DjVu, 7 (3): 410–425" (PDF) . Revista de imágenes electrónicas .
- ^ "ISO 32000-1: 2008 - Gestión de documentos - Formato de documento portátil - Parte 1: PDF 1.7" . Iso.org. 2008-07-01 . Consultado el 21 de febrero de 2010 .
- ^ Orion, Egan (5 de diciembre de 2007). "PDF 1.7 está aprobado como ISO 32000" . El indagador . El indagador . Archivado desde el original el 13 de diciembre de 2007 . Consultado el 5 de diciembre de 2007 .
- ^ Brewster Kahle (16 de diciembre de 2004). "Acceso universal a todo conocimiento" (Audio; Discurso a 1h: 31 m: 20s) . Red de conversaciones.
- ^ "LizardTech para abrir un visor de Java DjVu" . Conexión ECM . 7 de diciembre de 2004 . Consultado el 18 de agosto de 2017 .
- ^ "DjVuLibre: biblioteca y visor de DjVu de código abierto" . djvu.sourceforge.net .
- ^ "Proyectos y demostraciones de NZDL" .
- ^ Eric Rumsey (5 de septiembre de 2018). "Google Books vs DjVu en Internet Archive" .
- ^ Eric Rumsey (10 de septiembre de 2018). "DjVu otra vez" .
- ^ Jeff Kaplan (9 de diciembre de 2004). "Nueva colección de libros: escaneos en color, djvu, algunos pdf" .
- ^ Janusz S. Bień (12 de septiembre de 2011). "Búsqueda eficiente en texto oculto de grandes documentos DjVu" .
- ^ Eric Rumsey (10 de septiembre de 2010). "Vista en miniatura del lector de libros de Internet Archive" .
- ^ Brewster Kahle y Jeff Kaplan (26 de febrero de 2016). "Archivos DjVu para nuevas cargas" .
- ^ Artem Mikheev, Luc Vincent, Mike Hawrylycz y Léon Bottou: publicación de documentos electrónicos con DjVu
- ^ Consulte elartículo de JBIG2 para obtener más detalles y referencias.
- ^ https://news.ycombinator.com/item?id=17435514
- ^ https://cuminas.jp/docs/techinfo/DjVu3Spec.pdf
- ^ https://sourceforge.net/projects/djvu
- ^ Extensis. "Empresa - Acerca de - LizardTech" . www.lizardtech.com .
- ^ a b "Celartem, Inc .: Información de la empresa privada - Bloomberg" . www.bloomberg.com .
- ^ "会 社 情報 - Corporación Cuminas" . www.cuminas.jp . Archivado desde el original el 15 de enero de 2018 . Consultado el 14 de enero de 2018 .
- ^ "Descripción de la empresa - Celartem Technology, Inc" .
- ^ "Celartem Technology anuncia fusión de participaciones estadounidenses - Extensis.com" . Archivado desde el original el 15 de enero de 2018 . Consultado el 14 de enero de 2018 .
- ^ "Celartem Technology Inc .: Información de la empresa privada - Bloomberg" . www.bloomberg.com .
- ^ "Celartem vende complementos Extensis y LizardTech y XTensions a onOne Software - Big Picture - Wide Format Printing" . bigpicture.net .
- ^ Manual para Xerox / Visioneer OneTouch , software de escaneo ampliamente utilizado para uso comercial y doméstico, que muestra compatibilidad con varios formatos de archivo, pero no DjVu.
- ^ Un archivo DjVu de prueba . Haga clic en la imagen de la página para abrir el archivo en una computadora compatible con el formato .djvu.
- ^ "Formatos de archivo de imagen - OLPC" . Wiki.laptop.org . Consultado el 9 de septiembre de 2008 .
- ^ "Archivos djvu para nuevas cargas" , Brewster Kahle, 26 de febrero de 2016
- ^ Wikimedia Commons. Alcance del proyecto: PDF y DjVu .
enlaces externos
- Una colección de documentos DjVu (en su mayoría desagregados)
- Sitio DjVuLibre
- El sitio de DjVu.js Viewer que se puede usar con Firefox y Chrome actuales
- pdf2djvu Herramientas de Jakub Wilk
- djvu.org (mantenido por un webmaster anónimo)
- djvu.com ("DjVu Universe") (Caminova Corporation)
- Cuminas Corporation - Descargas de software
- Biblioteca de decodificadores / codificadores Cuminas DjVu SDK DjVu
- Un enlace real a un documento DjVu (2001)