Dolby Digital Plus , también conocido como Enhanced AC-3 (y comúnmente abreviado como DD + o E-AC-3 , o EC-3 ) es un esquema de compresión de audio digital desarrollado por Dolby Labs para el transporte y almacenamiento de audio digital multicanal. Es un sucesor de Dolby Digital (AC-3), también desarrollado por Dolby, y tiene una serie de mejoras que incluyen soporte para una gama más amplia de velocidades de datos (32 kbit / sa 6144 kbit / s), mayor número de canales y múltiples -Soporte de programas (a través de subflujos) y herramientas adicionales (algoritmos) para representar datos comprimidos y contrarrestar artefactos. Mientras que Dolby Digital (AC-3) admite hasta cinco de ancho de banda completocanales de audio a una tasa de bits máxima de 640 kbit / s, E-AC-3 admite hasta 15 canales de audio de ancho de banda completo a una tasa de bits máxima de 6.144 Mbit / s .
El conjunto completo de especificaciones técnicas para E-AC-3 (y AC-3) está estandarizado y publicado en el Anexo E de ATSC A / 52: 2012, [1] [2] , así como en el Anexo E de ETSI TS 102 366 [ 3] V1.2.1 (2008-08), publicado por el Comité de sistemas de televisión avanzados .
Detalles técnicos
Especificaciones
Dolby Digital Plus es capaz de lo siguiente:
- Velocidad de bits codificada: 0,032 a 6,144 Mbit / s
- Canales de audio: 1.0 a 15.1 (es decir, de mono a 15 canales de rango completo y un canal de efectos de baja frecuencia)
- Número de programas de audio por flujo de bits: 8
- Frecuencia de muestreo: 32, 44,1 o 48 kHz
Estructura
Un servicio Dolby Digital Plus consta de uno o más subflujos . Hay tres tipos de subflujos:
- Subflujos independientes, que pueden contener un solo programa de hasta 5.1 canales. Pueden estar presentes hasta ocho subflujos dependientes en un flujo Dolby Digital Plus. Los canales presentes en una subflujo independiente están limitados a los canales 5.1 tradicionales: canales izquierdo (L), derecho (R), central (C), envolvente izquierdo (Ls) y envolvente derecho (Rs), así como canales de baja frecuencia. Canal de efectos (Lfe).
- Subflujos heredados, que contienen un solo programa 5.1 y que corresponden directamente al contenido Dolby Digital. Como máximo, puede haber presente una única subflujo heredado en un flujo DD +.
- Subflujos dependientes, que contienen canales adicionales más allá de los canales 5.1 tradicionales. Como los subflujos dependientes tienen la misma estructura que los subflujos independientes, cada subflujo dependiente puede contener hasta cinco canales de ancho de banda completo y un canal de baja frecuencia; sin embargo, estos canales pueden asignarse a diferentes ubicaciones de altavoces. Los metadatos del subflujo describen el propósito de cada canal incluido.
Todas las transmisiones DD + deben contener al menos una subflujo independiente o subflujo heredado, que contiene los primeros (o únicos) 5.1 canales del programa de audio principal. Se pueden utilizar subflujos independientes adicionales para programas de audio secundarios, como bandas sonoras en idiomas extranjeros, comentarios o descripciones / voces en off para personas con discapacidad visual. Se pueden proporcionar subflujos dependientes para programas que tienen canales de escenario de sonido adicionales más allá de 5.1.
Dentro de cada subflujo, se prevé la codificación de cinco canales de ancho de banda completo, un canal de baja frecuencia y un canal de acoplamiento. El canal de acoplamiento se utiliza para información de frecuencia media a alta que es común a varios canales de ancho de banda completo. Su contenido se mezcla con los otros canales de la manera prescrita por los metadatos, no se reproduce como un canal discreto por el decodificador.
Dolby Digital Plus incluye metadatos de flujo de bits completos para el control del decodificador sobre el volumen de salida (a través de dialnorm), mezcla descendente y control de rango dinámico reversible (a través de DRC).
Sintaxis
Dolby Digital Plus es nominalmente un protocolo alineado de 16 bits, aunque muy pocos campos en la sintaxis respetan los límites de bytes o palabras. Como muchos elementos de sintaxis son opcionales o de longitud variable, incluidos algunos cuya presencia o longitud depende de cálculos anteriores complejos, y hay poca redundancia en la sintaxis, DD + puede ser extremadamente difícil de analizar correctamente, con análisis sintácticamente válidos pero incorrectos que se producen fácilmente. por codificadores defectuosos.
Un flujo DD + es una colección de paquetes de tramas sincronizadas de longitud fija , cada uno de los cuales corresponde a 256, 512, 768 o 1536 muestras de audio consecutivas en el dominio del tiempo. (El caso de 1536 muestras es el caso más común y corresponde a Dolby Digital; las longitudes de subtramas más cortas están diseñadas para su uso en aplicaciones interactivas como videojuegos donde la reducción de la latencia del codificador es una preocupación importante). Cada trama de sincronización se puede decodificar de forma independiente y pertenece a un subflujo específico dentro del servicio. Una trama sincronizada consta de los siguientes elementos de sintaxis (algunos de los cuales pueden eludirse cuando un servicio Dolby Digital Plus se encapsula en otro formato o transporte):
- Una palabra de sincronización de 16 bits, que tiene el valor 0x0b77.
- Una sección de información de flujo de bits (BSI), que incluye metadatos clave como el tamaño de la trama, el identificador de flujo de bits (que especifica la versión de la sintaxis utilizada), el modo de canal, el identificador de flujo secundario, el nivel de diálogo codificado (dialnorm) y metadatos para guiar decodificador de producción de un downmix.
- Una sección de cuadro de audio, que contiene información de decodificación común a todos los bloques de audio dentro del cuadro de sincronización, incluida la información necesaria para determinar cómo se empaquetan los exponentes y mantisas .
- Una, dos, tres o seis secciones de bloque de audio. Estas secciones contienen metadatos de decodificación adicionales, así como los coeficientes de frecuencia codificados y cuantificados. Cada bloque de audio corresponde a 256 muestras PCM en cada canal.
- Una sección final que contiene datos auxiliares definidos por el usuario, cualquier relleno necesario para producir longitudes uniformes de tramas sincronizadas y un código de verificación de redundancia cíclica de 16 bits para la detección de errores.
Almacenamiento de coeficientes de transformación
En el corazón de Dolby Digital y DD + hay una transformada de coseno discreta modificada (MDCT), que se utiliza para transformar la señal de audio en el dominio de frecuencia; dentro de cada bloque se pueden transmitir hasta 256 coeficientes de frecuencia. Los coeficientes se transmiten en un formato de punto flotante binario, con exponentes transmitidos por separado de las mantisas. Esto permite una codificación altamente eficiente.
Los exponentes de cada canal se codifican en un formato diferencial altamente empaquetado, con los deltas entre los intervalos de frecuencia consecutivos (distintos del primero) en el flujo. Se utilizan tres formatos, o estrategias de exponentes ; estos se conocen como "D15", "D25" y "D45". En D15, cada intervalo tiene un exponente único, mientras que en D25 y D45, los valores delta corresponden a pares o quads de intervalos de frecuencia. Los bloques de audio que no sean el primero en un cuadro sincronizado pueden reutilizar adicionalmente el conjunto de exponentes del bloque anterior (esto es necesario para los canales que usan la Transformada Híbrida Adaptativa).
Los exponentes decodificados, junto con un conjunto de parámetros de metadatos, se utilizan para derivar los punteros de asignación de bits (BAP), que especifican el número de bits asignados a cada mantisa. A los contenedores que corresponden a frecuencias en las que la audición humana es más precisa se les asignan más bits; los contenedores que corresponden a frecuencias a las que los humanos son menos sensibles se asignan menos. Se puede asignar cualquier lugar entre cero y 16 bits para cada mantisa; si se transmiten bits cero, se puede aplicar opcionalmente una función de oscilación para generar el coeficiente de frecuencia.
Algoritmo
Dolby Digital Plus, como muchos códecs de audio con pérdida, utiliza una representación de la señal en el dominio de la frecuencia muy cuantificada para lograr la ganancia de codificación ; esta sección describe el funcionamiento de la transformación base, así como varias "herramientas" opcionales especificadas por el estándar, que se utilizan para lograr una mayor compresión o para reducir los artefactos de codificación audibles.
Transformada de coseno discreta modificada
Tanto el codificador Dolby Digital como el DD + convierten una señal de audio multicanal al dominio de la frecuencia utilizando la transformada de coseno discreta modificada (MDCT), con una longitud de bloque conmutable de 256 o 512 muestras (la última se utiliza con señales estacionarias, la primera con señales transitorias ). La representación del dominio de frecuencia se cuantifica luego de acuerdo con un modelo psicoacústico y se transmite. Se utiliza un formato de coma flotante para los coeficientes de frecuencia, y las mantisas y los exponentes se almacenan y transmiten por separado, y ambos están muy comprimidos.
Transformada híbrida adaptativa (AHT)
Para señales muy estacionarias, como notas largas en una interpretación musical, se utiliza la Transformada Híbrida Adaptativa (AHT). Esta herramienta es exclusiva de Dolby Digital Plus (y no es compatible con Dolby Digital) y utiliza una transformación de coseno discreta (DCT) de tipo II adicional para combinar seis bloques de transformación adyacentes (ubicados dentro de un cuadro sincronizado) en un bloque efectivamente más largo. Además de la transformación de dos etapas, se usa una estructura de asignación de bits diferente y se implementan dos formas de representar mantisas codificadas: uso de cuantificación vectorial , que brinda la mayor ganancia de codificación, y uso de cuantificación adaptada a la ganancia (GAQ) cuando se requiere una mayor fidelidad de señal. La cuantificación adaptativa de ganancia puede habilitarse de forma independiente para cada intervalo de frecuencia dentro de un canal y permite la codificación de mantisa de longitud variable.
Acoplamiento
Como muchos programas de audio multicanal tienen altos grados de correlación entre canales individuales, normalmente se usa un canal de acoplamiento. La información de alta frecuencia que es común entre dos o más canales se transmite en un canal separado (uno que no es reproducido por un decodificador, sino que solo se mezcla con los canales originales) conocido como canal de acoplamiento; junto con coeficientes conocidos como "coordenadas de acoplamiento" que guían al decodificador sobre cómo reconstruir los canales originales.
Dolby Digital Plus admite una versión más elaborada de la herramienta de acoplamiento conocida como Enhanced Coupling (ECPL). Este algoritmo, que es considerablemente más caro de procesar (tanto para codificadores como para decodificadores) permite incluir información de fase en las coordenadas de acoplamiento, lo que permite conservar las relaciones de fase entre los canales acoplados.
Extensión espectral
Dolby Digital Plus proporciona otra herramienta para altas frecuencias. Como los componentes de alta frecuencia son a menudo armónicos de sonidos de baja frecuencia, Spectral Extension (SPX) permite que los componentes de alta frecuencia se sinteticen algorítmicamente a partir de componentes de baja frecuencia. Esta herramienta también es exclusiva de Dolby Digital Plus y no es compatible con Dolby Digital.
Rematrixing
Los programas estéreo se suelen volver a mezclar y codificar como canales L + R y LR. Esto se hace tanto para aumentar la ganancia de codificación (el canal LR normalmente puede estar muy comprimido, y la eliminación posterior de la matriz provocará que se cancelen muchos artefactos de compresión) y para preservar las relaciones de fase necesarias para la reproducción adecuada de material codificado en Dolby Surround .
Procesamiento de ruido previo transitorio
El procesamiento de ruido previo transitorio (TPNP) es una herramienta específica de Dolby Digital Plus para reducir los artefactos resultantes de la cuantificación de la señal y otras técnicas de compresión. A diferencia de las otras herramientas descritas anteriormente, que operan en el dominio de la frecuencia y preceden a la conversión nuevamente en muestras PCM, TPNP es una herramienta que esencialmente realiza una operación de cortar y pegar en ventana en la señal del dominio del tiempo para borrar ciertos artefactos de cuantificación predecibles.
Relación con Dolby Digital y Dolby Atmos
Los flujos de bits Dolby Digital Plus no son directamente compatibles con los decodificadores Dolby Digital heredados . Sin embargo, Dolby Digital Plus es un superconjunto funcional de Dolby Digital, y los decodificadores incluyen un componente obligatorio que convierte directamente (sin decodificar ni recodificar) el flujo de bits Dolby Digital Plus en un flujo de bits Dolby Digital (que funciona a 640 kbit / s) para transporte. a través de conexiones S / PDIF heredadas (incluido S / PDIF sobre HDMI) a decodificadores externos (por ejemplo, AVR, etc.). Todos los decodificadores Dolby Digital Plus pueden decodificar flujos de bits Dolby Digital.
Sin embargo, los flujos de bits Dolby Atmos están codificados para ser compatibles con los decodificadores Dolby Digital Plus y, como tal, Dolby Atmos puede decodificarse mediante dispositivos compatibles con Dolby Digital Plus. Esto ha sido comercializado por Dolby, como la variación de compresión con pérdida de Dolby Atmos bajo la etiqueta "Dolby Digital Plus Atmos" para diferenciarlo del original basado en DolbyHD sin pérdidas. La mayoría de los flujos de bits Dolby Digital Plus ahora están codificados en codificación Atmos.
Compresión de rango dinámico
Uno de los objetivos de diseño de DD + es la reproducción de calidad en una variedad de entornos, que van desde sistemas de cine en casa y otros entornos controlados acústicamente donde la reproducción de alto rango dinámico es factible, hasta entornos portátiles y automotrices donde hay mucho ruido de fondo y puede ser necesaria la compresión del rango dinámico. para hacer que todas las partes de un programa de audio sean audibles.
DD + proporciona los siguientes modos de funcionamiento para diferentes entornos de escucha / espectador.
Modos de funcionamiento del decodificador Dolby Digital Plus:
Modo | Sonoridad de referencia (LKFS) | Solicitud |
---|---|---|
Línea | −31 LKFS | Reproducción de cine en casa: proporciona un rango dinámico completo de "cine" |
RF | −20 LKFS | Reproducción de altavoces de TV: proporciona un rango dinámico típico de "transmisión" |
Portátil | −11 LKFS | Reproducción de altavoces y auriculares de dispositivos portátiles: proporciona un rango dinámico mínimo (similar a las técnicas de producción / mezcla / masterización de música) |
Nota: Todos los modos de funcionamiento del decodificador (enumerados arriba) están disponibles en todos los decodificadores Dolby Digital Plus. El modo de funcionamiento predeterminado se rige por la categoría de dispositivo y la aplicación. En algunos dispositivos, los usuarios también pueden tener una opción (a través del menú) para seleccionar un modo alternativo que se adapte a su gusto y / o aplicación particular.
Además, Dolby Digital y DD + contienen metadatos adicionales para permitir una traducción sin errores en canales descendentes de rango restringido, como la modulación de RF, donde una amplitud excesiva de la señal de salida puede resultar en una distorsión significativa o errores de modulación.
Encapsulación, uso y almacenamiento de transmisiones Dolby Digital
Transporte físico para dispositivos de consumo
IEC 61937-3: define cómo transmitir flujos de bits Dolby Digital (AC-3) y Dolby Digital Plus (E-AC-3) a través de una interfaz IEC 60958/61937 (S / PDIF). Sin embargo, la interfaz S / PDIF tiene un ancho de banda insuficiente para transportar flujos de bits Dolby Digital Plus (E-AC-3) a la velocidad de datos de 3,0 Mbit / s especificada por HD DVD; son posibles velocidades de datos más bajas.
Muchos equipos de consumo, e incluso algunos equipos profesionales, no reconocen Dolby Digital Plus como formato codificado y tratarán las señales DD + a través de una interfaz S / PDIF o similar, o almacenadas en un archivo .WAV o formato contenedor similar, como si eran datos PCM lineales. Esto no es problemático si los datos se pasan sin cambios, pero cualquier escala de ganancia o conversión de frecuencia de muestreo, operaciones que son inofensivas para los datos PCM, corromperán y destruirán una transmisión Dolby Digital Plus. (Es más probable que los códecs más antiguos, como DTS o AC-3, se reconozcan como formatos comprimidos y se protejan de dicho procesamiento).
Dolby Digital Plus puede transmitirse a través de HDMI 1.3 o posterior, de acuerdo con IEC 61937-3.
Transporte físico para dispositivos y aplicaciones profesionales
Como la interfaz AES-3 es el análogo profesional a S / PDIF, las transmisiones Dolby Digital Plus pueden transmitirse a través de conexiones AES-3 con suficiente ancho de banda y / o a través de otras interfaces que encapsulan AES-3 (como SMPTE 259M y SMPTE 299M audio incrustado). Los estándares adicionales promulgados por SMPTE especifican la codificación de los transportes Dolby, incluidos Dolby Digital, Dolby Digital Plus y Dolby E (un códec exclusivo para profesionales utilizado en aplicaciones de audio / video) en una interfaz AES. El estándar SMPTE 337 especifica la señalización y el transporte de señales que no son audio PCM a través de una interfaz AES-3, y el estándar SMPTE 340-2008 especifica cómo se transmitirán Dolby Digital Plus y Dolby Digital a través de esa interfaz. La combinación de SMPTE 340-2008 y 337M permite almacenar y transportar el flujo de bits Dolby Digital Plus dentro de flujos de trabajo profesionales de producción, contribución y distribución antes de su emisión a los consumidores.
Difusión de consumo en sistemas de televisión digital
El Comité de Sistemas de Televisión Avanzada especifica DD + o Dolby Digital como el códec de audio principal para el sistema de televisión digital ATSC , y se usa comúnmente para otras aplicaciones de DTV (como transmisión por cable y satélite) en países que usan ATSC para televisión digital.
Para la transmisión (emisión) a los consumidores, el flujo de bits Dolby Digital Plus se empaqueta en un flujo elemental MPEG y se multiplexa (con video) en un flujo de transporte MPEG. En los sistemas ATSC, la especificación para transportar Dolby Digital Plus se describe en ATSC A / 53 Parte 3 y Parte 6. En los sistemas DVB, la especificación para transportar Dolby Digital Plus se describe en ETSI TS 101 154 y ETSI EN 300 468.
Dolby Digital Plus se está utilizando cada vez más en los sistemas de televisión digital, en particular en los sistemas de cable y satélite, como reemplazo de Dolby Digital. Muchas de estas aplicaciones no aprovechan su mayor número de canales o su capacidad para admitir múltiples programas independientes; en cambio, se utiliza como un códec de mayor eficiencia que el AC-3.
HD DVD y Blu-ray Disc
Tanto el ahora desaparecido estándar HD DVD como el Blu-ray Disc incluyen Dolby Digital Plus. Es un componente obligatorio de HD DVD y un componente opcional de Blu-ray. El número máximo de canales codificados discretos es el mismo para ambos formatos: 7.1. Sin embargo, HD DVD y Blu-ray imponen diferentes restricciones técnicas a los códecs de audio compatibles. Por lo tanto, el uso de DD + difiere sustancialmente entre HD DVD y Blu-ray Disc.
Códec | HD DVD | disco de Blu-ray | ||||
---|---|---|---|---|---|---|
Descodificación | Canales | Bitrate | Descodificación | Canales | Bitrate | |
AC-3 | obligatorio | 1 hasta 5,1 | 448 kbit / s | obligatorio | 1 hasta 5,1 | 640 kbit / s |
E-AC-3 | obligatorio | 1 hasta 7,1 | 3,024 Mbit / s | opcional, disponible solo para canales traseros | 6.1 hasta 7.1 | 1,664 Mbit / s |
TrueHD | obligatorio opcional | 1 o 2 3 a 8 | 18,0 Mbit / s 18,0 Mbit / s | Opcional | 1 a 8 | 18,0 Mbit / s |
En HD DVD, DD + se designa como un códec de audio obligatorio. Una película HD DVD puede utilizar DD + como pista de audio principal (o única). Se requiere un reproductor de HD DVD para admitir audio DD + al decodificarlo y enviarlo a las tomas de salida del reproductor. Tal como se almacena en el disco, el flujo de bits DD + puede transportar cualquier número de canales de audio hasta el máximo permitido, a cualquier tasa de bits de hasta 3,0 Mbit / s.
En Blu-ray Disc, DD + es un códec opcional y se implementa como una extensión de una pista de audio AC-3 5.1 "central". El núcleo AC-3 está codificado a 640 kbit / s, transporta 5 canales primarios (y 1 LFE) y se puede reproducir de forma independiente como una pista de audio de película en cualquier reproductor de Blu-ray Disc. El bitstream de extensión DD + se usa en reproductores que lo admiten reemplazando los canales traseros en la configuración 5.1 con versiones de mayor fidelidad, además de proporcionar una posible extensión de canal a 6.1 o 7.1. La pista de audio completa tiene una tasa de bits combinada de 1,7 Mbit / s: 640 kbit / s para el núcleo AC-3 5.1 y 1 Mbit / s para la extensión DD +. Durante la reproducción, tanto el flujo de bits principal como el de extensión contribuyen a la salida de audio final, de acuerdo con las reglas integradas en los metadatos del flujo de bits. [4]
Reproductores multimedia y downmixing
Generalmente, un flujo de bits Dolby Digital Plus solo se puede transportar a través de un enlace HDMI 1.3 o superior. Los receptores más antiguos admiten versiones anteriores de HDMI o solo admiten el sistema S / PDIF para audio digital o entradas analógicas.
Para enlaces que no sean HDMI 1.3, el reproductor puede decodificar el audio y luego transmitirlo a través de una variedad de métodos diferentes.
- Las versiones anteriores de HDMI, como HDMI 1.1, admiten audio PCM , donde el reproductor decodifica el audio y lo transmite sin pérdidas como PCM a través de HDMI al receptor.
- Algunos receptores y reproductores admiten sonido envolvente analógico y el reproductor puede decodificar el audio y transmitirlo al receptor como audio analógico.
La mayoría de los receptores y reproductores admiten S / PDIF. Esta conexión digital de menor ancho de banda no es capaz de transmitir audio PCM sin pérdidas con más de dos canales, pero un reproductor puede transmitir un flujo de audio compatible con S / PDIF al receptor de una de las siguientes maneras:
- Los reproductores de Blu-ray Disc pueden aprovechar el flujo de bits 5.1 AC-3 heredado integrado en el flujo de bits E-AC-3, transmitiendo solo el flujo de bits AC-3 sin modificaciones.
- Los reproductores compatibles con el estándar HD DVD pueden transcodificar el audio decodificado a otro formato. Dependiendo del método y las opciones disponibles para el jugador, esto se puede hacer con una pérdida de calidad relativamente pequeña. El decodificador de referencia de Dolby, disponible para todos los licenciatarios, explota la herencia común entre AC-3 y E-AC-3 al realizar la operación en el dominio de la frecuencia. La recompresión híbrida evita la descompresión de un extremo a otro innecesaria y la recompresión posterior (E-AC-3 → LPCM → AC-3). Además de AC-3, algunos reproductores de HD DVD transcodifican audio compatible con S / PDIF en audio DTS de 1,5 Mbit / s . Si bien S / PDIF puede transportar Dolby Digital Plus a tasas de bits más bajas, el estándar HD DVD especifica una tasa de bits para DD + que es demasiado alta para que pueda transmitir una interfaz S / PDIF.
Si el reproductor necesita decodificar el audio para un receptor que no sea HDMI 1.3, los resultados deberían ser predecibles. La especificación DD + define explícitamente los modos y la mecánica de mezcla descendente , por lo que cualquier campo de sonido de fuente (hasta 14.1) se puede reproducir de manera predecible para cualquier entorno de escucha (hasta un solo canal).
Ver también
Referencias
- ^ Especificaciones técnicas de Dolby Digital Plus en https://www.atsc.org/
- ^ "A / 52: 2018: Compresión de audio digital (AC-3) (E-AC-3) Estándar" . ATSC . Consultado el 19 de junio de 2019 .
- ^ "Programa de trabajo - Informe detallado de elementos de trabajo" . portal.etsi.org . Consultado el 19 de junio de 2019 .
- ^ "avcodec / eac3: agregar soporte para flujo dependiente · FFmpeg / FFmpeg @ ae92970" . GitHub . Consultado el 10 de junio de 2019 .