Transformada de coseno discreta modificada


La transformada de coseno discreta modificada ( MDCT ) es una transformada basada en la transformada de coseno discreta de tipo IV (DCT-IV), con la propiedad adicional de superponerse : está diseñada para realizarse en bloques consecutivos de un conjunto de datos más grande , donde posteriormente los bloques se superponen de modo que la última mitad de un bloque coincida con la primera mitad del siguiente bloque. Esta superposición, además de las cualidades de compactación de energía del DCT, hace que el MDCT sea especialmente atractivo para aplicaciones de compresión de señales, ya que ayuda a evitar artefactos derivados de los límites de los bloques. Como resultado de estas ventajas, la TCMD es la compresión con pérdida más utilizada .técnica en compresión de datos de audio . Se emplea en la mayoría de los estándares de codificación de audio modernos , incluidos MP3 , Dolby Digital (AC-3), Vorbis (Ogg), Windows Media Audio (WMA), ATRAC , Cook , Advanced Audio Coding (AAC), [1] Alta definición Codificación (HDC), [2] LDAC , Dolby AC-4 , [3] y MPEG-H 3D Audio , [4] así como estándares de codificación de voz como AAC-LD (LD-MDCT), [5] G.722.1 , [6] G.729.1 , [7] CELT , [8] y Opus . [9] [10]

La transformada de coseno discreta (DCT) fue propuesta por primera vez por Nasir Ahmed en 1972, [11] y demostrada por Ahmed con T. Natarajan y KR Rao en 1974. [12] La MDCT fue propuesta más tarde por John P. Princen, AW Johnson y Alan B. Bradley en la Universidad de Surrey en 1987, [13] siguiendo un trabajo anterior de Princen y Bradley (1986) [14] para desarrollar el principio subyacente de la MDCT de cancelación de alias en el dominio del tiempo (TDAC), que se describe a continuación. (También existe una transformada análoga, la MDST, basada en la transformada sinusoidal discreta, así como otras formas de TCMD, que se utilizan con poca frecuencia, basadas en diferentes tipos de combinaciones de DCT o DCT / DST).

En MP3, la MDCT no se aplica directamente a la señal de audio, sino a la salida de un banco de filtro en cuadratura polifásico de 32 bandas (PQF). La salida de esta MDCT se procesa posteriormente mediante una fórmula de reducción de alias para reducir el alias típico del banco de filtros PQF. Esta combinación de un banco de filtros con una MDCT se denomina banco de filtros híbrido o MDCT de subbanda . AAC, por otro lado, normalmente utiliza una TCMD pura; sólo la variante MPEG-4 AAC-SSR (rara vez utilizada) (de Sony ) utiliza un banco PQF de cuatro bandas seguido de un MDCT. Al igual que en MP3, ATRAC utiliza filtros de espejo en cuadratura apilados (QMF) seguidos de un MDCT.

Como transformación traslapada, la MDCT es un poco inusual en comparación con otras transformadas relacionadas con Fourier, ya que tiene la mitad de salidas que entradas (en lugar del mismo número). En particular, es una función lineal (donde R denota el conjunto de números reales ). Los 2 N números reales x 0 , ..., x 2 N -1 se transforman en los N números reales X 0 , ..., X N -1 según la fórmula:

(El coeficiente de normalización frente a esta transformada, aquí la unidad, es una convención arbitraria y difiere entre tratamientos. Solo el producto de las normalizaciones de la MDCT y la IMDCT, a continuación, está restringido).

La TCMD inversa se conoce como IMDCT . Debido a que hay diferentes números de entradas y salidas, a primera vista podría parecer que la MDCT no debería ser invertible. Sin embargo, la invertibilidad perfecta se logra agregando los IMDCT superpuestos de los bloques superpuestos subsiguientes, lo que hace que los errores se cancelen y se recuperen los datos originales; esta técnica se conoce como cancelación de alias en el dominio del tiempo ( TDAC ).


Funciones de la ventana MDCT:
azul: coseno, rojo: seno-coseno, verde: Kaiser-Bessel modificado