De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

Una transformada de coseno discreta ( DCT ) expresa una secuencia finita de puntos de datos en términos de una suma de funciones coseno que oscilan a diferentes frecuencias . El DCT, propuesto por primera vez por Nasir Ahmed en 1972, es una técnica de transformación ampliamente utilizada en el procesamiento de señales y la compresión de datos . Se utiliza en la mayoría de los medios digitales , incluidas imágenes digitales (como JPEG y HEIF , donde se pueden descartar pequeños componentes de alta frecuencia), video digital (como MPEG y H.26x), audio digital (como Dolby Digital , MP3 y AAC ), televisión digital (como SDTV , HDTV y VOD ), radio digital (como AAC + y DAB + ) y codificación de voz (como AAC-LD , Siren y Opus ). Los DCT también son importantes para muchas otras aplicaciones en ciencia e ingeniería , como el procesamiento de señales digitales , dispositivos de telecomunicaciones , reducción del ancho de banda de la red.uso y métodos espectrales para la solución numérica de ecuaciones diferenciales parciales .

El uso de funciones de coseno en lugar de seno es fundamental para la compresión, ya que resulta (como se describe a continuación) que se necesitan menos funciones de coseno para aproximar una señal típica , mientras que para las ecuaciones diferenciales los cosenos expresan una elección particular de condiciones de contorno . En particular, una DCT es una transformada relacionada con Fourier similar a la transformada discreta de Fourier (DFT), pero usando solo números reales . Las DCT generalmente están relacionadas con los coeficientes de la serie de Fourier de una secuencia extendida periódica y simétricamente, mientras que las DFT están relacionadas con los coeficientes de la serie de Fourier de una secuencia extendida periódicamente. Los DCT son equivalentes a los DFT de aproximadamente el doble de longitud, que funcionan con datos reales conpar simetría (dado que la transformada de Fourier de una función real y par es real y par), mientras que en algunas variantes los datos de entrada y / o salida se desplazan media muestra. Hay ocho variantes DCT estándar, de las cuales cuatro son comunes.

La variante más común de la transformada de coseno discreta es la DCT de tipo II, que a menudo se denomina simplemente "DCT". Este fue el DCT original propuesto por primera vez por Ahmed. Su inversa, la DCT de tipo III, se denomina en consecuencia a menudo simplemente "la DCT inversa" o "la IDCT". Dos transformadas relacionadas son la transformada sinusoidal discreta (DST), que es equivalente a una DFT de funciones reales e impares , y la transformada de coseno discreta modificada (MDCT), que se basa en una DCT de superposicióndatos. Los DCT multidimensionales (MD DCT) se desarrollan para ampliar el concepto de DCT en señales MD. Hay varios algoritmos para calcular MD DCT. Se ha desarrollado una variedad de algoritmos rápidos para reducir la complejidad computacional de implementar DCT. Uno de ellos es el entero DCT [1] (IntDCT), una aproximación entera del estándar DCT, [2] utilizado en varios estándares internacionales ISO / IEC e ITU-T . [2] [1]

La compresión DCT, también conocida como compresión de bloques, comprime los datos en conjuntos de bloques DCT discretos. [3] Los bloques DCT pueden tener varios tamaños, incluidos 8x8 píxeles para el DCT estándar y tamaños de DCT enteros variados entre 4x4 y 32x32 píxeles. [1] [4] El DCT tiene una fuerte propiedad de "compactación de energía", [5] [6] capaz de lograr una alta calidad con altos índices de compresión de datos . [7] [8] Sin embargo, pueden aparecer artefactos de compresión en bloques cuando se aplica una alta compresión DCT.

Historia [ editar ]

Nasir Ahmed , el inventor de la transformada de coseno discreta (DCT), que propuso por primera vez en 1972.

La transformada de coseno discreta (DCT) fue concebida por primera vez por Nasir Ahmed , mientras trabajaba en la Universidad Estatal de Kansas , y propuso el concepto a la National Science Foundation en 1972. Originalmente pretendía DCT para la compresión de imágenes . [9] [1] Ahmed desarrolló un algoritmo DCT práctico con su estudiante de doctorado T. Natarajan y su amigo KR Rao en la Universidad de Texas en Arlington en 1973, y encontraron que era el algoritmo más eficiente para la compresión de imágenes. [9] Presentaron sus resultados en un artículo de enero de 1974, titulado "Transformada discreta del coseno". [5] [6] [10]Describió lo que ahora se denomina DCT de tipo II (DCT-II), [11] así como la DCT inversa de tipo III (IDCT). [5] Fue una publicación de referencia, [12] [13] y ha sido citada como un avance fundamental en miles de trabajos desde su publicación. [14] El trabajo de investigación básica y los eventos que llevaron al desarrollo de la DCT se resumieron en una publicación posterior de Ahmed, "Cómo me topé con la transformada discreta del coseno". [9]

Desde su introducción en 1974, se han realizado importantes investigaciones sobre el DCT. [10] En 1977, Wen-Hsiung Chen publicó un artículo con C. Harrison Smith y Stanley C. Fralick presentando un algoritmo DCT rápido, [15] [10] y fundó Compression Labs para comercializar la tecnología DCT. [1] Otros desarrollos incluyen un artículo de 1978 de MJ Narasimha y AM Peterson, y un artículo de 1984 de BG Lee. [10] Estos artículos de investigación, junto con el artículo original de Ahmed de 1974 y el artículo de Chen de 1977, fueron citados por el Joint Photographic Experts Group como la base del algoritmo de compresión de imágenes con pérdida de JPEG en 1992. [10] [16]

En 1975, John A. Roese y Guner S. Robinson adaptaron el DCT para la codificación de video con compensación de movimiento entre cuadros . Experimentaron con el DCT y la transformada rápida de Fourier (FFT), desarrollando codificadores híbridos entre cuadros para ambos, y encontraron que el DCT es el más eficiente debido a su complejidad reducida, capaz de comprimir datos de imagen hasta 0,25 bits por píxel. para una escena de videoteléfono con una calidad de imagen comparable a la de un codificador intracuadro que requiere 2 bits por píxel. [17] [18] El DCT fue aplicado a la codificación de video por Wen-Hsiung Chen, [1] quien desarrolló un algoritmo DCT rápido con CH Smith y SC Fralick en 1977,[15] [10] y fundó Compression Labs para comercializar la tecnología DCT. [1] En 1979, Anil K. Jain y Jaswant R. Jain desarrollaron aún más la compresión de video DCT con compensación de movimiento, [19] [20] también llamada compensación de movimiento en bloque. [20] Esto llevó a Chen a desarrollar un algoritmo práctico de compresión de video, llamado DCT compensado por movimiento o codificación de escena adaptativa, en 1981. [20] DCT compensado por movimiento más tarde se convirtió en la técnica de codificación estándar para la compresión de video desde finales de la década de 1980 en adelante. [21] [22]

El DCT entero se utiliza en Codificación de vídeo avanzada (AVC), [23] [1] introducido en 2003, y Codificación de vídeo de alta eficiencia (HEVC), [4] [1] introducido en 2013. El DCT entero también se utiliza en el Formato de imagen de alta eficiencia (HEIF), que utiliza un subconjunto del formato de codificación de video HEVC para codificar imágenes fijas. [4]

Una variante de DCT, la transformada de coseno discreta modificada (MDCT), fue desarrollada por John P. Princen, AW Johnson y Alan B. Bradley en la Universidad de Surrey en 1987, [24] siguiendo un trabajo anterior de Princen y Bradley en 1986. [ 25] La MDCT se utiliza en la mayoría de los formatos de compresión de audio modernos , como Dolby Digital (AC-3), [26] [27] MP3 (que utiliza un algoritmo híbrido DCT- FFT ), [28] Codificación de audio avanzada (AAC) , [29] y Vorbis ( Ogg ). [30]

La transformada sinusoidal discreta (DST) se derivó de la DCT, reemplazando la condición de Neumann en x = 0 con una condición de Dirichlet . [31] El DST fue descrito en el documento DCT de 1974 por Ahmed, Natarajan y Rao. [5] Una DST de tipo I (DST-I) fue descrita más tarde por Anil K. Jain en 1976, y HB Kekra y JK Solanka describieron una DST de tipo II (DST-II) en 1978. [32]

Nasir Ahmed también desarrolló un algoritmo DCT sin pérdidas con Giridhar Mandyam y Neeraj Magotra en la Universidad de Nuevo México en 1995. Esto permite utilizar la técnica DCT para la compresión sin pérdidas de imágenes. Es una modificación del algoritmo DCT original e incorpora elementos de DCT inversa y modulación delta . Es un algoritmo de compresión sin pérdidas más eficaz que la codificación de entropía . [33] La DCT sin pérdidas también se conoce como LDCT. [34]

La codificación wavelet , el uso de transformadas wavelet en la compresión de imágenes, comenzó después del desarrollo de la codificación DCT. [35] La introducción de la DCT condujo al desarrollo de la codificación de ondículas, una variante de la codificación de DCT que utiliza ondículas en lugar del algoritmo basado en bloques de DCT. [35] discreta transformada wavelet (DWT) de codificación se utiliza en el JPEG 2000 estándar, [36] desarrollado a partir de 1997 a 2000, [37] y en la BBC ‘s Dirac formato de compresión de vídeo lanzado en 2008. Wavelet de codificación es más en procesadores intensivo, y aún tiene que ver un despliegue generalizado en el uso de cara al consumidor. [38]

Aplicaciones [ editar ]

La DCT es la técnica de transformación más utilizada en el procesamiento de señales , [39] y, con mucho, la transformación lineal más utilizada en la compresión de datos . [40] La compresión de datos DCT ha sido fundamental para la Revolución Digital . [8] [41] [42] Los medios digitales sin comprimir, así como la compresión sin pérdidas, tenían requisitos de ancho de banda y memoria muy altos , que se redujeron significativamente mediante la técnica de compresión con pérdida DCT altamente eficiente , [7] [8] capaz de lograrrelaciones de compresión de datos de 8: 1 a 14: 1 para calidad cercana a un estudio, [7] hasta 100: 1 para contenido de calidad aceptable. [8] La amplia adopción de los estándares de compresión DCT conducido a la aparición y proliferación de tecnologías de medios digitales, tales como imágenes digitales , fotos digitales , [43] [44] vídeo digital , [21] [42] streaming media , [45] televisión digital , transmisión de televisión , video a pedido (VOD), [8] cine digital , [26] video de alta definición (video HD) yTelevisión de alta definición (HDTV). [7] [46]

El DCT, y en particular el DCT-II, se utiliza a menudo en el procesamiento de señales e imágenes, especialmente para la compresión con pérdida, porque tiene una fuerte propiedad de "compactación de energía": [5] [6] en aplicaciones típicas, la mayor parte de la señal la información tiende a concentrarse en unos pocos componentes de baja frecuencia del DCT. Para procesos de Markov fuertemente correlacionados , la DCT puede acercarse a la eficiencia de compactación de la transformada de Karhunen-Loève (que es óptima en el sentido de la descorrelación). Como se explica a continuación, esto se deriva de las condiciones de contorno implícitas en las funciones coseno.

Las DCT también se emplean ampliamente en la resolución de ecuaciones diferenciales parciales por métodos espectrales , donde las diferentes variantes de la DCT corresponden a condiciones de frontera pares / impares ligeramente diferentes en los dos extremos de la matriz.

Las DCT también están estrechamente relacionadas con los polinomios de Chebyshev , y los algoritmos DCT rápidos (a continuación) se utilizan en la aproximación de Chebyshev de funciones arbitrarias mediante series de polinomios de Chebyshev, por ejemplo, en cuadratura de Clenshaw-Curtis .

El DCT es el estándar de codificación para dispositivos de telecomunicaciones multimedia . Se usa ampliamente para reducir la tasa de bits y reducir el uso del ancho de banda de la red . [1] La compresión DCT reduce significativamente la cantidad de memoria y el ancho de banda necesarios para las señales digitales . [8]

Aplicaciones generales [ editar ]

El DCT se usa ampliamente en muchas aplicaciones, que incluyen las siguientes.

  • Procesamiento de audio de la señal - de codificación de audio , la compresión de datos de audio (pérdida y sin pérdida), [47] de sonido envolvente , [26] de eco acústico y cancelación de realimentación , fonema reconocimiento, la cancelación de alias en dominio de tiempo (TDAC) [48]
    • Audio digital [1]
    • Radio digital - Difusión de audio digital (DAB +), [49] Radio HD [50]
    • Procesamiento de voz - codificación de voz [51] [52] de reconocimiento de voz , la detección de actividad de voz (VAD) [48]
    • Telefonía digital : voz sobre IP (VoIP), [51] telefonía móvil , videotelefonía , [52] teleconferencia , videoconferencia [1]
  • Biometrics - huella digital de orientación, sistemas de reconocimiento facial , biométrico de marcas de agua , marcas de agua biométrica basada en huellas dactilares, huella de la palma de identificación / reconocimiento [48]
    • Detección de rostros : reconocimiento facial [48]
  • Ordenadores e Internet : World Wide Web , redes sociales , [43] [44] Vídeo en Internet [53]
    • Reducción del uso del ancho de banda de la red [1]
  • Electrónica de consumo [48] - sistemas multimedia , [1] dispositivos de telecomunicaciones multimedia , [1] dispositivos de consumo [53]
  • Criptografía : cifrado , esteganografía , protección de derechos de autor [48]
  • Compresión de datos : codificación de transformación , compresión con pérdida , compresión sin pérdida [47]
    • Operaciones de codificación : cuantificación , ponderación perceptual, codificación de entropía , codificación de variables [1]
  • Medios digitales [45] - distribución digital [54]
    • Medios de transmisión en continuo [45] : transmisión de audio , transmisión de video , transmisión de televisión , video a pedido (VOD) [8]
  • Detección de falsificaciones [48]
  • Electromagnetismo geofísico transitorio (EM transitorio) [48]
  • Imágenes : identificación del artista , [48] medida de enfoque y borrosidad , [48] extracción de características [48]
    • Formato de color : formateo de luminancia y diferencias de color, formatos de color (como YUV444 y YUV411 ), operaciones de decodificación como la operación inversa entre formatos de color de visualización ( YIQ , YUV , RGB ) [1]
    • La imagen digital - imágenes digitales , cámaras digitales , fotografía digital , [43] [44] High Dynamic Range (HDR imagen) [55]
    • Compresión de imagen [48] [56] - formatos de archivo de imagen , [57] compresión de imagen de vista múltiple , transmisión de imagen progresiva [48]
    • El procesamiento de imágenes - procesamiento digital de imágenes , [1] de análisis de imagen , basado en el contenido de recuperación de imágenes , la detección de la esquina , por bloques direccional representación de la imagen , detección de bordes , mejora de la imagen , la fusión de imágenes , la segmentación de imágenes , interpolación , la imagen de ruido de estimación de nivel, reflejo, rotación, perfil de distorsión apenas perceptible (JND), efectos de enmascaramiento espacio-temporal , imágenes foveadas [48]
    • Evaluación de la calidad de la imagen : métrica de degradación de la calidad basada en DCT (DCT QM) [48]
    • Reconstrucción de imágenes : inspección automática de texturas direccionales , restauración de imágenes , inpainting , recuperación visual [48]
  • Tecnología Medica
    • Electrocardiografía (ECG) - vectorcardiografía (VCG) [48]
    • Imágenes médicas: compresión de imágenes médicas, fusión de imágenes, marcas de agua, clasificación de compresión de tumores cerebrales [48]
  • Reconocimiento de patrones [48]
  • Extracción de región de interés (ROI) [48]
  • El procesamiento de señales - procesamiento de señales digitales , procesadores digitales de señal (DSP), DSP software , multiplexación , de señalización , señales de control, de analógico a digital de conversión (ADC), [1] a la compresión de muestreo , DCT pirámide de ocultación de errores , disminución de la resolución , muestreo ascendente , de la señal estimación de la relación entre ruido y ruido (SNR), transmux , filtro de Wiener [48]
    • Análisis de características complejas del cepstrum [48]
    • Filtrado DCT [48]
  • Vigilancia [48]
  • Cámara de caja negra para vehículos [48]
  • Video
    • El cine digital [56] - cinematografía digital , cámaras de cine digitales , edición de vídeo , edición de películas , [58] [59] Dolby Digital de audio [1] [26]
    • La televisión digital (DTV) [7] - radiodifusión de televisión digital , [56] televisión de definición estándar (SDTV), TV de alta definición (HDTV), [7] [46] HDTV codificador / decodificador de virutas , HDTV de ultra (UHDTV) [ 1]
    • Vídeo digital [21] [42] - disco versátil digital (DVD), [56] vídeo de alta definición (HD) [7] [46]
    • Codificación de vídeo - compresión de vídeo , [1] las normas de codificación de vídeo , [48] de estimación de movimiento , compensación de movimiento , entre tramas de predicción, los vectores de movimiento , [1] de codificación de vídeo 3D , la distorsión local de la probabilidad de detección modelo (LDDP), detección de objetos móviles , Codificación de video de vista múltiple (MVC) [48]
    • Procesamiento de video : análisis de movimiento , análisis de movimiento 3D-DCT, análisis de contenido de video , extracción de datos , [48] navegación de video , [60] producción de video profesional [61]
  • Marca de agua : marca de agua digital , marca de agua de imagen , marca de agua de video, marca de agua de video 3D , ocultación de datos reversible , detección de marca de agua [48]
  • Tecnología inalámbrica
    • Dispositivos móviles [53] : teléfonos móviles , teléfonos inteligentes , [52] videoteléfonos [1]
    • Radiofrecuencia (RF) de tecnología - ingeniería de RF , de abertura arrays , [48] de formación de haces , digitales circuitos aritméticos , direccional de detección , el espacio de formación de imágenes [62]
  • Red Wireless sensor (WSN) - inalámbrico sensor acústico redes [48]

Estándares de medios visuales DCT [ editar ]

El DCT-II, también conocido simplemente como DCT, es la técnica de compresión de imágenes más importante . [ cita requerida ] Se utiliza en estándares de compresión de imágenes como JPEG y estándares de compresión de video como H.26x , MJPEG , MPEG , DV , Theora y Daala . Allí, se calcula el DCT-II bidimensional de bloques y los resultados se cuantifican y codifican entropía . En este caso,es típicamente 8 y la fórmula DCT-II se aplica a cada fila y columna del bloque. El resultado es una matriz de coeficientes de transformación de 8 × 8 en la que el elemento (arriba a la izquierda) es el componente de CC (frecuencia cero) y las entradas con valores de índice verticales y horizontales crecientes representan frecuencias espaciales verticales y horizontales más altas.

La codificación de vídeo avanzada (AVC) utiliza la DCT entera [23] [1] (IntDCT), una aproximación entera de la DCT. [2] [1] Utiliza bloques DCT enteros de 4x4 y 8x8. La codificación de video de alta eficiencia (HEVC) y el formato de imagen de alta eficiencia (HEIF) utilizan tamaños de bloques de DCT enteros variados entre 4x4 y 32x32 píxeles . [4] [1] A partir de 2019 , AVC es, con mucho, el formato más utilizado para la grabación, compresión y distribución de contenido de vídeo, utilizado por el 91% de los desarrolladores de vídeo, seguido de HEVC, que utiliza el 43% de los desarrolladores. [54]

Formatos de imagen [ editar ]

Formatos de video [ editar ]

Estándares de audio MDCT [ editar ]

Audio general [ editar ]

Codificación de voz [ editar ]

MD DCT [ editar ]

Las DCT multidimensionales (MD DCT) tienen varias aplicaciones, principalmente las DCT 3-D como la DCT-II 3-D, que tiene varias aplicaciones nuevas como los sistemas de codificación de imágenes hiperespectrales, [92] codificación DCT 3D de longitud temporal variable, [93 ] algoritmos de codificación de video , [94] codificación de video adaptativa [95] y compresión 3-D. [96] Debido a la mejora del hardware, el software y la introducción de varios algoritmos rápidos, la necesidad de utilizar MD DCT está aumentando rápidamente. DCT-IV ha ganado popularidad por sus aplicaciones en la implementación rápida de bancos de filtrado polifásicos de valor real, [97] transformada ortogonal traslapada [98] [99]y bases de ondículas moduladas por coseno. [100]

Procesamiento de señales digitales [ editar ]

DCT juega un papel muy importante en el procesamiento de señales digitales . Al usar el DCT, las señales se pueden comprimir. La DCT se puede utilizar en electrocardiografía para la compresión de señales de ECG. DCT2 proporciona una mejor relación de compresión que DCT.

El DCT está ampliamente implementado en procesadores de señales digitales (DSP), así como en software de procesamiento de señales digitales. Muchas empresas han desarrollado DSP basados ​​en tecnología DCT. Los DCT se utilizan ampliamente para aplicaciones como codificación , decodificación, video, audio, multiplexación , señales de control, señalización y conversión de analógico a digital . Los DCT también se utilizan comúnmente para chips codificadores / decodificadores de televisión de alta definición (HDTV) . [1]

Artefactos de compresión [ editar ]

Un problema común con la compresión DCT en medios digitales son los artefactos de compresión en bloques , [101] causados ​​por bloques DCT. [3] El algoritmo DCT puede causar artefactos basados ​​en bloques cuando se aplica una gran compresión. Debido a que el DCT se utiliza en la mayoría de los estándares de codificación de imágenes y video digitales (como los formatos JPEG , H.26x y MPEG ), los artefactos de compresión en bloques basados ​​en DCT están muy extendidos en los medios digitales.. En un algoritmo DCT, una imagen (o fotograma en una secuencia de imágenes) se divide en bloques cuadrados que se procesan independientemente entre sí, luego se toma el DCT de estos bloques y se cuantifican los coeficientes DCT resultantes . Este proceso puede provocar artefactos de bloqueo, principalmente en ratios de compresión de datos elevados . [101] Esto también puede causar el efecto de " ruido de mosquito ", que se encuentra comúnmente en los videos digitales (como los formatos MPEG). [102]

Los bloques DCT se utilizan a menudo en glitch art . [3] La artista Rosa Menkman hace uso de artefactos de compresión basados ​​en DCT en su arte glitch, [103] particularmente los bloques DCT que se encuentran en la mayoría de formatos de medios digitales como imágenes digitales JPEG y audio digital MP3 . [3] Otro ejemplo es Jpegs de German fotógrafo Thomas Ruff , que utiliza intencionales JPEG artefactos como la base del estilo de la imagen. [104] [105]

Descripción general informal [ editar ]

Como cualquier transformada relacionada con Fourier, las transformadas de coseno discretas (DCT) expresan una función o una señal en términos de una suma de sinusoides con diferentes frecuencias y amplitudes . Al igual que la transformada discreta de Fourier (DFT), una DCT opera en una función en un número finito de puntos de datos discretos. La distinción obvia entre una DCT y una DFT es que la primera usa solo funciones de coseno, mientras que la última usa tanto cosenos como senos (en forma de exponenciales complejas ). Sin embargo, esta diferencia visible es simplemente una consecuencia de una distinción más profunda: una DCT implica diferentes condiciones de frontera de la DFT u otras transformadas relacionadas.

Se puede pensar que las transformadas relacionadas con Fourier que operan en una función sobre un dominio finito , como la DFT o DCT o una serie de Fourier , definen implícitamente una extensión de esa función fuera del dominio. Es decir, una vez que escribe una función como una suma de sinusoides, puede evaluar esa suma en cualquiera , incluso cuando no se especificó el original . La DFT, como la serie de Fourier, implica una extensión periódica de la función original. Una DCT, como una transformada de coseno , implica una extensión uniforme de la función original.

Ilustración de las extensiones pares / impares implícitas de los datos de entrada de DCT, para N = 11 puntos de datos (puntos rojos), para los cuatro tipos más comunes de DCT (tipos I-IV).

Sin embargo, debido a que las DCT operan en secuencias finitas y discretas , surgen dos problemas que no se aplican a la transformada de coseno continua. En primer lugar, uno tiene que especificar si la función es par o impar en ambos de los límites izquierdo y derecho del dominio (es decir, la min- n y max- n límites en las definiciones de abajo, respectivamente). En segundo lugar, hay que especificar en qué punto la función es par o impar. En particular, considere una secuencia abcd de cuatro puntos de datos igualmente espaciados y digamos que especificamos un límite izquierdo par . Hay dos posibilidades sensatas: o los datos son incluso sobre la muestra a, En cuyo caso la extensión incluso se dcbabcd , o los datos son aún sobre el punto a mitad de camino entre una y el punto anterior, en cuyo caso la extensión incluso es dcbaabcd ( una se repite).

Estas opciones conducen a todas las variaciones estándar de DCT y también a transformaciones sinusoidales discretas (DST). Cada límite puede ser par o impar (2 opciones por límite) y puede ser simétrico con respecto a un punto de datos o al punto intermedio entre dos puntos de datos (2 opciones por límite), para un total de 2 × 2 × 2 × 2 = 16 posibilidades. La mitad de estas posibilidades, aquellas en las que el límite izquierdo es par, corresponden a los 8 tipos de DCT; la otra mitad son los 8 tipos de DST.

Estas diferentes condiciones de contorno afectan en gran medida las aplicaciones de la transformada y conducen a propiedades especialmente útiles para los diversos tipos de DCT. Más directamente, cuando se utilizan transformadas relacionadas con Fourier para resolver ecuaciones diferenciales parciales mediante métodos espectrales , las condiciones de contorno se especifican directamente como parte del problema que se está resolviendo. O, para la MDCT (basada en la DCT de tipo IV), las condiciones de contorno están íntimamente involucradas en la propiedad crítica de la MDCT de la cancelación de alias en el dominio del tiempo. De una manera más sutil, las condiciones de contorno son responsables de las propiedades de "compactación de energía" que hacen que los DCT sean útiles para la compresión de imagen y audio, porque los límites afectan la tasa de convergencia de cualquier serie tipo Fourier.

En particular, es bien sabido que cualquier discontinuidad en una función reduce la tasa de convergencia de la serie de Fourier, por lo que se necesitan más sinusoides para representar la función con una precisión dada. El mismo principio gobierna la utilidad de la DFT y otras transformadas para la compresión de señales; cuanto más suave es una función, se requieren menos términos en su DFT o DCT para representarla con precisión y más se puede comprimir. (Aquí, pensamos en la DFT o DCT como aproximaciones para la serie de Fourier o la serie de cosenode una función, respectivamente, para hablar de su "suavidad".) Sin embargo, la periodicidad implícita de la DFT significa que las discontinuidades generalmente ocurren en los límites: es poco probable que cualquier segmento aleatorio de una señal tenga el mismo valor en ambos límites izquierdo y derecho. (Surge un problema similar para el DST, en el que la condición de límite izquierdo impar implica una discontinuidad para cualquier función que no sea cero en ese límite). En contraste, un DCT donde ambos límites son pares siempre produce una extensión continua en los límites (aunque la pendientees generalmente discontinuo). Esta es la razón por la que las DCT, y en particular las DCT de los tipos I, II, V y VI (los tipos que tienen dos límites pares) generalmente funcionan mejor para la compresión de señales que las DFT y DST. En la práctica, normalmente se prefiere un DCT de tipo II para tales aplicaciones, en parte por razones de conveniencia computacional.

Definición formal [ editar ]

Formalmente, la transformada de coseno discreta es una lineal , invertible función (donde denota el conjunto de números reales ), o equivalentemente un invertible N × N matriz cuadrada . Hay varias variantes de la DCT con definiciones ligeramente modificadas. Los N números reales x 0 , ..., x N −1 se transforman en los N números reales X 0 , ..., X N −1 de acuerdo con una de las fórmulas:

DCT-I [ editar ]

Algunos autores multiplican aún más los términos x 0 y x N −1 por 2 y, en consecuencia, multiplican los términos X 0 y X N −1 por 1 / 2 . Esto hace que la matriz DCT-I sea ortogonal , si se multiplica más por un factor de escala general de , pero rompe la correspondencia directa con una DFT real-par.

El DCT-I es exactamente equivalente (hasta un factor de escala general de 2), a una DFT de números reales con simetría uniforme. Por ejemplo, una DCT-I de N  = 5 números reales abcde es exactamente equivalente a una DFT de ocho números reales abcdedcb (simetría par), dividida por dos. (Por el contrario, los tipos II-IV de DCT implican un desplazamiento de media muestra en la DFT equivalente).

Sin embargo, tenga en cuenta que la DCT-I no está definida para N menor que 2. (Todos los demás tipos de DCT se definen para cualquier N positivo ).

Por tanto, la DCT-I corresponde a las condiciones de contorno: x n es par alrededor de n = 0 e incluso alrededor de n = N −1; de manera similar para X k .

DCT-II [ editar ]

El DCT-II es probablemente el formulario más utilizado y, a menudo, se lo denomina simplemente "el DCT". [5] [6]

Esta transformación es exactamente equivalente (hasta un factor de escala general de 2) a una DFT de entradas reales de simetría par donde los elementos de índice par son cero. Es decir, es la mitad de la DFT de las entradas , en donde , para , y para . La transformación DCT II también es posible usando una señal 2N seguida de una multiplicación por medio cambio. Esto lo demuestra Makhoul .

Algunos autores multiplican aún más el término X 0 por 1 / 2 y multiplican la matriz resultante por un factor de escala general de (ver más abajo el cambio correspondiente en DCT-III). Esto hace que la matriz DCT-II sea ortogonal , pero rompe la correspondencia directa con una DFT real-uniforme de entrada medio desplazada. Esta es la normalización utilizada por Matlab , por ejemplo. [106] En muchas aplicaciones, como JPEG , la escala es arbitraria porque los factores de escala se pueden combinar con un paso de cálculo posterior (por ejemplo, el paso de cuantificación en JPEG [107]), y se puede elegir una escala que permita calcular la DCT con menos multiplicaciones. [108] [109]

El DCT-II implica las condiciones de contorno: x n es par alrededor de n = −1/2 e incluso alrededor de n = N  - 1/2; X k es aún alrededor de k = 0 e impar alrededor de k = N .

DCT-III [ editar ]

Debido a que es la inversa de DCT-II (hasta un factor de escala, ver más abajo), esta forma a veces se denomina simplemente "la DCT inversa" ("IDCT"). [6]

Algunos autores dividen el término x 0 por 2 en lugar de por 2 (lo que da como resultado un término x 0 / 2 general ) y multiplican la matriz resultante por un factor de escala general de (consulte más arriba el cambio correspondiente en DCT-II), de modo que DCT-II y DCT-III son transposiciones entre sí. Esto hace que la matriz DCT-III sea ortogonal , pero rompe la correspondencia directa con una DFT real-uniforme de salida medio desplazada.

El DCT-III implica las condiciones de contorno: x n es par alrededor de n = 0 e impar alrededor de n = N ; X k es par alrededor de k = −1/2 e incluso alrededor de k = N −1/2.

DCT-IV [ editar ]

La matriz DCT-IV se vuelve ortogonal (y por lo tanto, siendo claramente simétrica, su propia inversa) si se multiplica por un factor de escala general de .

Una variante del DCT-IV, donde los datos de diferentes transformadas se superponen , se llama transformada de coseno discreta modificada (MDCT). [110]

El DCT-IV implica las condiciones de contorno: x n es par alrededor de n = −1/2 e impar alrededor de n = N  - 1/2; de manera similar para X k .

DCT V-VIII [ editar ]

Los DCT de los tipos I-IV tratan ambos límites de manera coherente con respecto al punto de simetría: son pares / impares alrededor de un punto de datos para ambos límites o a medio camino entre dos puntos de datos para ambos límites. Por el contrario, las DCT de los tipos V-VIII implican límites que son pares / impares alrededor de un punto de datos para un límite y a medio camino entre dos puntos de datos para el otro límite.

En otras palabras, los tipos I-IV de DCT son equivalentes a DFT pares reales de orden par (independientemente de si N es par o impar), ya que el DFT correspondiente es de longitud 2 ( N  - 1) (para DCT-I) o 4 N (para DCT-II / III) u 8 N (para DCT-IV). Los cuatro tipos adicionales de transformada de coseno discreta [111] corresponden esencialmente a DFT reales-pares de orden lógicamente impar, que tienen factores de N  ± & nbps; ½ en los denominadores de los argumentos del coseno.

Sin embargo, estas variantes parecen raramente utilizarse en la práctica. Una razón, quizás, es que los algoritmos FFT para DFT de longitud impar son generalmente más complicados que los algoritmos FFT para DFT de longitud par (por ejemplo, los algoritmos radix-2 más simples son solo para longitudes pares), y esta mayor complejidad se traslada a las DCT como se describe abajo.

(La matriz trivial real-par, una DFT de longitud uno (longitud impar) de un solo número a , corresponde a una DCT-V de longitud N = 1).

Transformaciones inversas [ editar ]

Usando las convenciones de normalización anteriores, el inverso de DCT-I es DCT-I multiplicado por 2 / ( N  - 1). La inversa de DCT-IV es DCT-IV multiplica por 2 / N . La inversa de DCT-II es DCT-III multiplicada por 2 / N y viceversa. [6]

Al igual que para la DFT , el factor de normalización frente a estas definiciones de transformación es simplemente una convención y difiere entre tratamientos. Por ejemplo, algunos autores multiplican las transformadas por para que la inversa no requiera ningún factor multiplicativo adicional. Combinado con factores apropiados de 2 (ver arriba), esto puede usarse para hacer que la matriz de transformación sea ortogonal .

DCT multidimensionales [ editar ]

Las variantes multidimensionales de los diversos tipos de DCT se derivan directamente de las definiciones unidimensionales: son simplemente un producto separable (equivalentemente, una composición) de DCT a lo largo de cada dimensión.

MD DCT-II [ editar ]

Por ejemplo, un DCT-II bidimensional de una imagen o una matriz es simplemente el DCT-II unidimensional, desde arriba, realizado a lo largo de las filas y luego a lo largo de las columnas (o viceversa). Es decir, el 2D DCT-II viene dado por la fórmula (omitiendo la normalización y otros factores de escala, como arriba):

La inversa de una DCT multidimensional es solo un producto separable de las inversas de las DCT unidimensionales correspondientes (ver arriba), por ejemplo, las inversas unidimensionales aplicadas a lo largo de una dimensión a la vez en un algoritmo fila-columna.

El 3-D DCT-II es solo la extensión de 2-D DCT-II en un espacio tridimensional y matemáticamente se puede calcular mediante la fórmula

La inversa de 3-D DCT-II es 3-D DCT-III y se puede calcular a partir de la fórmula dada por

Técnicamente, calcular una DCT de dos, tres (o múltiples) dimensiones mediante secuencias de DCT unidimensionales a lo largo de cada dimensión se conoce como algoritmo de fila-columna . Al igual que con los algoritmos FFT multidimensionales, sin embargo, existen otros métodos para calcular lo mismo mientras se realizan los cálculos en un orden diferente (es decir, intercalar / combinar los algoritmos para las diferentes dimensiones). Debido al rápido crecimiento de las aplicaciones basadas en 3-D DCT, se desarrollan varios algoritmos rápidos para el cálculo de 3-D DCT-II. Los algoritmos Vector-Radix se aplican para calcular MD DCT para reducir la complejidad computacional y aumentar la velocidad computacional. Para calcular 3-D DCT-II de manera eficiente, se desarrolló un algoritmo rápido, el algoritmo de Decimación de Radix de Vector en Frecuencia (VR DIF).

3D DCT-II VR DIF [ editar ]

Para aplicar el algoritmo VR DIF, los datos de entrada deben formularse y reorganizarse de la siguiente manera. [112] [113] Se supone que el tamaño de transformación N × N × N es 2.

Las cuatro etapas básicas de la computación 3D DCT-II usando el algoritmo VR DIF.
dónde

La figura adyacente muestra las cuatro etapas que están involucradas en el cálculo de DCT-II 3D usando el algoritmo VR DIF. La primera etapa es el reordenamiento 3-D utilizando el mapeo de índices ilustrado por las ecuaciones anteriores. La segunda etapa es el cálculo de la mariposa. Cada mariposa calcula ocho puntos juntos como se muestra en la figura justo debajo, donde .

El 3-D DCT-II original ahora se puede escribir como

dónde

Si se consideran las partes pares e impares de y y, la fórmula general para el cálculo de la DCT-II 3-D se puede expresar como

La etapa de mariposa única del algoritmo VR DIF.

dónde

Complejidad aritmética [ editar ]

Todo el cálculo de la DCT en 3D necesita etapas, y cada etapa involucra mariposas. Toda la DCT 3-D requiere que se calculen las mariposas. Cada mariposa requiere siete multiplicaciones reales (incluidas las triviales) y 24 sumas reales (incluidas las triviales). Por lo tanto, el número total de multiplicaciones reales necesarias para esta etapa es , y el número total de adiciones reales, es decir, incluidas las adiciones posteriores (adiciones recursivas) que se pueden calcular directamente después de la etapa de mariposa o después de la etapa de inversión de bits, vienen dadas por [113] .

El método convencional para calcular MD-DCT-II está utilizando un enfoque Fila-Columna-Marco (RCF) que es computacionalmente complejo y menos productivo en las plataformas de hardware más avanzadas y recientes. El número de multiplicaciones necesarias para calcular el algoritmo VR DIF en comparación con el algoritmo RCF es bastante reducido. El número de multiplicaciones y adiciones involucradas en el enfoque RCF están dados por y respectivamente. En la Tabla 1, se puede ver que el número total

de multiplicaciones asociadas con el algoritmo 3D DCT VR es menor que el asociado con el enfoque RCF en más del 40%. Además, el enfoque RCF implica la transposición de matrices y más indexación e intercambio de datos que el nuevo algoritmo de realidad virtual. Esto hace que el algoritmo 3D DCT VR sea más eficiente y más adecuado para aplicaciones 3D que involucran el 3D DCT-II, como compresión de video y otras aplicaciones de procesamiento de imágenes 3D. La consideración principal al elegir un algoritmo rápido es evitar complejidades computacionales y estructurales. A medida que avanza la tecnología de las computadoras y los DSP, el tiempo de ejecución de las operaciones aritméticas (multiplicaciones y sumas) se está volviendo muy rápido y la estructura computacional regular se convierte en el factor más importante. [114]Por lo tanto, aunque el algoritmo 3-D VR propuesto anteriormente no alcanza el límite inferior teórico en el número de multiplicaciones, [115] tiene una estructura computacional más simple en comparación con otros algoritmos 3-D DCT. Se puede implementar en el lugar usando una sola mariposa y posee las propiedades del algoritmo Cooley-Tukey FFT en 3-D. Por lo tanto, 3-D VR presenta una buena opción para reducir las operaciones aritméticas en el cálculo del 3-D DCT-II mientras se mantiene la estructura simple que caracteriza a los algoritmos Cooley-Tukey FFT estilo mariposa .

Frecuencias DCT bidimensionales de JPEG DCT

La imagen de la derecha muestra una combinación de frecuencias horizontales y verticales para un DCT bidimensional de 8 x 8 ( ). Cada paso de izquierda a derecha y de arriba a abajo es un aumento de frecuencia de 1/2 ciclo. Por ejemplo, mover uno a la derecha desde el cuadrado superior izquierdo produce un aumento de medio ciclo en la frecuencia horizontal. Otro movimiento a la derecha produce dos semiciclos. Un movimiento hacia abajo produce dos medios ciclos horizontalmente y un medio ciclo verticalmente. Los datos de origen (8x8) se transforman en una combinación lineal de estos 64 cuadrados de frecuencia.

MD-DCT-IV [ editar ]

El MD DCT-IV es solo una extensión de 1-D DCT-IV en el dominio dimensional M. El DCT-IV 2-D de una matriz o una imagen viene dado por

Podemos calcular el MD DCT-IV usando el método de fila-columna regular o podemos usar el método de transformada polinomial [116] para el cálculo rápido y eficiente. La idea principal de este algoritmo es utilizar la Transformada Polinomial para convertir la DCT multidimensional en una serie de DCT 1-D directamente. MD DCT-IV también tiene varias aplicaciones en varios campos.

Computación [ editar ]

Aunque la aplicación directa de estas fórmulas requeriría operaciones O ( N 2 ), es posible calcular lo mismo con solo complejidad O ( N log N ) factorizando el cálculo de manera similar a la transformada rápida de Fourier (FFT). También se pueden calcular DCT a través de FFT combinadas con pasos de procesamiento previo y posterior de O ( N ). En general, los métodos O ( N log N ) para calcular DCT se conocen como algoritmos de transformada rápida de coseno (FCT).

Los algoritmos más eficientes, en principio, suelen ser aquellos que se especializan directamente para el DCT, en lugar de utilizar una FFT ordinaria más operaciones adicionales O ( N ) (consulte a continuación una excepción). Sin embargo, incluso los algoritmos DCT "especializados" (incluidos todos los que logran los recuentos aritméticos más bajos conocidos, al menos para potencias de dos tamaños) suelen estar estrechamente relacionados con los algoritmos FFT, ya que los DCT son esencialmente DFT de datos pares reales, se puede diseñar un algoritmo DCT rápido tomando una FFT y eliminando las operaciones redundantes debido a esta simetría. Esto incluso se puede hacer de forma automática (Frigo & Johnson, 2005). Los algoritmos basados ​​en el algoritmo Cooley-Tukey FFT son los más comunes, pero también es aplicable cualquier otro algoritmo FFT. Por ejemplo, elEl algoritmo FFT de Winograd conduce a algoritmos de multiplicación mínima para el DFT, aunque generalmente a costa de más adiciones, y Feig y Winograd (1992) propusieron un algoritmo similar para el DCT. Debido a que los algoritmos para DFT, DCT y transformaciones similares están todos tan estrechamente relacionados, cualquier mejora en los algoritmos para una transformada conducirá teóricamente a ganancias inmediatas también para las otras transformadas ( Duhamel y Vetterli 1990 ).

Si bien los algoritmos DCT que emplean una FFT no modificada a menudo tienen una sobrecarga teórica en comparación con los mejores algoritmos DCT especializados, los primeros también tienen una clara ventaja: los programas FFT altamente optimizados están ampliamente disponibles. Por tanto, en la práctica, a menudo es más fácil obtener un alto rendimiento para longitudes generales N con algoritmos basados ​​en FFT. (El rendimiento en hardware moderno no suele estar dominado simplemente por recuentos aritméticos, y la optimización requiere un esfuerzo de ingeniería sustancial). Los algoritmos DCT especializados, por otro lado, ven un uso generalizado para transformaciones de tamaños pequeños y fijos, como el DCT-II utilizado en JPEGcompresión, o las pequeñas DCT (o MDCT) que se utilizan normalmente en la compresión de audio. (El tamaño del código reducido también puede ser una razón para utilizar un DCT especializado para aplicaciones de dispositivos integrados).

De hecho, incluso los algoritmos DCT que utilizan una FFT ordinaria a veces equivalen a eliminar las operaciones redundantes de una FFT más grande de datos simétricos reales, e incluso pueden ser óptimos desde la perspectiva de los recuentos aritméticos. Por ejemplo, una DCT de tipo II es equivalente a una DFT de tamaño con simetría real-par cuyos elementos de índice par son cero. Uno de los métodos más comunes para calcular esto a través de una FFT (por ejemplo, el método utilizado en FFTPACK y FFTW ) fue descrito por Narasimha & Peterson (1978) y Makhoul (1980), y este método en retrospectiva puede verse como un paso de un algoritmo Cooley-Tukey de diezmado en el tiempo de radix-4 aplicado a la DFT "lógica" real-par correspondiente a la DCT II. (El paso de radix-4 reduce el tamaño de DFT a cuatro tamaños : DFT de datos reales, dos de los cuales son cero y dos son iguales entre sí por la simetría par, lo que da un tamaño único: FFT de datos reales más mariposas. .) Debido a que los elementos de índice par son cero, este paso de base 4 es exactamente igual que un paso de base dividida; si la FFT de datos reales de tamaño subsiguiente también se realiza mediante un algoritmo de base dividida de datos reales (como en Sorensen et al. 1987 ), entonces el algoritmo resultante realmente coincide con lo que fue durante mucho tiempo el recuento aritmético más bajo publicado para la potencia de dos DCT-II ( operaciones aritméticas reales [a] ). Una reducción reciente en el recuento de operaciones también utiliza una FFT de datos reales. [117] Por lo tanto, no hay nada intrínsecamente malo en calcular la DCT a través de una FFT desde una perspectiva aritmética; a veces es simplemente una cuestión de si el algoritmo de FFT correspondiente es óptimo. (Como cuestión práctica, la sobrecarga de llamadas a funciones al invocar una rutina FFT separada puede ser significativa para los pequeños , pero esta es una implementación más que una pregunta algorítmica, ya que se puede resolver desenrollando / insertando).

Ejemplo de IDCT [ editar ]

Un ejemplo que muestra ocho filtros diferentes aplicados a una imagen de prueba (arriba a la izquierda) multiplicando su espectro DCT (arriba a la derecha) con cada filtro.

Considere esta imagen en escala de grises de 8x8 de la letra A mayúscula.

Tamaño original, escalado 10x (vecino más cercano), escalado 10x (bilineal).
Funciones base de la transformación coseno discreta con los correspondientes coeficientes (específicos de nuestra imagen).
DCT de la imagen = .

Cada función base se multiplica por su coeficiente y luego este producto se agrega a la imagen final.

A la izquierda está la imagen final. En el medio está la función ponderada (multiplicada por un coeficiente) que se agrega a la imagen final. A la derecha está la función actual y el coeficiente correspondiente. Las imágenes se escalan (utilizando interpolación bilineal) por un factor de 10 ×.

Ver también [ editar ]

  • Transformada de ondícula discreta
  • JPEG # Transformada de coseno discreta : contiene un ejemplo potencialmente más fácil de entender de transformación DCT
  • Lista de transformadas relacionadas con Fourier
  • Transformada de coseno discreta modificada

Notas explicativas [ editar ]

  1. ^ El recuento preciso de operaciones aritméticas reales, y en particular el recuento de multiplicaciones reales, depende de alguna manera de la escala de la definición de transformada. Elrecuento corresponde a la definición de DCT-II que se muestra aquí; Se pueden guardar dos multiplicaciones si la transformación se escala por unfactorgeneral. Se pueden guardar multiplicaciones adicionales si se permite que las salidas de la transformación se reescalen individualmente, como lo demostraron Arai, Agui y Nakajima (1988) para el caso de tamaño 8 utilizado en JPEG.

Citas [ editar ]

  1. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae af Stanković, Radomir S .; Astola, Jaakko T. (2012). "Reminiscencias de los primeros trabajos en DCT: Entrevista con KR Rao" (PDF) . Reimpresiones de los primeros días de las ciencias de la información . 60 . Consultado el 13 de octubre de 2019 .
  2. ^ a b c Britanak, Vladimir; Yip, Patrick C .; Rao, KR (2010). Transformaciones discretas de coseno y seno: propiedades generales, algoritmos rápidos y aproximaciones enteras . Elsevier . págs. ix, xiii, 1, 141-304. ISBN 9780080464640.
  3. ↑ a b c d Alikhani, Darya (1 de abril de 2015). "Más allá de la resolución: arte glitch de Rosa Menkman" . POSTmatter . Consultado el 19 de octubre de 2019 .
  4. ^ a b c d e Thomson, Gavin; Shah, Athar (2017). "Presentación de HEIF y HEVC" (PDF) . Apple Inc. Consultado el 5 de agosto de 2019 .
  5. ^ a b c d e f Ahmed, Nasir ; Natarajan, T .; Rao, KR (enero de 1974), "Discrete Cosine Transform" (PDF) , IEEE Transactions on Computers , C-23 (1): 90–93, doi : 10.1109 / TC.1974.223784
  6. ^ a b c d e f Rao, KR ; Yip, P. (1990), Transformada discreta del coseno: algoritmos, ventajas, aplicaciones , Boston: Academic Press, ISBN 978-0-12-580203-1
  7. ↑ a b c d e f g Barbero, M .; Hofmann, H .; Wells, ND (14 de noviembre de 1991). "Codificación de fuente DCT e implementaciones actuales para HDTV" . Revisión técnica de la EBU . Unión Europea de Radiodifusión (251): 22–33 . Consultado el 4 de noviembre de 2019 .
  8. ↑ a b c d e f g Lea, William (1994). "Vídeo a la carta: Trabajo de investigación 94/68" . Biblioteca de la Cámara de los Comunes . 9 de mayo de 1994 . Consultado el 20 de septiembre de 2019 .CS1 maint: location (link)
  9. ↑ a b c Ahmed, Nasir (enero de 1991). "Cómo se me ocurrió la transformada discreta del coseno" . Procesamiento de señales digitales . 1 (1): 4–5. doi : 10.1016 / 1051-2004 (91) 90086-Z .
  10. ^ a b c d e f "T.81 - Compresión digital y codificación de imágenes fijas de tono continuo - Requisitos y directrices" (PDF) . CCITT . Septiembre de 1992 . Consultado el 12 de julio de 2019 .
  11. ^ Britanak, Vladimir; Yip, Patrick C .; Rao, KR (2010). Transformaciones discretas de coseno y seno: propiedades generales, algoritmos rápidos y aproximaciones enteras . Elsevier . pag. 51. ISBN 9780080464640.
  12. ^ Artículos seleccionados sobre comunicación visual: tecnología y aplicaciones (SPIE Press Book), Editores T. Russell Hsing y Andrew G. Tescher, abril de 1990, págs. 145-149 [1] .
  13. ^ Artículos seleccionados y tutorial sobre procesamiento y análisis de imágenes digitales, volumen 1, procesamiento y análisis de imágenes digitales , (IEEE Computer Society Press), Editors R. Chellappa y AA Sawchuk, junio de 1985, p. 47.
  14. ^ Citas de DCT a través de Google Scholar [2] .
  15. ^ a b Chen, Wen-Hsiung; Smith, CH; Fralick, SC (septiembre de 1977). "Un algoritmo computacional rápido para la transformada discreta del coseno". Transacciones IEEE sobre comunicaciones . 25 (9): 1004–1009. doi : 10.1109 / TCOM.1977.1093941 .
  16. ^ Smith, C .; Fralick, S. (1977). "Un algoritmo computacional rápido para la transformada discreta del coseno". Transacciones IEEE sobre comunicaciones . 25 (9): 1004–1009. doi : 10.1109 / TCOM.1977.1093941 . ISSN 0090-6778 . 
  17. ^ Huang, TS (1981). Análisis de secuencia de imágenes . Springer Science & Business Media . pag. 29. ISBN 9783642870378.
  18. ^ Roese, John A .; Robinson, Guner S. (30 de octubre de 1975). "Codificación combinada espacial y temporal de secuencias de imágenes digitales". Transmisión eficiente de información pictórica . Sociedad Internacional de Óptica y Fotónica. 0066 : 172–181. Código Bibliográfico : 1975SPIE ... 66..172R . doi : 10.1117 / 12.965361 . S2CID 62725808 . 
  19. ^ Cianci, Philip J. (2014). Televisión de alta definición: creación, desarrollo e implementación de la tecnología HDTV . McFarland. pag. 63. ISBN 9780786487974.
  20. ^ a b c "Historia de la compresión de video" . ITU-T . Equipo de video conjunto (JVT) de ISO / IEC MPEG y ITU-T VCEG (ISO / IEC JTC1 / SC29 / WG11 y ITU-T SG16 Q.6). Julio de 2002. págs. 11, 24–9, 33, 40–1, 53–6 . Consultado el 3 de noviembre de 2019 .
  21. ↑ a b c Ghanbari, Mohammed (2003). Códecs estándar: compresión de imágenes a codificación de video avanzada . Institución de Ingeniería y Tecnología . págs. 1-2. ISBN 9780852967102.
  22. ^ Li, Jian Ping (2006). Actas de la Conferencia Internacional de Computación de 2006 sobre tecnología de medios activos Wavelet y procesamiento de la información: Chongqing, China, 29-31 de agosto de 2006 . World Scientific . pag. 847. ISBN 9789812709998.
  23. ^ a b c Wang, Hanli; Kwong, S .; Kok, C. (2006). "Algoritmo de predicción eficiente de coeficientes DCT enteros para optimización H.264 / AVC". Transacciones IEEE sobre circuitos y sistemas para tecnología de video . 16 (4): 547–552. doi : 10.1109 / TCSVT.2006.871390 . S2CID 2060937 . 
  24. ^ Princen, John P .; Johnson, AW; Bradley, Alan B. (1987). "Codificación de subbanda / transformación utilizando diseños de bancos de filtros basados ​​en la cancelación de alias en el dominio del tiempo". ICASSP '87. Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales . 12 : 2161–2164. doi : 10.1109 / ICASSP.1987.1169405 . S2CID 58446992 . 
  25. ^ John P. Princen, Alan B. Bradley: Diseño de banco de filtros de análisis / síntesis basado en la cancelación de alias en el dominio del tiempo , IEEE Trans. Acoust. Procesamiento de señales de voz, ASSP-34 (5), 1153-1161, 1986
  26. ↑ a b c d e f g h i j k Luo, Fa-Long (2008). Estándares de radiodifusión multimedia móvil: tecnología y práctica . Springer Science & Business Media . pag. 590. ISBN 9780387782638.
  27. ↑ a b Britanak, V. (2011). "Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3". Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 19 (5): 1231-1241. doi : 10.1109 / TASL.2010.2087755 . S2CID 897622 . 
  28. ↑ a b Guckert, John (primavera de 2012). "El uso de FFT y MDCT en la compresión de audio MP3" (PDF) . Universidad de Utah . Consultado el 14 de julio de 2019 .
  29. ↑ a b Brandeburgo, Karlheinz (1999). "MP3 y AAC explicados" (PDF) . Archivado (PDF) desde el original el 13 de febrero de 2017.
  30. ↑ a b Fundación Xiph.Org (2 de junio de 2009). "Especificación Vorbis I - 1.1.2 Clasificación" . Fundación Xiph.Org . Consultado el 22 de septiembre de 2009 .
  31. ^ Britanak, Vladimir; Yip, Patrick C .; Rao, KR (2010). Transformaciones discretas de coseno y seno: propiedades generales, algoritmos rápidos y aproximaciones enteras . Elsevier . págs. 35–6. ISBN 9780080464640.
  32. ^ Dhamija, Swati; Jain, Priyanka (septiembre de 2011). "Análisis comparativo para la transformada senoidal discreta como método adecuado para la estimación de ruido" . Revista Internacional de Ciencias de la Computación IJCSI . 8 (5, núm. 3): 162-164 (162) . Consultado el 4 de noviembre de 2019 .
  33. Mandyam, Giridhar D .; Ahmed, Nasir; Magotra, Neeraj (17 de abril de 1995). "Esquema basado en DCT para la compresión de imágenes sin pérdidas". Compresión de video digital: algoritmos y tecnologías 1995 . Sociedad Internacional de Óptica y Fotónica. 2419 : 474–478. Código Bibliográfico : 1995SPIE.2419..474M . doi : 10.1117 / 12.206386 . S2CID 13894279 . 
  34. ^ Komatsu, K .; Sezaki, Kaoru (1998). "Transformada coseno discreta reversible" . Actas de la Conferencia Internacional IEEE de 1998 sobre Acústica, Habla y Procesamiento de Señales, ICASSP '98 (Cat. No.98CH36181) . 3 : 1769-1772 vol. 3. doi : 10.1109 / ICASSP.1998.681802 . ISBN 0-7803-4428-6. S2CID  17045923 .
  35. ↑ a b Hoffman, Roy (2012). Compresión de datos en sistemas digitales . Springer Science & Business Media . pag. 124. ISBN 9781461560319. Básicamente, la codificación de ondículas es una variante de la codificación de transformada basada en DCT que reduce o elimina algunas de sus limitaciones. (...) Otra ventaja es que en lugar de trabajar con bloques de píxeles de 8 × 8, como hacen JPEG y otras técnicas DCT basadas en bloques, la codificación de ondas puede comprimir simultáneamente toda la imagen.
  36. ^ Unser, M .; Blu, T. (2003). "Propiedades matemáticas de los filtros wavelet JPEG2000" . Transacciones IEEE sobre procesamiento de imágenes . 12 (9): 1080–1090. Código Bibliográfico : 2003ITIP ... 12.1080U . doi : 10.1109 / TIP.2003.812329 . PMID 18237979 . S2CID 2765169 .  
  37. ^ Taubman, David; Marcelino, Michael (2012). Principios, estándares y práctica de la compresión de imágenes JPEG2000: Principios, estándares y práctica de la compresión de imágenes . Springer Science & Business Media . ISBN 9781461507994.
  38. ^ McKernan, Brian (2005). Cine digital: la revolución en cinematografía, postproducción y distribución . McGraw-Hill . pag. 59. ISBN 978-0-07-142963-4. Las wavelets se han utilizado en varios sistemas, pero la tecnología consume más procesadores que la DCT y aún no ha experimentado una implementación generalizada.
  39. Muchahary, D .; Mondal, AJ; Parmar, RS; Borah, AD; Majumder, A. (2015). "Un enfoque de diseño simplificado para el cálculo eficiente de DCT". 2015 Quinta Conferencia Internacional sobre Sistemas de Comunicación y Tecnologías de Red : 483–487. doi : 10.1109 / CSNT.2015.134 . ISBN 978-1-4799-1797-6. S2CID  16411333 .
  40. ^ Chen, Wai Kai (2004). El manual de ingeniería eléctrica . Elsevier . pag. 906. ISBN 9780080477480.
  41. ^ Frolov, Artem; Primechaev, S. (2006). "Recuperaciones de imágenes de dominio comprimido basadas en procesamiento DCT". Académico semántico . S2CID 4553 . 
  42. ^ a b c Lee, Ruby Bei-Loh; Beck, John P .; Cordero, Joel; Severson, Kenneth E. (abril de 1995). "Decodificador de vídeo MPEG de software en tiempo real en procesadores PA 7100LC mejorados multimedia" (PDF) . Diario de Hewlett-Packard . 46 (2). ISSN 0018-1153 .  
  43. ^ a b c "¿Qué es un JPEG? El objeto invisible que ves todos los días" . El Atlántico . 24 de septiembre de 2013 . Consultado el 13 de septiembre de 2019 .
  44. ↑ a b c Pessina, Laure-Anne (12 de diciembre de 2014). "JPEG cambió nuestro mundo" . Noticias EPFL . École Polytechnique Fédérale de Lausanne . Consultado el 13 de septiembre de 2019 .
  45. ↑ a b c Lee, Jack (2005). Sistemas de transmisión continua de medios escalables: arquitectura, diseño, análisis e implementación . John Wiley e hijos . pag. 25. ISBN 9780470857649.
  46. ^ a b c Shishikui, Yoshiaki; Nakanishi, Hiroshi; Imaizumi, Hiroyuki (26 al 28 de octubre de 1993). "Un esquema de codificación de HDTV utilizando DCT de dimensión adaptativa" . Procesamiento de señales de HDTV: Actas del Taller internacional sobre HDTV '93, Ottawa, Canadá . Elsevier : 611–618. doi : 10.1016 / B978-0-444-81844-7.50072-3 . ISBN 9781483298511.
  47. ↑ a b Ochoa-Dominguez, Humberto; Rao, KR (2019). Transformada discreta de coseno, segunda edición . Prensa CRC . págs. 1-3, 129. ISBN 9781351396486.
  48. ^ a b c d e f g h i j k l m n o p q r s t u v w x y z aa ab ac ad ae Ochoa-Dominguez, Humberto; Rao, KR (2019). Transformada discreta de coseno, segunda edición . Prensa CRC . págs. 1-3. ISBN 9781351396486.
  49. ↑ a b Britanak, Vladimir; Rao, KR (2017). Bancos de filtros modulados por coseno / seno: propiedades generales, algoritmos rápidos y aproximaciones de enteros . Saltador. pag. 478. ISBN 9783319610801.
  50. ^ a b Jones, Graham A .; Layer, David H .; Osenkowsky, Thomas G. (2013). Manual de ingeniería de la Asociación Nacional de Radiodifusores: Manual de ingeniería de la NAB . Taylor y Francis . págs. 558–9. ISBN 978-1-136-03410-7.
  51. ^ a b c Hersent, Olivier; Petit, Jean-Pierre; Gurle, David (2005). Más allá de los protocolos de VoIP: comprensión de la tecnología de voz y las técnicas de red para telefonía IP . John Wiley e hijos . pag. 55. ISBN 9780470023631.
  52. ↑ a b c d e Daniel Eran Dilger (8 de junio de 2010). "Dentro del iPhone 4: videollamadas FaceTime" . AppleInsider . Consultado el 9 de junio de 2010 .
  53. ^ a b c d Blog, Tecnología de Netflix (19 de abril de 2017). "Codificaciones móviles más eficientes para descargas de Netflix" . Medium.com . Netflix . Consultado el 20 de octubre de 2019 .
  54. ^ a b "Informe de desarrollador de video 2019" (PDF) . Bitmovin . 2019 . Consultado el 5 de noviembre de 2019 .
  55. ^ Ochoa-Dominguez, Humberto; Rao, KR (2019). Transformada discreta de coseno, segunda edición . Prensa CRC. pag. 186. ISBN 9781351396486.
  56. ↑ a b c d McKernan, Brian (2005). Cine digital: la revolución cinematográfica, postproducción, distribución . McGraw-Hill . pag. 58. ISBN 978-0-07-142963-4. DCT se utiliza en la mayoría de los sistemas de compresión estandarizados por el Moving Picture Experts Group (MPEG), es la tecnología dominante para la compresión de imágenes. En particular, es la tecnología central de MPEG-2, el sistema utilizado para DVD, transmisión de televisión digital, que se ha utilizado para muchas de las pruebas del cine digital.
  57. ↑ a b Baraniuk, Chris (15 de octubre de 2015). "Las protecciones de copia podrían llegar a JPegs" . BBC News . BBC . Consultado el 13 de septiembre de 2019 .
  58. ^ Ascher, Steven; Pincus, Edward (2012). El manual del cineasta: una guía completa para la era digital: quinta edición . Pingüino. págs. 246–7. ISBN 978-1-101-61380-1.
  59. ^ Bertalmio, Marcelo (2014). Procesamiento de imágenes para cine . Prensa CRC . pag. 95. ISBN 978-1-4398-9928-1.
  60. ^ Zhang, HongJiang (1998). "Búsqueda y recuperación de videos basados ​​en contenido" . En Furht, Borko (ed.). Manual de Sistemas y Aplicaciones de Internet y Multimedia . Prensa CRC . págs.  83-108 (89) . ISBN 9780849318580.
  61. ^ a b "Familia de códecs Apple ProRes 422" . Biblioteca del Congreso . 17 de noviembre de 2014 . Consultado el 13 de octubre de 2019 .
  62. ^ Potluri, Estados Unidos; Madanayake, A .; Cintra, RJ; Bayer, FM; Rajapaksha, N. (17 de octubre de 2012). "Aproximaciones DCT sin multiplicador para imágenes espaciales de matriz de apertura digital multihaz de RF y detección direccional". Ciencia y Tecnología de la Medición . 23 (11): 114003. doi : 10.1088 / 0957-0233 / 23/11/114003 . ISSN 0957-0233 . 
  63. ^ Hudson, Graham; Léger, Alain; Niss, Birger; Sebestyén, István; Vaaben, Jørgen (31 de agosto de 2018). "Estándar JPEG-1 de 25 años: razones pasadas, presentes y futuras de un éxito" . Revista de imágenes electrónicas . 27 (4): 1. doi : 10.1117 / 1.JEI.27.4.040901 .
  64. ^ "Explicación del formato de imagen JPEG" . BT.com . BT Group . 31 de mayo de 2018 . Consultado el 5 de agosto de 2019 .
  65. ^ Thomson, Gavin; Shah, Athar (2017). "Presentación de HEIF y HEVC" (PDF) . Apple Inc. Consultado el 5 de agosto de 2019 .
  66. ^ "Comparación HEIF - formato de archivo de imagen de alta eficiencia" . Tecnologías Nokia . Consultado el 5 de agosto de 2019 .
  67. ^ a b Yao Wang, Estándares de codificación de video: Parte I, 2006
  68. ^ Yao Wang, Estándares de codificación de video: Parte II, 2006
  69. ^ Hoffman, Roy (2012). Compresión de datos en sistemas digitales . Springer Science & Business Media . pag. 255. ISBN 9781461560319.
  70. ^ a b K. R. Rao y JJ Hwang, Técnicas y estándares para codificación de imagen, video y audio , Prentice Hall, 1996; JPEG: Capítulo 8; H.261: Capítulo 9; MPEG-1: Capítulo 10; MPEG-2: Capítulo 11.
  71. ^ Davis, Andrew (13 de junio de 1997). "Descripción general de la recomendación H.320" . EE Times . Consultado el 7 de noviembre de 2019 .
  72. ^ IEEE WESCANEX 97: comunicaciones, energía e informática: actas de conferencias . Universidad de Manitoba, Winnipeg, Manitoba, Canadá: Instituto de Ingenieros Eléctricos y Electrónicos . 22-23 de mayo de 1997. p. 30. ISBN 9780780341470. H.263 es similar pero más complejo que H.261. Actualmente es el estándar internacional de compresión de video más utilizado para telefonía de video en líneas telefónicas ISDN (Red digital de servicios integrados).
  73. ^ Herre, J .; Dietz, M. (2008). "Codificación AAC de alta eficiencia MPEG-4 [estándares en pocas palabras]". Revista de procesamiento de señales IEEE . 25 (3): 137-142. Código Bibliográfico : 2008ISPM ... 25..137H . doi : 10.1109 / MSP.2008.918684 .
  74. ^ Britanak, Vladimir; Rao, KR (2017). Bancos de filtros modulados por coseno / seno: propiedades generales, algoritmos rápidos y aproximaciones de enteros . Saltador. pag. 478. ISBN 9783319610801.
  75. ^ "Dolby AC-4: Entrega de audio para servicios de entretenimiento de próxima generación" (PDF) . Dolby Laboratories . Junio ​​de 2015 . Consultado el 11 de noviembre de 2019 .
  76. ^ Bleidt, RL; Enviar.; Niedermeier, A .; Czelhan, B .; Füg, S .; et al. (2017). "Desarrollo del sistema de audio MPEG-H TV para ATSC 3.0" (PDF) . Transacciones IEEE sobre radiodifusión . 63 (1): 202–236. doi : 10.1109 / TBC.2017.2661258 . S2CID 30821673 .  
  77. ^ Schnell, Markus; Schmidt, Markus; Jander, Manuel; Albert, Tobías; Geiger, Ralf; Ruoppila, Vesa; Ekstrand, Per; Bernhard, Grill (octubre de 2008). MPEG-4 Enhanced Low Delay AAC: un nuevo estándar para comunicaciones de alta calidad (PDF) . 125a Convención AES. Fraunhofer IIS . Sociedad de Ingeniería de Audio . Consultado el 20 de octubre de 2019 .
  78. ^ Lutzky, Manfred; Schuller, Gerald; Gayer, Marc; Krämer, Ulrich; Wabnik, Stefan (mayo de 2004). Una guía para el retardo de códec de audio (PDF) . 116a Convención AES. Fraunhofer IIS . Sociedad de Ingeniería de Audio . Consultado el 24 de octubre de 2019 .
  79. ↑ a b Nagireddi, Sivannarayana (2008). Procesamiento de señales de voz y fax de VoIP . John Wiley e hijos . pag. 69. ISBN 9780470377864.
  80. ↑ a b Britanak, Vladimir; Rao, KR (2017). Bancos de filtros modulados por coseno / seno: propiedades generales, algoritmos rápidos y aproximaciones de enteros . Saltador. págs. 31, 478. ISBN 9783319610801.
  81. ^ Programa de trabajo UIT-T SG 16 (2005-2008) - G.718 (ex G.VBR-EV)
  82. ^ Presentación del códec CELT por Timothy B. Terriberry (65 minutos de video, ver también diapositivas de presentación en PDF)
  83. ^ Ekiga 3.1.0 disponible
  84. ^ FreeSWITCH: Nuevo lanzamiento para el año nuevo
  85. ^ Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B .; Vos, Koen (octubre de 2013). Codificación de música de alta calidad y bajo retardo en el códec Opus . 135a Convención AES. Sociedad de Ingeniería de Audio . arXiv : 1602.04845 .
  86. ^ "Opus Codec" . Opus (página de inicio). Fundación Xiph.org . Consultado el 31 de julio de 2012 .
  87. ^ Leyden, John (27 de octubre de 2015). "WhatsApp al descubierto: las entrañas de la aplicación de succión de información sondeadas" . El registro . Consultado el 19 de octubre de 2019 .
  88. ^ Hazra, Sudip; Mateti, Prabhaker (13 al 16 de septiembre de 2017). "Desafíos en la ciencia forense de Android" . En Thampi, Sabu M .; Pérez, Gregorio Martínez; Westphall, Carlos Becker; Hu, Jiankun; Fan, Chun I .; Mármol, Félix Gómez (eds.). Seguridad en la Computación y las Comunicaciones: 5to Simposio Internacional, SSCC 2017 . Saltador. págs. 286-299 (290). doi : 10.1007 / 978-981-10-6898-0_24 . ISBN 9789811068980.
  89. ^ Srivastava, Saurabh Ranjan; Dube, Sachin; Shrivastaya, Gulshan; Sharma, Kavita (2019). "Desafíos de seguridad activados por teléfonos inteligentes: problemas, estudios de caso y prevención" . En Le, Dac-Nhuong; Kumar, Raghvendra; Mishra, Brojo Kishore; Chatterjee, Jyotir Moy; Khari, Manju (eds.). Ciberseguridad en Computación Paralela y Distribuida: Conceptos, Técnicas, Aplicaciones y Casos de Estudio . Ciberseguridad en Computación Paralela y Distribuida . John Wiley e hijos. págs. 187–206 (200). doi : 10.1002 / 9781119488330.ch12 . ISBN 9781119488057.
  90. ^ "Software de código abierto utilizado en PlayStation®4" . Sony Interactive Entertainment Inc . Consultado el 11 de diciembre de 2017 .
  91. ^ "Códec de servicios de voz mejorados (EVS)" (PDF) . Fraunhofer IIS . Marzo de 2017 . Consultado el 19 de octubre de 2019 .
  92. ^ Abousleman, GP; Marcelino, MW; Hunt, BR (enero de 1995), "Compresión de imágenes hiperespectrales usando DCT 3-D y DPCM / DCT híbrido", IEEE Trans. Geosci. Sensores remotos , 33 (1): 26–34, Código Bibliográfico : 1995ITGRS..33 ... 26A , doi : 10.1109 / 36.368225
  93. ^ Chan, Y .; Siu, W. (mayo de 1997), "Codificación de transformada de coseno discreta 3D de longitud temporal variable" (PDF) , IEEE Trans. Procesamiento de imágenes. , 6 (5): 758–763, Bibcode : 1997ITIP .... 6..758C , CiteSeerX 10.1.1.516.2824 , doi : 10.1109 / 83.568933 , PMID 18282969   
  94. ^ Song, J .; SXiong, Z .; Liu, X .; Liu, Y., "Un algoritmo para la codificación y transmisión de video en capas", Proc. Cuarto Int. Conf./Exh. Computación de alto rendimiento. Región de Asia y el Pacífico , 2 : 700–703
  95. ^ Tai, S.-C; Gi, Y .; Lin, C.-W. (Septiembre de 2000), "Un codificador de transformada de coseno discreto 3-D adaptable para la compresión de imágenes médicas", IEEE Trans. Inf. Technol. Biomed. , 4 (3): 259–263, doi : 10.1109 / 4233.870036 , PMID 11026596 , S2CID 18016215  
  96. ^ Yeo, B .; Liu, B. (mayo de 1995), "Representación de volumen de datos escalares 3D comprimidos basados ​​en DCT", IEEE Trans. Computación. Gráficos. , 1 : 29–43, doi : 10.1109 / 2945.468390
  97. ^ CHAN, SC, LlU, W. y HO, KL: 'Bancos de filtros modulados de reconstrucción perfecta con suma de coeficientes de potencias de dos'. Actas de Inte.n Symp. Circuits and syst., 28-3 1 de mayo de 2000, Ginebra, Suiza, págs. 28-31
  98. ^ Queiroz, RL; Nguyen, TQ (1996). "Transformaciones traslapadas para una codificación eficiente de transformación / subbanda". IEEE Trans. Proceso de señal . 44 (5): 497–507.
  99. ^ Malvar, HS (1992). Procesamiento de señales con transformaciones traslapadas . Englewood Cliffs, Nueva Jersey: Prentice Hall.
  100. ^ Chan, SC; Luo, L .; Ho, KL (1998). "Bases de ondículas moduladas por coseno biortogonales con soporte compacto de canal M". IEEE Trans. Proceso de señal . 46 (2): 1142-1151. Código bibliográfico : 1998ITSP ... 46.1142C . doi : 10.1109 / 78.668566 . hdl : 10722/42775 .
  101. ↑ a b Katsaggelos, Aggelos K .; Babacan, S. Derin; Chun-Jen, Tsai (2009). "Capítulo 15 - Restauración iterativa de imágenes". La guía esencial para el procesamiento de imágenes . Prensa académica . págs. 349–383. ISBN 9780123744579.
  102. ^ "Ruido de mosquito" . Revista de PC . Consultado el 19 de octubre de 2019 .
  103. ^ Menkman, Rosa (octubre de 2011). El momento de la falla (um) (PDF) . Instituto de Culturas en Red. ISBN  978-90-816021-6-7. Consultado el 19 de octubre de 2019 .
  104. ^ jpegs , Thomas Ruff , Aperture , 31 de mayo de 2009, 132 págs., ISBN 978-1-59711-093-8 
  105. ^ Revisión: jpegs por Thomas Ruff , por Jörg Colberg , 17 de abril de 2009
  106. ^ "Transformada de coseno discreta - MATLAB dct" . www.mathworks.com . Consultado el 11 de julio de 2019 .
  107. ^ WB Pennebaker y JL Mitchell , Estándar de compresión de datos de imágenes fijas JPEG . Nueva York: Van Nostrand Reinhold, 1993.
  108. ^ Y. Arai, T. Agui y M. Nakajima, "Un esquema rápido DCT-SQ para imágenes", Trans. IEICE , vol. 71, no. 11, págs. 1095-1097, 1988.
  109. ^ X. Shao y SG Johnson, "Algoritmos DCT / DST de tipo II / III con un número reducido de operaciones aritméticas", procesamiento de señales , vol. 88, págs. 1553-1564, junio de 2008.
  110. ^ Error de harvnb de Malvar 1992 : objetivos múltiples (2 ×): CITEREFMalvar1992 ( ayuda )
  111. ^ Martucci 1994
  112. ^ SC Chan y KL Ho, "Métodos directos para calcular transformadas sinusoidales discretas", en Proc. Inst. Electo. Eng. Proceso de señal de radar., Vol. 137, diciembre de 1990, págs. 433–442.
  113. ^ a b O. Alshibami y S. Boussakta, "Algoritmo tridimensional para el 3-D DCT-III", en Proc. Sexta Int. Symp. Commun., Theory Applications, julio de 2001, págs. 104-107.
  114. ^ G. Bi, G. Li, K.-K. Ma y TC Tan, "Sobre el cálculo de DCT bidimensional", IEEE Trans. Proceso de señal., Vol. 48, págs. 1171-1183, abril de 2000.
  115. ^ E. Feig, "Sobre la complejidad multiplicativa de las transformadas discretas \ coseno", IEEE Trans. Inf. Teoría, vol. 38, págs. 1387-1390, agosto de 1992.
  116. ^ Nussbaumer, HJ (1981). Algoritmos de convolución y transformada rápida de Fourier (1ª ed.). Nueva York: Springer-Verlag.
  117. ^ Shao, Xuancheng; Johnson, Steven G. (2008). "Algoritmos tipo II / III DCT / DST con número reducido de operaciones aritméticas". Procesamiento de señales . 88 (6): 1553-1564. arXiv : cs / 0703150 . doi : 10.1016 / j.sigpro.2008.01.004 . S2CID 986733 . 

Lectura adicional [ editar ]

  • Narasimha, M .; Peterson, A. (junio de 1978). "Sobre el cálculo de la transformada discreta del coseno". Transacciones IEEE sobre comunicaciones . 26 (6): 934–936. doi : 10.1109 / TCOM.1978.1094144 .
  • Makhoul, J. (febrero de 1980). "Una transformada rápida de coseno en una y dos dimensiones". Transacciones IEEE sobre acústica, habla y procesamiento de señales . 28 (1): 27–34. doi : 10.1109 / TASSP.1980.1163351 .
  • Sorensen, H .; Jones, D .; Heideman, M .; Burrus, C. (junio de 1987). "Algoritmos de transformada rápida de Fourier de valor real". Transacciones IEEE sobre acústica, habla y procesamiento de señales . 35 (6): 849–863. CiteSeerX  10.1.1.205.4523 . doi : 10.1109 / TASSP.1987.1165220 .
  • Arai, Y .; Agui, T .; Nakajima, M. (noviembre de 1988). "Un esquema DCT-SQ rápido para imágenes" . Transacciones IEICE . 71 (11): 1095–1097.
  • Plonka, G .; Tasche, M. (enero de 2005). "Algoritmos rápidos y numéricamente estables para transformadas de coseno discretas" . Álgebra lineal y sus aplicaciones . 394 (1): 309–345. doi : 10.1016 / j.laa.2004.07.015 .
  • Duhamel, P .; Vetterli, M. (abril de 1990). "Transformaciones rápidas de Fourier: una revisión tutorial y un estado del arte" . Procesamiento de señales (manuscrito enviado). 19 (4): 259–299. doi : 10.1016 / 0165-1684 (90) 90158-U .
  • Ahmed, N. (enero de 1991). "Cómo se me ocurrió la transformada de coseno discreta" . Procesamiento de señales digitales . 1 (1): 4–9. doi : 10.1016 / 1051-2004 (91) 90086-Z .
  • Feig, E .; Winograd, S. (septiembre de 1992). "Algoritmos rápidos para la transformada de coseno discreta". Transacciones IEEE sobre procesamiento de señales . 40 (9): 2174–2193. Código Bibliográfico : 1992ITSP ... 40.2174F . doi : 10.1109 / 78.157218 .
  • Malvar, Henrique (1992), Procesamiento de señales con transformaciones traslapadas , Boston: Artech House, ISBN 978-0-89006-467-2
  • Martucci, SA (mayo de 1994). "Convolución simétrica y transformaciones discretas de seno y coseno". Transacciones IEEE sobre procesamiento de señales . 42 (5): 1038–1051. Código Bibliográfico : 1994ITSP ... 42.1038M . doi : 10.1109 / 78.295213 .
  • Oppenheim, Alan; Schafer, Ronald; Buck, John (1999), Procesamiento de señales en tiempo discreto (2a ed.), Upper Saddle River, Nueva Jersey: Prentice Hall, ISBN 978-0-13-754920-7
  • Frigo, M .; Johnson, SG (febrero de 2005). "El Diseño e Implementación de FFTW3" (PDF) . Actas del IEEE . 93 (2): 216–231. CiteSeerX  10.1.1.66.3097 . doi : 10.1109 / JPROC.2004.840301 . S2CID  6644892 .
  • Boussakta, Said .; Alshibami, Hamoud O. (abril de 2004). "Algoritmo rápido para el 3-D DCT-II" (PDF) . Transacciones IEEE sobre procesamiento de señales . 52 (4): 992–1000. Código Bibliográfico : 2004ITSP ... 52..992B . doi : 10.1109 / TSP.2004.823472 . S2CID  3385296 .
  • Cheng, LZ; Zeng, YH (2003). "Nuevo algoritmo rápido para DCT multidimensional tipo IV". Transacciones IEEE sobre procesamiento de señales . 51 (1): 213–220. doi : 10.1109 / TSP.2002.806558 .
  • Wen-Hsiung Chen; Smith, C .; Fralick, S. (septiembre de 1977). "Un algoritmo computacional rápido para la transformada discreta del coseno". Transacciones IEEE sobre comunicaciones . 25 (9): 1004–1009. doi : 10.1109 / TCOM.1977.1093941 .
  • Presione, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007), "Sección 12.4.2. Transformada de coseno" , Recetas numéricas: El arte de la informática científica (3ª ed.), Nueva York: Cambridge University Press, ISBN 978-0-521-88068-8

Enlaces externos [ editar ]

  • Syed Ali Khayam: La transformada discreta del coseno (DCT): teoría y aplicación
  • Implementación de aproximación de enteros MPEG de 8x8 IDCT (ISO / IEC 23002-2)
  • Matteo Frigo y Steven G. Johnson : FFTW , http://www.fftw.org/ . Una biblioteca C gratuita ( GPL ) que puede calcular DCT rápidos (tipos I-IV) en una o más dimensiones, de tamaño arbitrario.
  • Takuya Ooura: Paquete FFT de uso general, http://www.kurims.kyoto-u.ac.jp/~ooura/fft.html . Bibliotecas C & FORTRAN gratuitas para calcular DCT rápidos (tipos II-III) en una, dos o tres dimensiones, potencia de 2 tamaños.
  • Tim Kientzle: algoritmos rápidos para calcular el DCT y el IDCT de 8 puntos, http://drdobbs.com/parallel/184410889 .
  • LTFAT es una caja de herramientas gratuita de Matlab / Octave con interfaces para la implementación FFTW de DCT y DST de tipo I-IV.