De Wikipedia, la enciclopedia libre
  (Redirigido desde el formato de compresión de audio )
Saltar a navegación Saltar a búsqueda
Comparación de la eficiencia de codificación entre formatos de audio populares

Un formato de codificación de audio [1] (o algunas veces formato de compresión de audio ) es un formato de representación de contenido para almacenamiento o transmisión de audio digital (como en televisión digital , radio digital y en archivos de audio y video). Ejemplos de formatos de codificación de audio incluyen MP3 , AAC , Vorbis , FLAC y Opus . Una implementación de software o hardware específico capaz de compresión y descompresión de audio hacia / desde un formato de codificación de audio específico se denomina códec de audio ; un ejemplo de un códec de audio esLAME , que es uno de varios códecs diferentes que implementa la codificación y decodificación de audio en el formato de codificación de audio MP3 en el software.

Algunos formatos de codificación de audio están documentados por un documento de especificaciones técnicas detalladas conocido como especificación de codificación de audio . Algunas de estas especificaciones están escritas y aprobadas por organizaciones de normalización como estándares técnicos y, por lo tanto, se conocen como estándar de codificación de audio . El término "estándar" también se utiliza a veces para los estándares de facto , así como para los estándares formales.

El contenido de audio codificado en un formato de codificación de audio particular normalmente se encapsula dentro de un formato contenedor . Como tal, el usuario normalmente no tiene un archivo AAC sin procesar , sino que tiene un archivo de audio .m4a , que es un contenedor MPEG-4 Parte 14 que contiene audio codificado AAC. El contenedor también contiene metadatos como el título y otras etiquetas, y quizás un índice para una búsqueda rápida. [2] Una excepción notable son los archivos MP3 , que son codificación de audio sin formato sin un formato contenedor. Los estándares de facto para agregar etiquetas de metadatos como título y artista a MP3, como ID3 , son hacks.que funcionan agregando las etiquetas al MP3 y luego confiando en el reproductor MP3 para reconocer el fragmento como codificación de audio mal formada y, por lo tanto, omitirlo. En los archivos de video con audio, el contenido de audio codificado se incluye con el video (en un formato de codificación de video ) dentro de un formato contenedor multimedia .

Un formato de codificación de audio no dicta todos los algoritmos utilizados por un códec que implementa el formato. Una parte importante de cómo funciona la compresión de audio con pérdida es mediante la eliminación de datos de formas que los humanos no pueden oír, según un modelo psicoacústico ; el implementador de un codificador tiene cierta libertad para elegir qué datos eliminar (de acuerdo con su modelo psicoacústico).

Formatos de codificación de audio sin pérdida, con pérdida y sin comprimir [ editar ]

Un formato de codificación de audio sin pérdidas reduce el total de datos necesarios para representar un sonido, pero se puede decodificar a su forma original sin comprimir. Un formato de codificación de audio con pérdida reduce adicionalmente la resolución de bits del sonido además de la compresión, lo que da como resultado muchos menos datos a costa de una pérdida irrecuperable de información.

El audio de consumo se comprime con mayor frecuencia utilizando códecs de audio con pérdida, ya que el tamaño más pequeño es mucho más conveniente para la distribución. Los formatos de codificación de audio más utilizados son MP3 y Advanced Audio Coding (AAC), ambos formatos con pérdida basados ​​en la transformada de coseno discreta modificada (MDCT) y algoritmos de codificación perceptual .

Los formatos de codificación de audio sin pérdida, como FLAC y Apple Lossless , a veces están disponibles, aunque a costa de archivos más grandes.

A veces también se utilizan formatos de audio sin comprimir , como la modulación de código de pulso (PCM o .wav). PCM era el formato estándar para Compact Disc Digital Audio (CDDA), antes de que la compresión con pérdida se convirtiera finalmente en el estándar después de la introducción de MP3.

Historia [ editar ]

Solidyne 922: la primera tarjeta de sonido de compresión de bits de audio comercial del mundo para PC, 1990

En 1950, Bell Labs presentó la patente sobre modulación diferencial de código de impulsos (DPCM). [3] El DPCM adaptativo (ADPCM) fue introducido por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973. [4] [5]

La codificación perceptiva se utilizó por primera vez para la compresión de codificación de voz , con codificación predictiva lineal (LPC). [6] Los conceptos iniciales de LPC se remontan al trabajo de Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966. [7] Durante la década de 1970, Bishnu S. Atal y Manfred R. Schroeder en Bell Labs desarrolló una forma de LPC llamada codificación predictiva adaptativa (APC), un algoritmo de codificación perceptual que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de la década de 1980 con elalgoritmo de predicción lineal excitada por código (CELP) que logró una relación de compresión significativa para su época. [6] La codificación perceptual es utilizada por formatos modernos de compresión de audio como MP3 [6] y AAC .

Transformada de coseno discreta (DCT), desarrollada por Nasir Ahmed , T. Natarajan y KR Rao en 1974, [8] proporcionó la base para la transformada de coseno discreta modificada (MDCT) utilizada por los formatos de compresión de audio modernos como MP3 [9] y AAC . La TCMD fue propuesta por JP Princen, AW Johnson y AB Bradley en 1987, [10] siguiendo un trabajo anterior de Princen y Bradley en 1986. [11] La TCMD es utilizada por formatos modernos de compresión de audio como Dolby Digital , [12] [13 ] MP3 , [9] y codificación de audio avanzada (AAC). [14]

List of lossy formats[edit]

General[edit]

Speech[edit]

  • Linear predictive coding (LPC)
    • Adaptive predictive coding (APC)
    • Code-excited linear prediction (CELP)
    • Algebraic code-excited linear prediction (ACELP)
    • Relaxed code-excited linear prediction (RCELP)
    • Low-delay CELP (LD-CELP)
    • Adaptive Multi-Rate (used in GSM and 3GPP)
    • Codec2 (noted for its lack of patent restrictions)
    • Speex (noted for its lack of patent restrictions)
  • Modified discrete cosine transform (MDCT)
    • AAC-LD
    • Constrained Energy Lapped Transform (CELT)
    • Opus (mostly for real-time applications)

List of lossless formats[edit]

  • Apple Lossless (ALAC – Apple Lossless Audio Codec)
  • Adaptive Transform Acoustic Coding (ATRAC)
  • Audio Lossless Coding (also known as MPEG-4 ALS)
  • Direct Stream Transfer (DST)
  • Dolby TrueHD
  • DTS-HD Master Audio
  • Free Lossless Audio Codec (FLAC)
  • Lossless discrete cosine transform (LDCT)
  • Meridian Lossless Packing (MLP)
  • Monkey's Audio (Monkey's Audio APE)
  • MPEG-4 SLS (also known as HD-AAC)
  • OptimFROG
  • Original Sound Quality (OSQ)
  • RealPlayer (RealAudio Lossless)
  • Shorten (SHN)
  • TTA (True Audio Lossless)
  • WavPack (WavPack lossless)
  • WMA Lossless (Windows Media Lossless)

See also[edit]

  • Comparison of audio coding formats
  • Data compression#Audio
  • Audio file format
  • List of audio compression formats

References[edit]

  1. ^ The term "audio coding" can be seen in e.g. the name Advanced Audio Coding, and is analogous to the term video coding
  2. ^ "Video - Where is synchronization information stored in container formats?".
  3. ^ US patent 2605361, C. Chapin Cutler, "Differential Quantization of Communication Signals", issued 1952-07-29 
  4. ^ P. Cummiskey, Nikil S. Jayant, and J. L. Flanagan, "Adaptive quantization in differential PCM coding of speech", Bell Syst. Tech. J., vol. 52, pp. 1105—1118, Sept. 1973
  5. ^ Cummiskey, P.; Jayant, Nikil S.; Flanagan, J. L. (1973). "Adaptive quantization in differential PCM coding of speech". The Bell System Technical Journal. 52 (7): 1105–1118. doi:10.1002/j.1538-7305.1973.tb02007.x. ISSN 0005-8580.
  6. ^ a b c Schroeder, Manfred R. (2014). "Bell Laboratories". Acoustics, Information, and Communication: Memorial Volume in Honor of Manfred R. Schroeder. Springer. p. 388. ISBN 9783319056609.
  7. ^ Gray, Robert M. (2010). "A History of Realtime Digital Speech on Packet Networks: Part II of Linear Predictive Coding and the Internet Protocol" (PDF). Found. Trends Signal Process. 3 (4): 203–303. doi:10.1561/2000000036. ISSN 1932-8346.
  8. ^ Nasir Ahmed; T. Natarajan; Kamisetty Ramamohan Rao (January 1974). "Discrete Cosine Transform" (PDF). IEEE Transactions on Computers. C-23 (1): 90–93. doi:10.1109/T-C.1974.223784.
  9. ^ a b c Guckert, John (Spring 2012). "The Use of FFT and MDCT in MP3 Audio Compression" (PDF). University of Utah. Retrieved 14 July 2019.
  10. ^ J. P. Princen, A. W. Johnson und A. B. Bradley: Subband/transform coding using filter bank designs based on time domain aliasing cancellation, IEEE Proc. Intl. Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2161–2164, 1987.
  11. ^ John P. Princen, Alan B. Bradley: Analysis/synthesis filter bank design based on time domain aliasing cancellation, IEEE Trans. Acoust. Speech Signal Processing, ASSP-34 (5), 1153–1161, 1986.
  12. ^ a b c d e f Luo, Fa-Long (2008). Mobile Multimedia Broadcasting Standards: Technology and Practice. Springer Science & Business Media. p. 590. ISBN 9780387782638.
  13. ^ Britanak, V. (2011). "On Properties, Relations, and Simplified Implementation of Filter Banks in the Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE Transactions on Audio, Speech, and Language Processing. 19 (5): 1231–1241. doi:10.1109/TASL.2010.2087755.
  14. ^ a b Brandenburg, Karlheinz (1999). "MP3 and AAC Explained" (PDF). Archived (PDF) from the original on 2017-02-13.
  15. ^ "Video Developer Report 2019" (PDF). Bitmovin. 2019. Retrieved 5 November 2019.
  16. ^ Britanak, V. (2011). "On Properties, Relations, and Simplified Implementation of Filter Banks in the Dolby Digital (Plus) AC-3 Audio Coding Standards". IEEE Transactions on Audio, Speech, and Language Processing. 19 (5): 1231–1241. doi:10.1109/TASL.2010.2087755.
  17. ^ Stanković, Radomir S.; Astola, Jaakko T. (2012). "Reminiscences of the Early Work in DCT: Interview with K.R. Rao" (PDF). Reprints from the Early Days of Information Sciences. 60. Retrieved 13 October 2019.
  18. ^ Xiph.Org Foundation (2009-06-02). "Vorbis I specification - 1.1.2 Classification". Xiph.Org Foundation. Retrieved 2009-09-22.
  19. ^ Presentation of the CELT codec by Timothy B. Terriberry (65 minutes of video, see also presentation slides in PDF)
  20. ^ Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B.; Vos, Koen (October 2013). High-Quality, Low-Delay Music Coding in the Opus Codec. 135th AES Convention. Audio Engineering Society. arXiv:1602.04845.
  21. ^ Darko, John H. (2017-03-29). "The inconvenient truth about Bluetooth audio". DAR__KO. Archived from the original on 2018-01-14. Retrieved 2018-01-13.
  22. ^ Ford, Jez (2015-08-24). "What is Sony LDAC, and how does it do it?". AVHub. Retrieved 2018-01-13.
  23. ^ Ford, Jez (2016-11-22). "aptX HD - lossless or lossy?". AVHub. Retrieved 2018-01-13.
  24. ^ "Digital Theater Systems Audio Formats". Library of Congress. 27 December 2011. Retrieved 10 November 2019.
  25. ^ Spanias, Andreas; Painter, Ted; Atti, Venkatraman (2006). Audio Signal Processing and Coding. John Wiley & Sons. p. 338. ISBN 9780470041963.