De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
Comparación de la eficiencia de codificación entre formatos de audio populares

Un formato de codificación de audio [1] (o algunas veces formato de compresión de audio ) es un formato de representación de contenido para almacenamiento o transmisión de audio digital (como en televisión digital , radio digital y en archivos de audio y video). Ejemplos de formatos de codificación de audio incluyen MP3 , AAC , Vorbis , FLAC y Opus . Una implementación de software o hardware específico capaz de compresión y descompresión de audio hacia / desde un formato de codificación de audio específico se denomina códec de audio ; un ejemplo de un códec de audio esLAME , que es uno de varios códecs diferentes que implementa la codificación y decodificación de audio en el formato de codificación de audio MP3 en el software.

Algunos formatos de codificación de audio están documentados por un documento de especificaciones técnicas detalladas conocido como especificación de codificación de audio . Algunas de estas especificaciones están escritas y aprobadas por organizaciones de normalización como estándares técnicos y, por lo tanto, se conocen como estándar de codificación de audio . El término "estándar" también se utiliza a veces para los estándares de facto , así como para los estándares formales.

El contenido de audio codificado en un formato de codificación de audio particular normalmente se encapsula dentro de un formato contenedor . Como tal, el usuario normalmente no tiene un archivo AAC sin procesar , sino que tiene un archivo de audio .m4a , que es un contenedor MPEG-4 Parte 14 que contiene audio codificado AAC. El contenedor también contiene metadatos como el título y otras etiquetas, y quizás un índice para una búsqueda rápida. [2] Una excepción notable son los archivos MP3 , que son codificación de audio sin formato sin un formato contenedor. Los estándares de facto para agregar etiquetas de metadatos como título y artista a MP3, como ID3 , son hacks.que funcionan agregando las etiquetas al MP3 y luego confiando en el reproductor MP3 para reconocer el fragmento como codificación de audio mal formada y, por lo tanto, omitirlo. En los archivos de video con audio, el contenido de audio codificado se incluye con el video (en un formato de codificación de video ) dentro de un formato contenedor multimedia .

Un formato de codificación de audio no dicta todos los algoritmos utilizados por un códec que implementa el formato. Una parte importante de cómo funciona la compresión de audio con pérdida es mediante la eliminación de datos de formas que los humanos no pueden oír, según un modelo psicoacústico ; el implementador de un codificador tiene cierta libertad para elegir qué datos eliminar (de acuerdo con su modelo psicoacústico).

Formatos de codificación de audio sin pérdida, con pérdida y sin comprimir [ editar ]

Un formato de codificación de audio sin pérdidas reduce el total de datos necesarios para representar un sonido, pero se puede decodificar a su forma original sin comprimir. Un formato de codificación de audio con pérdida reduce adicionalmente la resolución de bits del sonido además de la compresión, lo que da como resultado muchos menos datos a costa de una pérdida irrecuperable de información.

El audio de consumo se comprime con mayor frecuencia utilizando códecs de audio con pérdida, ya que el tamaño más pequeño es mucho más conveniente para la distribución. Los formatos de codificación de audio más utilizados son MP3 y Advanced Audio Coding (AAC), ambos formatos con pérdida basados ​​en la transformada de coseno discreta modificada (MDCT) y algoritmos de codificación perceptual .

Los formatos de codificación de audio sin pérdida, como FLAC y Apple Lossless , a veces están disponibles, aunque a costa de archivos más grandes.

A veces también se utilizan formatos de audio sin comprimir , como la modulación de código de pulso (PCM o .wav). PCM era el formato estándar para Compact Disc Digital Audio (CDDA), antes de que la compresión con pérdida se convirtiera finalmente en el estándar después de la introducción de MP3.

Historia [ editar ]

Solidyne 922: la primera tarjeta de sonido de compresión de bits de audio comercial del mundo para PC, 1990

En 1950, Bell Labs presentó la patente sobre modulación diferencial de código de impulsos (DPCM). [3] El DPCM adaptativo (ADPCM) fue introducido por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973. [4] [5]

La codificación perceptiva se utilizó por primera vez para la compresión de codificación de voz , con codificación predictiva lineal (LPC). [6] Los conceptos iniciales de LPC se remontan al trabajo de Fumitada Itakura ( Universidad de Nagoya ) y Shuzo Saito ( Nippon Telegraph and Telephone ) en 1966. [7] Durante la década de 1970, Bishnu S. Atal y Manfred R. Schroeder en Bell Labs desarrolló una forma de LPC llamada codificación predictiva adaptativa (APC), un algoritmo de codificación perceptual que explotaba las propiedades de enmascaramiento del oído humano, seguido a principios de la década de 1980 con elalgoritmo de predicción lineal excitada por código (CELP) que logró una relación de compresión significativa para su época. [6] La codificación perceptual es utilizada por formatos modernos de compresión de audio como MP3 [6] y AAC .

Transformada de coseno discreta (DCT), desarrollada por Nasir Ahmed , T. Natarajan y KR Rao en 1974, [8] proporcionó la base para la transformada de coseno discreta modificada (MDCT) utilizada por los formatos de compresión de audio modernos como MP3 [9] y AAC . La TCMD fue propuesta por JP Princen, AW Johnson y AB Bradley en 1987, [10] siguiendo un trabajo anterior de Princen y Bradley en 1986. [11] La TCMD es utilizada por formatos modernos de compresión de audio como Dolby Digital , [12] [13 ] MP3 , [9] y codificación de audio avanzada (AAC). [14]

Lista de formatos con pérdida [ editar ]

General [ editar ]

Discurso [ editar ]

  • Codificación predictiva lineal (LPC)
    • Codificación predictiva adaptativa (APC)
    • Predicción lineal excitada por código (CELP)
    • Predicción lineal excitada por código algebraico (ACELP)
    • Predicción lineal excitada por código relajado (RCELP)
    • CELP de retardo bajo (LD-CELP)
    • Multi-Rate adaptable (utilizado en GSM y 3GPP )
    • Codec2 (conocido por su falta de restricciones de patentes)
    • Speex (conocido por su falta de restricciones de patentes)
  • Transformada de coseno discreta modificada (MDCT)
    • AAC-LD
    • Transformación traslapada de energía restringida (CELT)
    • Opus (principalmente para aplicaciones en tiempo real)

Lista de formatos sin pérdida [ editar ]

  • Apple Lossless (ALAC - Códec de audio Apple Lossless)
  • Codificación acústica de transformación adaptativa (ATRAC)
  • Codificación sin pérdida de audio (también conocida como MPEG-4 ALS)
  • Transferencia directa de flujo (DST)
  • Dolby TrueHD
  • Audio maestro DTS-HD
  • Códec de audio sin pérdida gratuito (FLAC)
  • Transformada de coseno discreta sin pérdidas (LDCT)
  • Embalaje sin pérdidas Meridian (MLP)
  • Monkey's Audio (Monkey's Audio APE)
  • MPEG-4 SLS (también conocido como HD-AAC)
  • OptimFROG
  • Calidad de sonido original (OSQ)
  • RealPlayer (RealAudio Lossless)
  • Acortar (SHN)
  • TTA (True Audio Lossless)
  • WavPack (WavPack sin pérdidas)
  • WMA Lossless (Windows Media Lossless)

Ver también [ editar ]

  • Comparación de formatos de codificación de audio
  • Compresión de datos # Audio
  • Formato de archivo de audio
  • Lista de formatos de compresión de audio

Referencias [ editar ]

  1. ^ El término "codificación de audio" se puede ver, por ejemplo, en el nombre Codificación de audio avanzada , y es análogo al término codificación de video
  2. ^ "Video - ¿Dónde se almacena la información de sincronización en formatos de contenedor?" .
  3. ^ Patente estadounidense 2605361 , C. Chapin Cutler, "Cuantificación diferencial de señales de comunicación", emitida el 29 de julio de 1952 
  4. ^ P. Cummiskey, Nikil S. Jayant y JL Flanagan, "Cuantización adaptativa en la codificación diferencial PCM del habla", Bell Syst. Tech. J. , vol. 52, págs. 1105-1118, septiembre de 1973
  5. ^ Cummiskey, P .; Jayant, Nikil S .; Flanagan, JL (1973). "Cuantificación adaptativa en codificación diferencial PCM de voz". El diario técnico de Bell System . 52 (7): 1105-1118. doi : 10.1002 / j.1538-7305.1973.tb02007.x . ISSN 0005-8580 . 
  6. ↑ a b c Schroeder, Manfred R. (2014). "Laboratorios Bell" . Acústica, información y comunicación: volumen conmemorativo en honor a Manfred R. Schroeder . Saltador. pag. 388. ISBN 9783319056609.
  7. ^ Gray, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: parte II de codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontró. Proceso de la señal de tendencias . 3 (4): 203–303. doi : 10.1561 / 2000000036 . ISSN 1932-8346 .  
  8. ^ Nasir Ahmed ; T. Natarajan; Kamisetty Ramamohan Rao (enero de 1974). "Transformada discreta del coseno" (PDF) . Transacciones IEEE en computadoras . C-23 (1): 90–93. doi : 10.1109 / TC.1974.223784 .
  9. ↑ a b c Guckert, John (primavera de 2012). "El uso de FFT y MDCT en la compresión de audio MP3" (PDF) . Universidad de Utah . Consultado el 14 de julio de 2019 .
  10. ^ JP Princen, AW Johnson y AB Bradley: codificación de subbanda / transformación utilizando diseños de bancos de filtros basados ​​en la cancelación de alias en el dominio del tiempo , IEEE Proc. Intl. Conferencia sobre acústica, habla y procesamiento de señales (ICASSP), 2161-2164, 1987.
  11. ^ John P. Princen, Alan B. Bradley: Diseño de banco de filtros de análisis / síntesis basado en la cancelación de alias en el dominio del tiempo , IEEE Trans. Acoust. Procesamiento de señales de voz, ASSP-34 (5), 1153-1161, 1986.
  12. ↑ a b c d e f Luo, Fa-Long (2008). Estándares de radiodifusión multimedia móvil: tecnología y práctica . Springer Science & Business Media . pag. 590. ISBN 9780387782638.
  13. ^ Britanak, V. (2011). "Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3". Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 19 (5): 1231-1241. doi : 10.1109 / TASL.2010.2087755 .
  14. ↑ a b Brandeburgo, Karlheinz (1999). "MP3 y AAC explicados" (PDF) . Archivado (PDF) desde el original el 13 de febrero de 2017.
  15. ^ "Informe de desarrollador de video 2019" (PDF) . Bitmovin . 2019 . Consultado el 5 de noviembre de 2019 .
  16. ^ Britanak, V. (2011). "Sobre propiedades, relaciones e implementación simplificada de bancos de filtros en los estándares de codificación de audio Dolby Digital (Plus) AC-3". Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 19 (5): 1231-1241. doi : 10.1109 / TASL.2010.2087755 .
  17. Stanković, Radomir S .; Astola, Jaakko T. (2012). "Reminiscencias de los primeros trabajos en DCT: Entrevista con KR Rao" (PDF) . Reimpresiones de los primeros días de las ciencias de la información . 60 . Consultado el 13 de octubre de 2019 .
  18. Fundación Xiph.Org (2 de junio de 2009). "Especificación Vorbis I - 1.1.2 Clasificación" . Fundación Xiph.Org . Consultado el 22 de septiembre de 2009 .
  19. ^ Presentación del códec CELT por Timothy B. Terriberry (65 minutos de video, ver también diapositivas de presentación en PDF)
  20. ^ Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B .; Vos, Koen (octubre de 2013). Codificación de música de alta calidad y bajo retardo en el códec Opus . 135a Convención AES. Sociedad de Ingeniería de Audio . arXiv : 1602.04845 .
  21. Darko, John H. (29 de marzo de 2017). "La verdad incómoda sobre el audio Bluetooth" . DAR__KO . Archivado desde el original el 14 de enero de 2018 . Consultado el 13 de enero de 2018 .
  22. Ford, Jez (24 de agosto de 2015). "¿Qué es Sony LDAC y cómo lo hace?" . AVHub . Consultado el 13 de enero de 2018 .
  23. Ford, Jez (22 de noviembre de 2016). "aptX HD - ¿sin pérdida o con pérdida?" . AVHub . Consultado el 13 de enero de 2018 .
  24. ^ "Formatos de audio de sistemas de teatro digital" . Biblioteca del Congreso . 27 de diciembre de 2011 . Consultado el 10 de noviembre de 2019 .
  25. Spanias, Andreas; Pintor, Ted; Atti, Venkatraman (2006). Procesamiento y codificación de señales de audio . John Wiley e hijos . pag. 338. ISBN 9780470041963.