Codificación de voz


De Wikipedia, la enciclopedia libre
  (Redirigido desde el codificador de voz )
Saltar a navegación Saltar a búsqueda

La codificación de voz es una aplicación de compresión de datos de señales de audio digitales que contienen voz . La codificación de voz usa la estimación de parámetros específicos de voz usando técnicas de procesamiento de señales de audio para modelar la señal de voz, combinada con algoritmos de compresión de datos genéricos para representar los parámetros modelados resultantes en un flujo de bits compacto. [1]

Algunas aplicaciones de la codificación de voz son la telefonía móvil y la voz sobre IP (VoIP). [2] La técnica de codificación de voz más utilizada en telefonía móvil es la codificación predictiva lineal (LPC), mientras que las más utilizadas en aplicaciones de VoIP son las técnicas de LPC y de transformada de coseno discreta modificada (MDCT). [ cita requerida ]

Las técnicas empleadas en la codificación del habla son similares a las utilizadas en la compresión de datos de audio y la codificación de audio, donde el conocimiento en psicoacústica se usa para transmitir solo datos que son relevantes para el sistema auditivo humano. Por ejemplo, en la codificación de voz en banda vocal , solo se transmite información en la banda de frecuencia de 400 Hz a 3500 Hz, pero la señal reconstruida sigue siendo adecuada para la inteligibilidad .

La codificación de voz se diferencia de otras formas de codificación de audio en que la voz es una señal más simple que la mayoría de las otras señales de audio y hay mucha más información estadística disponible sobre las propiedades de la voz. Como resultado, cierta información auditiva que es relevante en la codificación de audio puede ser innecesaria en el contexto de codificación de voz. En la codificación de voz, el criterio más importante es la preservación de la inteligibilidad y "agradabilidad" de la voz, con una cantidad limitada de datos transmitidos. [3]

Además, la mayoría de las aplicaciones de voz requieren un retardo de codificación bajo, ya que los retardos de codificación prolongados interfieren con la interacción del habla. [4]

Categorías

Los codificadores de voz son de dos tipos: [5]

  1. Codificadores de forma de onda
    • Dominio del tiempo: PCM , ADPCM
    • Dominio de frecuencia: codificación de subbanda , ATRAC
  2. Codificadores de voz
    • Codificación predictiva lineal (LPC)
    • Codificación de formantes

Compresión de muestra vista como una forma de codificación de voz

Desde este punto de vista, la ley A y algoritmos μ de derecho ( G.711 ) utilizado en tradicional PCM telefonía digital pueden ser vistos como un precursor anterior de codificación de voz, que requiere sólo 8 bits por muestra, pero dando efectivamente 12 bits de resolución . [6] Las leyes de compresión logarítmica son consistentes con la percepción auditiva humana en el sentido de que un ruido de baja amplitud se escucha a lo largo de una señal de voz de baja amplitud pero está enmascarado por una de alta amplitud. Aunque esto generaría una distorsión inaceptable en una señal musical, la naturaleza pico de las formas de onda del habla, combinada con la estructura de frecuencia simple del habla como una forma de onda periódica que tiene una sola frecuencia fundamental. con ráfagas de ruido añadidas ocasionales, estos algoritmos de compresión instantánea muy simples son aceptables para el habla.

En ese momento, se probaron una amplia variedad de otros algoritmos, principalmente en variantes de modulación delta , pero después de una cuidadosa consideración, los diseñadores de los primeros sistemas de telefonía digital eligieron los algoritmos A-law / μ-law. En el momento de su diseño, su reducción del 33% del ancho de banda para una complejidad muy baja supuso un excelente compromiso de ingeniería. Su rendimiento de audio sigue siendo aceptable y no hubo necesidad de reemplazarlos en la red telefónica fija.

En 2008, el códec G.711.1 , que tiene una estructura escalable, fue estandarizado por ITU-T. La frecuencia de muestreo de entrada es de 16 kHz.

Compresión de voz moderna

Gran parte de los trabajos posteriores en compresión de voz fueron motivados por la investigación militar en comunicaciones digitales para radios militares seguras , donde se requerían velocidades de datos muy bajas para permitir un funcionamiento efectivo en un entorno de radio hostil. Al mismo tiempo, se disponía de mucha más potencia de procesamiento , en forma de circuitos VLSI , que la disponible para técnicas de compresión anteriores. Como resultado, los algoritmos modernos de compresión de voz podrían utilizar técnicas mucho más complejas que las disponibles en la década de 1960 para lograr relaciones de compresión mucho más altas.

Estas técnicas estaban disponibles a través de la literatura de investigación abierta para su uso en aplicaciones civiles, lo que permitió la creación de redes de telefonía móvil digital con capacidades de canal sustancialmente más altas que los sistemas analógicos que las precedieron. [ cita requerida ]

Los algoritmos de codificación de voz más utilizados se basan en la codificación predictiva lineal (LPC). [7] En particular, el esquema de codificación de voz más común es la codificación de predicción lineal excitada por código ( CELP ) basada en LPC , que se utiliza, por ejemplo, en el estándar GSM . En CELP, el modelado se divide en dos etapas, una etapa predictiva lineal que modela la envolvente espectral y el modelo basado en libro de códigos del residuo del modelo predictivo lineal. En CELP, los coeficientes de predicción lineal (LPC) se calculan y cuantifican, generalmente como pares espectrales de línea (LSP). Además de la codificación de voz real de la señal, a menudo es necesario utilizarcodificación de canal para transmisión, para evitar pérdidas por errores de transmisión. Por lo general, los métodos de codificación de voz y de canal deben elegirse en pares, con los bits más importantes en el flujo de datos de voz protegidos por una codificación de canal más robusta, con el fin de obtener los mejores resultados generales de codificación.

La transformada de coseno discreta modificada (MDCT), un tipo de algoritmo de transformada de coseno discreta (DCT), se adaptó a un algoritmo de codificación de voz llamado LD-MDCT, utilizado para el formato AAC-LD introducido en 1999. [8] Desde entonces, la MDCT ha sido ampliamente adoptadas en voz sobre IP (VoIP) aplicaciones, tales como el G.729.1 audio de banda ancha códec introducido en 2006, [9] de Apple 's Facetime (usando AAC-LD) introducido en 2010, [10] el y CELT códec introducido en 2011. [11]

Opus es un codificador de voz de software libre . Combina los algoritmos de compresión de audio MDCT y LPC . [12] Es muy utilizado para llamadas VoIP en WhatsApp . [13] [14] [15] La consola de videojuegos PlayStation 4 también usa el códec CELT / Opus para su chat de fiesta del sistema PlayStation Network . [dieciséis]

Codec2 es otro codificador de voz de software libre , que logra lograr una compresión muy buena, tan baja como 700 bit / s. [17]

Subcampos

Codificación de audio de banda ancha
  • Codificación predictiva lineal (LPC)
    • AMR-WB para redes WCDMA
    • VMR-WB para redes CDMA2000
    • Speex , IP-MR, SILK y Opus para voz sobre IP (VoIP) y videoconferencias
  • Transformada de coseno discreta modificada (MDCT)
    • AAC-LD , G.722.1 , G.729.1 , CELT y Opus para VoIP y videoconferencia
  • Modulación de código de pulso diferencial adaptativo (ADPCM)
    • G.722 para VoIP
Codificación de audio de banda estrecha
  • LPC
    • FNBDT para aplicaciones militares
    • SMV para redes CDMA
    • Full Rate , Half Rate , EFR y AMR para redes GSM
    • G.723.1 , G.728 , G.729 , G.729.1 e iLBC para VoIP o videoconferencia
  • ADPCM
    • G.726 para VoIP

Ver también

  • Compresión de datos de audio
  • Procesamiento de señales de audio
  • Compresión de datos
  • Procesamiento de señales digitales
  • Predicción lineal
  • Teléfono móvil
  • Modulación de código de impulsos
  • Modelo psicoacústico
  • Directriz de interfaz de voz
  • Procesamiento de voz
  • Síntesis de voz
  • Telecomunicación
  • Cuantización vectorial
  • Codificador de voz

Referencias

  1. ^ M. Arjona Ramírez y M. Minami, "Codificación de voz de baja tasa de bits", en Wiley Encyclopedia of Telecommunications, JG Proakis, Ed., Nueva York: Wiley, 2003, vol. 3, págs. 1299-1308.
  2. ^ M. Arjona Ramírez y M. Minami, "Tecnología y estándares para métodos de codificación de voz de baja tasa de bits", en The Handbook of Computer Networks, H. Bidgoli, Ed., Nueva York: Wiley, 2011, vol. 2, págs. 447–467.
  3. ^ P. Kroon, "Evaluación de codificadores de voz", en Codificación y síntesis de voz, W. Bastiaan Kleijn y KK Paliwal, Ed., Amsterdam: Elsevier Science, 1995, págs. 467-494.
  4. ^ JH Chen, RV Cox, Y.-C. Lin, NS Jayant y MJ Melchner, un codificador CELP de bajo retardo para el estándar de codificación de voz CCITT de 16 kb / s. IEEE J. Seleccione. Áreas Comun. 10 (5): 830-849, junio de 1992.
  5. ^ Soo Hyun Bae, ECE 8873 Compresión y modelado de datos, Instituto de tecnología de Georgia, 2004
  6. ^ NS Jayant y P. Noll, Codificación digital de formas de onda. Englewood Cli ff s: Prentice-Hall, 1984.
  7. ^ Gupta, Shipra (mayo de 2016). "Aplicación de MFCC en reconocimiento de oradores independientes de texto" (PDF) . Revista Internacional de Investigación Avanzada en Ciencias de la Computación e Ingeniería de Software . 6 (5): 805-810 (806). ISSN  2277-128X . S2CID  212485331 . Archivado desde el original (PDF) el 18 de octubre de 2019 . Consultado el 18 de octubre de 2019 .
  8. ^ Schnell, Markus; Schmidt, Markus; Jander, Manuel; Albert, Tobías; Geiger, Ralf; Ruoppila, Vesa; Ekstrand, Per; Bernhard, Grill (octubre de 2008). MPEG-4 Enhanced Low Delay AAC: un nuevo estándar para comunicaciones de alta calidad (PDF) . 125a Convención AES. Fraunhofer IIS . Sociedad de Ingeniería de Audio . Consultado el 20 de octubre de 2019 .
  9. ^ Nagireddi, Sivannarayana (2008). Procesamiento de señales de voz y fax de VoIP . John Wiley e hijos . pag. 69. ISBN 9780470377864.
  10. ^ Daniel Eran Dilger (8 de junio de 2010). "Dentro del iPhone 4: videollamadas FaceTime" . AppleInsider . Consultado el 9 de junio de 2010 .
  11. ^ Presentación del códec CELT por Timothy B. Terriberry (65 minutos de video, ver también diapositivas de presentación en PDF)
  12. ^ Valin, Jean-Marc; Maxwell, Gregory; Terriberry, Timothy B .; Vos, Koen (octubre de 2013). Codificación de música de alta calidad y bajo retardo en el códec Opus . 135a Convención AES. Sociedad de Ingeniería de Audio . arXiv : 1602.04845 .
  13. ^ Leyden, John (27 de octubre de 2015). "WhatsApp al descubierto: las entrañas de la aplicación de succión de información sondeadas" . El registro . Consultado el 19 de octubre de 2019 .
  14. ^ Hazra, Sudip; Mateti, Prabhaker (13 al 16 de septiembre de 2017). "Desafíos en la ciencia forense de Android" . En Thampi, Sabu M .; Pérez, Gregorio Martínez; Westphall, Carlos Becker; Hu, Jiankun; Fan, Chun I .; Mármol, Félix Gómez (eds.). Seguridad en la Computación y las Comunicaciones: 5to Simposio Internacional, SSCC 2017 . Saltador. págs. 286-299 (290). doi : 10.1007 / 978-981-10-6898-0_24 . ISBN 9789811068980.
  15. ^ Srivastava, Saurabh Ranjan; Dube, Sachin; Shrivastaya, Gulshan; Sharma, Kavita (2019). "Desafíos de seguridad activados por teléfonos inteligentes: problemas, estudios de caso y prevención" . En Le, Dac-Nhuong; Kumar, Raghvendra; Mishra, Brojo Kishore; Chatterjee, Jyotir Moy; Khari, Manju (eds.). Ciberseguridad en Computación Paralela y Distribuida: Conceptos, Técnicas, Aplicaciones y Casos de Estudio . Ciberseguridad en Computación Paralela y Distribuida . John Wiley e hijos. págs. 187–206 (200). doi : 10.1002 / 9781119488330.ch12 . ISBN 9781119488057.
  16. ^ "Software de código abierto utilizado en PlayStation®4" . Sony Interactive Entertainment Inc . Consultado el 11 de diciembre de 2017 .
  17. ^ "GitHub - Codec2" . Noviembre de 2019.

enlaces externos

  • Varios enlaces de codificación de voz
  • Señales de prueba ITU-T para muestras de prueba de sistemas de telecomunicaciones
  • Fuentes de la herramienta de evaluación perceptual de la calidad del habla (PESQ) del UIT-T
Obtenido de " https://en.wikipedia.org/w/index.php?title=Speech_coding&oldid=1028218842 "