Codificación de voz


La codificación de voz es una aplicación de compresión de datos de señales de audio digital que contienen voz . La codificación de voz utiliza la estimación de parámetros específicos del habla utilizando técnicas de procesamiento de señales de audio para modelar la señal de voz, combinadas con algoritmos genéricos de compresión de datos para representar los parámetros modelados resultantes en un flujo de bits compacto. [1]

Algunas aplicaciones de la codificación de voz son la telefonía móvil y la voz sobre IP (VoIP). [2] La técnica de codificación de voz más utilizada en telefonía móvil es la codificación predictiva lineal (LPC), mientras que las más utilizadas en aplicaciones de VoIP son la LPC y las técnicas de transformada de coseno discreta modificada (MDCT). [ cita requerida ]

Las técnicas empleadas en la codificación del habla son similares a las que se utilizan en la compresión de datos de audio y la codificación de audio , donde los conocimientos en psicoacústica se utilizan para transmitir solo datos que son relevantes para el sistema auditivo humano. Por ejemplo, en la codificación de voz en banda de voz, solo se transmite información en la banda de frecuencia de 400 Hz a 3500 Hz, pero la señal reconstruida sigue siendo adecuada para la inteligibilidad .

La codificación del habla se diferencia de otras formas de codificación de audio en que el habla es una señal más simple que la mayoría de las otras señales de audio, y hay mucha más información estadística disponible sobre las propiedades del habla. Como resultado, alguna información auditiva que es relevante en la codificación de audio puede ser innecesaria en el contexto de codificación de voz. En la codificación del habla, el criterio más importante es la preservación de la inteligibilidad y la "simpatía" del habla, con una cantidad restringida de datos transmitidos. [3]

Además, la mayoría de las aplicaciones de voz requieren un retraso de codificación bajo, ya que los retrasos de codificación largos interfieren con la interacción del habla. [4]

Desde este punto de vista, los algoritmos de ley A y ley μ ( G.711 ) utilizados en la telefonía digital PCM tradicional pueden verse como un precursor anterior de la codificación de voz, que requiere solo 8 bits por muestra pero brinda efectivamente 12 bits de resolución. . [6] Las leyes de expansión logarítmica son consistentes con la percepción auditiva humana en el sentido de que un ruido de baja amplitud se escucha junto con una señal de voz de baja amplitud pero está enmascarado por uno de gran amplitud. Aunque esto generaría una distorsión inaceptable en una señal musical, la naturaleza pico de las formas de onda del habla, combinada con la estructura de frecuencia simple del habla como una forma de onda periódica que tiene una frecuencia fundamental únicacon ráfagas de ruido adicionales ocasionales, hacen que estos algoritmos de compresión instantánea muy simples sean aceptables para el habla.