La codificación de excitación vectorial armónica , abreviada como HVXC, es un algoritmo de codificación de voz especificado en el estándar MPEG-4 Parte 3 (MPEG-4 Audio) para codificación de voz de muy baja velocidad de bits . HVXC admite velocidades de bits de 2 y 4 kbit / s en el modo de velocidad de bits fija y variable y la frecuencia de muestreo de 8 kHz. También funciona a velocidades de bits más bajas, como 1,2 - 1,7 kbit / s, utilizando una técnica de velocidad de bits variable. [1] El retardo algorítmico total para el codificador y el descodificador es de 36 ms. [2]
Se publicó como subparte 2 de ISO / IEC 14496-3: 1999 (MPEG-4 Audio) en 1999. [3] Se publicó una versión extendida de HVXC en MPEG-4 Audio Version 2 (ISO / IEC 14496-3: 1999 / Enmienda 1: 2000). [4] [5]
El conjunto de herramientas de codificación de voz natural MPEG-4 utiliza dos algoritmos: HVXC y CELP ( predicción lineal excitada por código ). HVXC se utiliza a una velocidad de bits baja de 2 o 4 kbit / s. CELP cubre velocidades de bits superiores a 4 kbit / s además de 3,85 kbit / s. [6]
Tecnología
Codificación predictiva lineal
HVXC utiliza codificación predictiva lineal (LPC) con adaptación por bloques cada 20 ms. [2] Los parámetros LPC se transforman en coeficientes de par espectral de línea (LSP), que se cuantifican conjuntamente. [2] La señal residual LPC se clasifica como sonora o sorda . En el caso de la voz sonora, el residual se codifica en una representación paramétrica (operando como un codificador de voz ), mientras que en el caso de la voz sorda, la forma de onda residual se cuantifica (operando así como códec de voz híbrido).
Codificación residual sonora (armónica)
En los segmentos sonoros, la señal residual está representada por dos parámetros: el período de tono y la envolvente espectral. [2] El período de tono se estima a partir de los valores máximos de la autocorrelación de la señal residual. [2] En este proceso, la señal residual se compara con copias desplazadas de sí misma, y el desplazamiento que produce la mayor similitud por medida de dependencia lineal se identifica como el período de tono. La envolvente espectral está representada por un conjunto de valores de amplitud, uno por armónico . [2] Para extraer estos valores, la señal residual LPC se transforma en el dominio DFT . [2] El espectro DFT está segmentado en bandas, una banda por armónico. La banda de frecuencia para el armónico m-ésimo consiste en los coeficientes DFT de (m-1/2) ω 0 a (m + 1/2) ω 0 , siendo ω 0 la frecuencia de tono. [2] El valor de amplitud para el armónico m-ésimo se elige para representar de manera óptima estos coeficientes DFT. [2] La información de fase se descarta en este proceso. A continuación, la envolvente espectral se codifica utilizando cuantificación vectorial ponderada de dimensión variable . Este proceso también se conoce como Harmonic VQ .
Para hacer que el habla con una mezcla de excitación sonora y sorda suene más natural y suave, se diferencian tres modos diferentes de habla sonora (Mixed Voiced-1, Mixed Voiced-2, Full Voice). [2] El grado de sonorización está determinado por el valor de la función de autocorrelación normalizada en un cambio de un período de tono. Dependiendo del modo elegido, el decodificador agrega diferentes cantidades de ruido gaussiano de paso de banda a la señal armónica sintetizada.
Codificación residual sin voz (VXC)
Los segmentos sordos se codifican de acuerdo con el esquema CELP , que también se conoce como codificación de excitación vectorial (VXC). [2] La codificación CELP en HVXQ se realiza utilizando únicamente un libro de códigos estocástico. En otros códecs CELP, se utiliza además un libro de códigos dinámico para realizar predicciones a largo plazo de segmentos sonoros. Sin embargo, dado que HVXC no usa CELP para segmentos sonoros, el libro de códigos dinámicos se omite del diseño.
Ver también
Referencias
- ^ ISO / IEC (2009-09-01), ISO / IEC 14496-3: 2009 - Tecnología de la información - Codificación de objetos audiovisuales - Parte 3: Audio (PDF) , IEC , recuperada 2009-10-07
- ^ a b c d e f g h yo j k Masayuki Nishiguchi (2006-04-17), Armónica vector de excitación de codificación del habla (PDF) , Acústica Ciencia y Tecnología , recuperada 2009-10-09
- ^ ISO (1999). "ISO / CEI 14496-3: 1999 - Tecnología de la información - Codificación de objetos audiovisuales - Parte 3: Audio" . ISO . Consultado el 9 de octubre de 2009 .
- ^ ISO (2000). "ISO / IEC 14496-3: 1999 / Amd 1: 2000 - Extensiones de audio" . ISO . Consultado el 7 de octubre de 2009 .
- ^ ISO / IEC JTC 1 / SC 29 / WG 11 (julio de 1999), ISO / IEC 14496-3: /Amd.1 - Borrador final del comité - MPEG-4 Audio Versión 2 (PDF) , archivado desde el original (PDF) en 2012-08-01 , consultado el 2009-10-07
- ^ Karlheinz Brandenburg; Oliver Kunz; Akihiko Sugiyama. "Codificación de audio natural MPEG-4 - Herramientas de codificación de voz natural" (PDF) . Consultado el 25 de marzo de 2013 .