Codificación predictiva lineal


La codificación predictiva lineal ( LPC ) es un método utilizado principalmente en el procesamiento de señales de audio y procesamiento de voz para representar la envolvente espectral de una señal digital de voz en forma comprimida , utilizando la información de un modelo predictivo lineal . [1] [2]

LPC es el método más utilizado en codificación y síntesis de voz . Es una poderosa técnica de análisis de voz y un método útil para codificar voz de buena calidad a una tasa de bits baja.

LPC comienza con la suposición de que una señal de voz es producida por un timbre al final de un tubo (para sonidos sonoros ), con silbidos y estallidos agregados ocasionales (para sonidos sordos como sibilantes y oclusivos ). Aunque aparentemente burdo, este modelo es en realidad una aproximación cercana a la realidad de la producción del habla. La glotis (el espacio entre las cuerdas vocales) produce el zumbido, que se caracteriza por su intensidad ( volumen ) y frecuencia (tono). El tracto vocal (garganta y boca) forma el tubo, que se caracteriza por sus resonancias; estas resonancias dan lugar a formanteso bandas de frecuencia mejoradas en el sonido producido. Los silbidos y estallidos se generan por la acción de la lengua, los labios y la garganta durante las sibilantes y oclusivas.

LPC analiza la señal de voz estimando los formantes, eliminando sus efectos de la señal de voz y estimando la intensidad y frecuencia del zumbido restante. El proceso de eliminar los formantes se denomina filtrado inverso, y la señal restante después de la sustracción de la señal modelada filtrada se denomina residuo.

Los números que describen la intensidad y frecuencia del zumbido, los formantes y la señal de residuo pueden almacenarse o transmitirse en otro lugar. LPC sintetiza la señal de voz invirtiendo el proceso: use los parámetros de zumbido y el residuo para crear una señal de fuente, use los formantes para crear un filtro (que representa el tubo) y ejecute la fuente a través del filtro, lo que da como resultado el habla.

Dado que las señales de voz varían con el tiempo, este proceso se realiza en fragmentos cortos de la señal de voz, que se denominan tramas; generalmente, de 30 a 50 fotogramas por segundo dan una voz inteligible con buena compresión.