Codificación predictiva lineal


La codificación predictiva lineal ( LPC ) es un método utilizado principalmente en el procesamiento de señales de audio y procesamiento de voz para representar la envolvente espectral de una señal digital de voz en forma comprimida , utilizando la información de un modelo predictivo lineal . [1] [2]

LPC es el método más utilizado en codificación y síntesis de voz . Es una poderosa técnica de análisis de voz y un método útil para codificar voz de buena calidad a una tasa de bits baja.

LPC comienza con la suposición de que una señal de voz es producida por un zumbador al final de un tubo (para sonidos con voz ), con silbidos y chasquidos agregados ocasionalmente (para sonidos sordos como sibilantes y oclusivas ). Aunque aparentemente tosco, este modelo es en realidad una aproximación cercana a la realidad de la producción del habla. La glotis (el espacio entre las cuerdas vocales) produce el zumbido, que se caracteriza por su intensidad ( sonoridad ) y frecuencia (tono). El tracto vocal (la garganta y la boca) forma el tubo, que se caracteriza por sus resonancias; estas resonancias dan lugar a formantes, o bandas de frecuencia mejoradas en el sonido producido. Los silbidos y los estallidos son generados por la acción de la lengua, los labios y la garganta durante las sibilancias y oclusivas.

LPC analiza la señal de voz estimando los formantes, eliminando sus efectos de la señal de voz y estimando la intensidad y frecuencia del zumbido restante. El proceso de eliminar los formantes se denomina filtrado inverso, y la señal restante después de la resta de la señal modelada filtrada se denomina residuo.

Los números que describen la intensidad y la frecuencia del zumbido, los formantes y la señal residual pueden almacenarse o transmitirse a otro lugar. LPC sintetiza la señal de voz invirtiendo el proceso: use los parámetros de zumbido y el residuo para crear una señal fuente, use los formantes para crear un filtro (que representa el tubo) y pase la fuente a través del filtro, lo que da como resultado el habla.

Debido a que las señales de voz varían con el tiempo, este proceso se realiza en fragmentos cortos de la señal de voz, que se denominan tramas; generalmente, de 30 a 50 fotogramas por segundo dan un habla inteligible con buena compresión.