Los pares espectrales de línea ( LSP ) o las frecuencias espectrales de línea ( LSF ) se utilizan para representar coeficientes de predicción lineal (LPC) para la transmisión a través de un canal. [1] Los LSP tienen varias propiedades (por ejemplo, menor sensibilidad al ruido de cuantificación) que los hacen superiores a la cuantificación directa de LPC. Por esta razón, los LSP son muy útiles en la codificación de voz .
La representación LSP fue desarrollada por Fumitada Itakura , [2] en Nippon Telegraph and Telephone (NTT) en 1975. [3] De 1975 a 1981, estudió problemas de análisis y síntesis del habla basados en el método LSP. [4] En 1980, su equipo desarrolló un chip sintetizador de voz basado en LSP . LSP es una tecnología importante para la síntesis y codificación de voz, y en la década de 1990 fue adoptada por casi todos los estándares internacionales de codificación de voz como un componente esencial, contribuyendo a la mejora de la comunicación de voz digital a través de canales móviles e Internet en todo el mundo. [5] Los LSP se utilizan en la predicción lineal excitada por código.(CELP), desarrollado por Bishnu S. Atal y Manfred R. Schroeder en 1985.
Fundamento matemático
El polinomio LP se puede expresar como , dónde:
Por construcción, P es un polinomio palindrómico y Q un polinomio antipalindrómico ; físicamente P ( z ) corresponde al tracto vocal con la glotis cerrada y Q ( z ) con la glotis abierta. [6] Se puede demostrar que:
- Las raíces de P y Q se encuentran en el círculo unitario en el plano complejo.
- Las raíces de P se alternan con las de Q a medida que recorremos el círculo.
- Como los coeficientes de P y Q son reales, las raíces ocurren en pares conjugados
La representación del par de líneas espectrales del polinomio LP consiste simplemente en la ubicación de las raíces de P y Q (es decir, tal que ). Como ocurren en pares, solo la mitad de las raíces reales (convencionalmente entre 0 y) deben transmitirse. Por tanto, el número total de coeficientes para P y Q es igual ap , el número de coeficientes LP originales (sin contar).
Un algoritmo común para encontrar estos [7] es evaluar el polinomio en una secuencia de puntos poco espaciados alrededor del círculo unitario, observando cuando el resultado cambia de signo; cuando lo hace, una raíz debe estar entre los puntos probados. Debido a que las raíces de P están intercaladas con las de Q, una sola pasada es suficiente para encontrar las raíces de ambos polinomios.
Para volver a convertir a LPC, debemos evaluar "sincronizando" un impulso a través de él N veces (orden del filtro), produciendo el filtro original, A ( z ).
Propiedades
Los pares espectrales de línea tienen varias propiedades interesantes y útiles. Cuando las raíces de P ( z ) y Q ( z ) están intercaladas, la estabilidad del filtro está asegurada si y solo si las raíces aumentan monótonamente. Además, cuanto más cercanas estén las dos raíces, más resonante será el filtro a la frecuencia correspondiente. Debido a que los LSP no son demasiado sensibles al ruido de cuantificación y la estabilidad se garantiza fácilmente, los LSP se utilizan ampliamente para cuantificar filtros LPC. Las frecuencias espectrales de línea se pueden interpolar.
Ver también
Fuentes
- Manual y código fuente de Speex (lsp.c)
- "El cálculo de frecuencias espectrales de línea utilizando polinomios de Chebyshev" / P. Kabal y RP Ramachandran. IEEE Trans. Acústica, habla, procesamiento de señales, vol. 34, no. 6, págs. 1419-1426, diciembre de 1986.
Incluye una descripción general en relación con LPC.
- Capítulo "Line Spectral Pairs" como extracto en línea (pdf) / "Procesamiento de señales digitales: una perspectiva de las ciencias de la computación" ( ISBN 0-471-29546-9 ) Jonathan Stein .
Referencias
- ^ Sahidullah, Md .; Chakroborty, Sandipan; Saha, Goutam (enero de 2010). "Sobre el uso de frecuencias de pares espectrales de línea perceptiva y momentos residuales de orden superior para la identificación del hablante" . Revista Internacional de Biometría . 2 (4): 358–378. doi : 10.1504 / ijbm.2010.035450 .
- ^ Zheng, F .; Song, Z .; Pequeño.; Yu, W. (1998). "La medida de distancia para pares de espectro de líneas aplicados al reconocimiento de voz" (PDF) . Actas de la 5ª Conferencia Internacional sobre el procesamiento del lenguaje hablado (ICSLP'98) (3): 1123–6.
- ^ "Lista de hitos de IEEE" . IEEE . Consultado el 15 de julio de 2019 .
- ^ "Historia Oral Fumitada Itakura" . Red de historia global IEEE. 20 de mayo de 2009 . Consultado el 21 de julio de 2009 .
- ^ "Lista de hitos de IEEE" . IEEE . Consultado el 15 de julio de 2019 .
- ^ http://svr-www.eng.cam.ac.uk/~ajr/SpeechAnalysis/node51.html#SECTION000713000000000000000 Tony Robinson: Análisis del habla
- ^ por ejemplo, lsf.c en http://www.ietf.org/rfc/rfc3951.txt