PSOLA (Pitch Synchronous Overlap and Add) es una técnica de procesamiento de señales digitales utilizada para el procesamiento de voz y, más específicamente, la síntesis de voz . Se puede utilizar para modificar el tono y la duración de una señal de voz. Fue inventado alrededor de 1986. [2]
PSOLA funciona dividiendo la forma de onda del habla en pequeños segmentos superpuestos. Para cambiar el tono de la señal, los segmentos se separan más (para disminuir el tono) o se acercan (para aumentar el tono). Para cambiar la duración de la señal, los segmentos se repiten varias veces (para aumentar la duración) o algunos se eliminan (para disminuir la duración). Luego, los segmentos se combinan utilizando la técnica de superposición y adición .
PSOLA se puede utilizar para cambiar la prosodia de una señal de voz.
Ver también
Referencias
- ^ Grazyna Demenko (1999). Analiza cech suprasegmentalnych jezyka polskiego na potrzeby technologii mowy (PDF) (tesis doctoral). Seria Jezykoznawstwo Stosowane. 17 . Uniwersytet Im. Adama Mickiewicza W Poznaniu. Figura 7.1, p.63.
- ^ Charpentier, F .; Stella, M. (1986). "Síntesis de difonos utilizando una técnica de superposición-suma para la concatenación de formas de onda de voz". ICASSP '86. Conferencia internacional IEEE sobre acústica, habla y procesamiento de señales . 11 . págs. 2015–2018. doi : 10.1109 / ICASSP.1986.1168657 . S2CID 62440369 .
enlaces externos
- Cambio de tono con PSOLA para conversión de voz
- Una tesis que analiza PSOLA con diagramas (formato PDF; consulte la página 35, que es la página 44 del PDF)