Estiramiento de tiempo de audio y escala de tono


La extensión de tiempo es el proceso de cambiar la velocidad o la duración de una señal de audio sin afectar su tono . La escala de tono es lo contrario: el proceso de cambiar el tono sin afectar la velocidad. El cambio de tono es una escala de tono implementada en una unidad de efectos y diseñada para presentaciones en vivo. El control de tono es un proceso más simple que afecta el tono y la velocidad simultáneamente al ralentizar o acelerar una grabación.

Estos procesos se utilizan a menudo para hacer coincidir los tonos y tempos de dos clips pregrabados para mezclar cuando los clips no se pueden volver a ejecutar o muestrear. La ampliación de tiempo se utiliza a menudo para ajustar los anuncios de radio [1] y el audio de los anuncios de televisión [2] para que encajen exactamente en los 30 o 60 segundos disponibles. Se puede utilizar para ajustar material más largo a un intervalo de tiempo designado, como una transmisión de 1 hora.

La forma más sencilla de cambiar la duración o el tono de una grabación de audio es cambiar la velocidad de reproducción. Para una grabación de audio digital , esto se puede lograr a través de la conversión de frecuencia de muestreo . Desafortunadamente, las frecuencias en la grabación siempre se escalan en la misma proporción que la velocidad, transportando su tono percibido hacia arriba o hacia abajo en el proceso. Disminuir la velocidad de la grabación para aumentar la duración también reduce el tono, acelerarla para una duración más corta también aumenta el tono creando el efecto Chipmunk . Por lo tanto, los dos efectos no se pueden separar cuando se usa este método. Una pista de percusión que no contenga instrumentos afinados se puede convertir con una frecuencia de muestreo moderada para ajustar el tempo sin efectos adversos, pero una pista afinada no.

Una forma de estirar la longitud de una señal sin afectar el tono es construir un codificador de voz de fase después de Flanagan, Golden y Portnoff.

El codificador de voz de fase maneja bien los componentes sinusoidales , pero las primeras implementaciones introdujeron una mancha considerable en las formas de onda transitorias ("latidos") en todas las tasas de compresión/expansión no enteras, lo que hace que los resultados sean escalonados y difusos. Las mejoras recientes permiten obtener resultados de mejor calidad en todas las relaciones de compresión/expansión, pero aún persiste un efecto de borrosidad residual.

La técnica del codificador de voz de fase también se puede utilizar para realizar cambios de tono, coros, manipulación de timbre, armonización y otras modificaciones inusuales, todas las cuales se pueden cambiar en función del tiempo.


Sistema de análisis/síntesis sinusoidal (basado en McAulay & Quatieri 1988 , p. 161) [4]
Modelado de un sonido monofónico como observación a lo largo de una hélice de una función con un dominio de cilindro
Enfoque basado en tramas de muchos procedimientos TSM
El cambio de frecuencia proporcionado por Bode Frequency Shifter no mantiene la relación de frecuencia ni la armonía.