El método de reasignación es una técnica para agudizar una representación de tiempo-frecuencia al mapear los datos a coordenadas de tiempo-frecuencia que están más cerca de la verdadera región de soporte de la señal analizada. El método ha sido introducido de forma independiente por varios partidos bajo varios nombres, incluyendo el método de reasignación , reasignación , la reasignación de tiempo-frecuencia , y modificada método de ventana móvil . [1] En el caso del espectrograma o la transformada de Fourier de corta duración, el método de reasignación agudiza los datos borrosos de frecuencia de tiempo al reubicar los datos de acuerdo con estimaciones locales de frecuencia instantánea y retardo de grupo. Este mapeo de coordenadas de tiempo-frecuencia reasignadas es muy preciso para señales que son separables en tiempo y frecuencia con respecto a la ventana de análisis.
Introducción
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/d/da/Reassigned_spectrogral_surface_of_bass_pluck.png/400px-Reassigned_spectrogral_surface_of_bass_pluck.png)
Muchas señales de interés tienen una distribución de energía que varía en el tiempo y la frecuencia. Por ejemplo, cualquier señal de sonido que tenga un principio o un final tiene una distribución de energía que varía en el tiempo, y la mayoría de los sonidos presentan una variación considerable tanto en el tiempo como en la frecuencia a lo largo de su duración. Las representaciones de frecuencia de tiempo se utilizan comúnmente para analizar o caracterizar tales señales. Ellos mapean la señal unidimensional en el dominio del tiempo en una función bidimensional de tiempo y frecuencia. Una representación de frecuencia de tiempo describe la variación de la distribución de energía espectral a lo largo del tiempo, tanto como una partitura musical describe la variación del tono musical a lo largo del tiempo.
En el análisis de señales de audio, el espectrograma es la representación de tiempo-frecuencia más comúnmente utilizada, probablemente porque se entiende bien y es inmune a los llamados "términos cruzados" que a veces hacen que otras representaciones de tiempo-frecuencia sean difíciles de interpretar. Pero la operación de ventana requerida en el cálculo del espectrograma introduce una compensación desagradable entre la resolución de tiempo y la resolución de frecuencia, por lo que los espectrogramas proporcionan una representación de tiempo-frecuencia que es borrosa en el tiempo, en frecuencia o en ambas dimensiones. El método de reasignación de tiempo-frecuencia es una técnica para reenfocar datos de tiempo-frecuencia en una representación borrosa como el espectrograma al mapear los datos a coordenadas de tiempo-frecuencia que están más cerca de la verdadera región de soporte de la señal analizada.
El espectrograma como representación de tiempo-frecuencia
Una de las representaciones de tiempo-frecuencia más conocidas es el espectrograma, definido como la magnitud al cuadrado de la transformada de Fourier de corta duración. Aunque se sabe que el espectro de fase de tiempo corto contiene información temporal importante sobre la señal, esta información es difícil de interpretar, por lo que normalmente solo se considera el espectro de magnitud de tiempo corto en el análisis espectral de tiempo corto.
Como representación de frecuencia de tiempo, el espectrograma tiene una resolución relativamente pobre. La resolución de tiempo y frecuencia se rige por la elección de la ventana de análisis y una mayor concentración en un dominio se acompaña de una mayor mancha en el otro.
Una representación de tiempo-frecuencia que tiene una resolución mejorada, en relación con el espectrograma, es la distribución de Wigner-Ville , que puede interpretarse como una transformada de Fourier de corta duración con una función de ventana que se adapta perfectamente a la señal. La distribución de Wigner-Ville está altamente concentrada en el tiempo y la frecuencia, pero también es altamente no lineal y no local. En consecuencia, esta distribución es muy sensible al ruido y genera componentes cruzados que a menudo enmascaran los componentes de interés, lo que dificulta la extracción de información útil sobre la distribución de energía en señales multicomponente.
La clase de Cohen de representaciones de tiempo-frecuencia bilineales es una clase de distribuciones de Wigner-Ville "suavizadas", que emplean un núcleo suavizante que puede reducir la sensibilidad de la distribución al ruido y suprime los componentes cruzados, a expensas de difuminar la distribución en tiempo y frecuencia. . Esta mancha hace que la distribución sea distinta de cero en regiones donde la verdadera distribución de Wigner-Ville no muestra energía.
El espectrograma es un miembro de la clase de Cohen. Es una distribución de Wigner-Ville suavizada con el kernel de suavizado igual a la distribución de Wigner-Ville de la ventana de análisis. El método de reasignación suaviza la distribución de Wigner-Ville, pero luego vuelve a enfocar la distribución a las verdaderas regiones de soporte de los componentes de la señal. Se ha demostrado que el método reduce el tiempo y la frecuencia de las manchas de cualquier miembro de la clase de Cohen [2] . [3] En el caso del espectrograma reasignado, el espectro de fase de tiempo corto se usa para corregir el tiempo nominal y las coordenadas de frecuencia de los datos espectrales, y mapearlo más cerca de las verdaderas regiones de soporte de la señal analizada.
El método de reasignación
Kodera, Gendrin y de Villedary publicaron un trabajo pionero sobre el método de reasignación bajo el nombre de Método de ventana móvil modificada [4] Su técnica mejora la resolución en tiempo y frecuencia del Método de ventana móvil clásico (equivalente al espectrograma) por asignar a cada punto de datos una nueva coordenada de tiempo-frecuencia que refleje mejor la distribución de energía en la señal analizada.
En el método clásico de ventana móvil, una señal en el dominio del tiempo, se descompone en un conjunto de coeficientes, , basado en un conjunto de señales elementales, , definido
dónde es una función del kernel de paso bajo (de valor real), como la función de ventana en la transformada de Fourier de corta duración. Los coeficientes en esta descomposición se definen
dónde es la magnitud, y la fase, de , la transformada de Fourier de la señal cambiado en el tiempo por y ventana por .
se puede reconstruir a partir de los coeficientes de la ventana móvil mediante
Para señales que tienen espectros de magnitud, , cuya variación en el tiempo es lenta en relación con la variación de fase, la contribución máxima a la integral de reconstrucción proviene de la vecindad del punto satisfaciendo la condición de estacionariedad de fase
o equivalentemente, alrededor del punto definido por
Este fenómeno se conoce en campos como la óptica como el principio de fase estacionaria , que establece que para señales periódicas o cuasi-periódicas, la variación del espectro de fase de Fourier no atribuible a la oscilación periódica es lenta con respecto al tiempo en las proximidades de la frecuencia de oscilación, y en las regiones circundantes la variación es relativamente rápida. De manera análoga, para las señales impulsivas, que se concentran en el tiempo, la variación del espectro de fase es lenta con respecto a la frecuencia cercana al momento del impulso, y en las regiones circundantes la variación es relativamente rápida.
En la reconstrucción, las contribuciones positivas y negativas a la forma de onda sintetizada se cancelan, debido a la interferencia destructiva, en las regiones de frecuencia de rápida variación de fase. Solo las regiones de variación de fase lenta (fase estacionaria) contribuirán significativamente a la reconstrucción, y la contribución máxima (centro de gravedad) ocurre en el punto donde la fase está cambiando más lentamente con respecto al tiempo y la frecuencia.
Las coordenadas de tiempo-frecuencia así calculadas son iguales al retardo del grupo local, y frecuencia instantánea local, y se calculan a partir de la fase de la transformada de Fourier de corta duración, que normalmente se ignora al construir el espectrograma. Estas cantidades son locales en el sentido de que representan una señal filtrada y en ventana que está localizada en tiempo y frecuencia, y no son propiedades globales de la señal bajo análisis.
El método de ventana móvil modificado, o método de reasignación, cambia (reasigna) el punto de atribución de a este punto de máxima contribución , en lugar de ir al grano en el que se calcula. Este punto a veces se denomina centro de gravedad de la distribución, por analogía con una distribución de masa. Esta analogía es un recordatorio útil de que la atribución de energía espectral al centro de gravedad de su distribución solo tiene sentido cuando hay energía para atribuir, por lo que el método de reasignación no tiene significado en los puntos donde el espectrograma tiene valor cero.
Cálculo eficiente de tiempos y frecuencias reasignados
En el procesamiento de señales digitales, es más común muestrear los dominios de tiempo y frecuencia. La transformada discreta de Fourier se utiliza para calcular muestras de la transformada de Fourier a partir de muestras de una señal en el dominio del tiempo. Las operaciones de reasignación propuestas por Kodera et al. no se puede aplicar directamente a los datos discretos de la transformada de Fourier de corto tiempo, porque las derivadas parciales no se pueden calcular directamente sobre datos discretos en tiempo y frecuencia, y se ha sugerido que esta dificultad ha sido la barrera principal para un uso más amplio del método de reasignación.
Es posible aproximar las derivadas parciales usando diferencias finitas. Por ejemplo, el espectro de fase se puede evaluar en dos momentos cercanos, y la derivada parcial con respecto al tiempo se puede aproximar como la diferencia entre los dos valores dividida por la diferencia de tiempo, como en
Para valores suficientemente pequeños de y y siempre que la diferencia de fase se "desenvuelva" adecuadamente, este método de diferencias finitas produce buenas aproximaciones a las derivadas parciales de fase, porque en regiones del espectro en las que la evolución de la fase está dominada por la rotación debida a la oscilación sinusoidal de un componente único, cercano, la fase es una función lineal.
Independientemente de Kodera et al. Nelson llegó a un método similar para mejorar la precisión tiempo-frecuencia de los datos espectrales de tiempo corto a partir de derivadas parciales del espectro de fase de tiempo corto. [5] Se muestra fácilmente que las superficies espectrales cruzadas de Nelson calculan una aproximación de las derivadas que es equivalente al método de diferencias finitas.
Auger y Flandrin demostraron que el método de reasignación, propuesto en el contexto del espectrograma por Kodera et al., Podría extenderse a cualquier miembro de la clase de representaciones de frecuencia de tiempo de Cohen generalizando las operaciones de reasignación a
dónde es la distribución de Wigner-Ville de , y es la función del kernel que define la distribución. Describieron además un método eficiente para calcular los tiempos y frecuencias para el espectrograma reasignado de manera eficiente y precisa sin calcular explícitamente las derivadas parciales de fase. [2]
En el caso del espectrograma, las operaciones de reasignación se pueden calcular mediante
dónde es la transformada de Fourier de corto tiempo calculada usando una ventana de análisis es la transformada de Fourier de corta duración calculada mediante una ventana de análisis ponderada en el tiempo y es la transformada de Fourier de corto tiempo calculada usando una ventana de análisis derivada del tiempo .
Uso de las funciones de la ventana auxiliar y , las operaciones de reasignación se pueden calcular en cualquier coordenada de frecuencia de tiempo a partir de una combinación algebraica de tres transformadas de Fourier evaluadas en . Dado que estos algoritmos operan solo con datos espectrales de tiempo corto evaluados en un solo tiempo y frecuencia, y no calculan explícitamente ninguna derivada, esto proporciona un método eficiente para calcular la transformada de Fourier discreta de tiempo corto reasignada.
Una restricción en este método de cálculo es que el debe ser distinto de cero. Esto no es una gran restricción, ya que la operación de reasignación en sí misma implica que hay algo de energía para reasignar y no tiene sentido cuando la distribución tiene valor cero.
Posibilidad de separación
La transformada de Fourier de corta duración a menudo se puede utilizar para estimar las amplitudes y fases de los componentes individuales en una señal de varios componentes , como un tono de instrumento musical cuasi-armónico. Además, las operaciones de reasignación de tiempo y frecuencia se pueden utilizar para afinar la representación atribuyendo la energía espectral informada por la transformada de Fourier de corta duración al punto que es el centro de gravedad local de la distribución de energía compleja.
Para una señal que consta de un solo componente, la frecuencia instantánea se puede estimar a partir de las derivadas parciales de fase de cualquier canal de transformada de Fourier de corta duración que pase por el componente. Si la señal se va a descomponer en muchos componentes,
y la frecuencia instantánea de cada componente se define como la derivada de su fase con respecto al tiempo, es decir,
luego, la frecuencia instantánea de cada componente individual se puede calcular a partir de la fase de la respuesta de un filtro que pasa ese componente, siempre que no haya más de un componente en la banda de paso del filtro.
Esta es la propiedad, en el dominio de la frecuencia, que Nelson llamó separabilidad [5] y se requiere de todas las señales así analizadas. Si no se cumple esta propiedad, entonces no se puede lograr la descomposición multicomponente deseada, porque los parámetros de los componentes individuales no se pueden estimar a partir de la transformada de Fourier de corta duración. En tales casos, se debe elegir una ventana de análisis diferente para que se satisfaga el criterio de separabilidad.
Si los componentes de una señal son separables en frecuencia con respecto a una ventana particular de análisis espectral de tiempo corto, entonces la salida de cada filtro de transformada de Fourier de tiempo corto es una versión filtrada de, como máximo, un solo dominante (que tiene una energía significativa) componente, y por lo tanto la derivada, con respecto al tiempo, de la fase de la es igual a la derivada con respecto al tiempo, de la fase del componente dominante en Por lo tanto, si un componente, tener frecuencia instantánea es el componente dominante en las proximidades de entonces la frecuencia instantánea de ese componente se puede calcular a partir de la fase de la transformada de Fourier de corta duración evaluada en Es decir,
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/e/e8/Long-window_reassigned_spectrogram_of_speech.png/400px-Long-window_reassigned_spectrogram_of_speech.png)
![](http://wikiimg.tojsiabtv.com/wikipedia/commons/thumb/c/c6/Short-window_reassigned_spectrogram_of_speech.png/400px-Short-window_reassigned_spectrogram_of_speech.png)
Así como cada filtro de paso de banda en el banco de filtros de transformada de Fourier de corto tiempo puede pasar como máximo una sola componente exponencial compleja, dos eventos temporales deben estar suficientemente separados en el tiempo para que no se encuentren en el mismo segmento de ventana de la señal de entrada. Esta es la propiedad de la separabilidad en el dominio del tiempo, y equivale a requerir que el tiempo entre dos eventos sea mayor que la longitud de la respuesta al impulso de los filtros de transformada de Fourier de corta duración, el intervalo de muestras distintas de cero en
En general, hay un número infinito de descomposiciones igualmente válidas para una señal multicomponente. La propiedad de separabilidad debe considerarse en el contexto de la descomposición deseada. Por ejemplo, en el análisis de una señal de voz, una ventana de análisis que sea larga en relación con el tiempo entre pulsos glotales es suficiente para separar los armónicos, pero los pulsos glotales individuales se mancharán, porque muchos pulsos están cubiertos por cada ventana (es decir, , los pulsos individuales no son separables, en el tiempo, por la ventana de análisis elegida). Una ventana de análisis que es mucho más corta que el tiempo entre pulsos glotales puede resolver los pulsos glotales, porque ninguna ventana abarca más de un pulso, pero las frecuencias armónicas están unidas, porque el lóbulo principal del espectro de la ventana de análisis es más ancho que el espaciado entre los armónicos (es decir, los armónicos no son separables, en frecuencia, por la ventana de análisis elegida).
Referencias
- ^ Hainsworth, Stephen (2003). "Capítulo 3: Métodos de reasignación". Técnicas para el análisis automatizado del audio musical (PhD). Universidad de Cambridge. CiteSeerX 10.1.1.5.9579 .
- ^ a b F. Auger y P. Flandrin (mayo de 1995). "Mejora de la legibilidad de las representaciones de tiempo-frecuencia y escala de tiempo mediante el método de reasignación". Transacciones IEEE sobre procesamiento de señales . 43 (5): 1068–1089. Código Bibliográfico : 1995ITSP ... 43.1068A . CiteSeerX 10.1.1.646.794 . doi : 10.1109 / 78.382394 .
- ^ P. Flandrin, F. Auger y E. Chassande-Mottin, Reasignación de frecuencia de tiempo: de principios a algoritmos , en Aplicaciones en el procesamiento de señales de frecuencia de tiempo (A. Papandreou-Suppappola, ed.), Cap. 5, págs.179-203, CRC Press, 2003.
- ^ K. Kodera; R. Gendrin y C. de Villedary (febrero de 1978). "Análisis de señales variables en el tiempo con valores pequeños de BT". Transacciones IEEE sobre acústica, habla y procesamiento de señales . 26 (1): 64–76. doi : 10.1109 / TASSP.1978.1163047 .
- ^ a b DJ Nelson (noviembre de 2001). "Métodos espectrales cruzados para procesar el habla". Revista de la Sociedad Americana de Acústica . 110 (5): 2575–2592. Código Bibliográfico : 2001ASAJ..110.2575N . doi : 10.1121 / 1.1402616 . PMID 11757947 .
Otras lecturas
- SA Fulop y K. Fitz, Un espectrograma para el siglo XXI , Acoustics Today, vol. 2, no. 3, págs. 26–33, 2006.
- SA Fulop y K. Fitz, Algoritmos para calcular el espectrograma (reasignado) de frecuencia instantánea con corrección de tiempo, con aplicaciones , Journal of the Acoustical Society of America, vol. 119, págs.360 - 371, enero de 2006.
enlaces externos
- TFTB - Caja de herramientas de frecuencia de tiempo
- SPEAR - Análisis y resíntesis de edición parcial sinusoidal
- Loris: software de código abierto para modelado y transformación de sonido
- SRA: una herramienta de investigación basada en la web para el análisis espectral y de rugosidad de señales de sonido (respaldado por una subvención del Northwest Academic Computing Consortium a J. Middleton, Eastern Washington University)
- Representaciones escasas de tiempo-frecuencia - PNAS