Análisis computacional de la escena auditiva

El análisis de la escena auditiva computacional ( CASA ) es el estudio del análisis de la escena auditiva por medios computacionales. ^[1] En esencia, los sistemas CASA son sistemas de "escucha automática" que tienen como objetivo separar mezclas de fuentes de sonido de la misma manera que lo hacen los oyentes humanos. CASA se diferencia del campo de la separación ciega de señales en que se basa (al menos en cierta medida) en los mecanismos del sistema auditivo humano y, por lo tanto, no utiliza más de dos grabaciones de micrófono de un entorno acústico. Está relacionado con el problema de los cócteles .

Principios

Dado que CASA sirve para modelar partes funcionales del sistema auditivo, es necesario ver partes del sistema auditivo biológico en términos de modelos físicos conocidos. La periferia auditiva, que consta de tres áreas, el oído externo, medio e interno, actúa como un transductor complejo que convierte las vibraciones del sonido en potenciales de acción en el nervio auditivo. El oído externo está formado por el oído externo, el canal auditivo y el tímpano . El oído externo, como un embudo acústico, ayuda a localizar la fuente de sonido. ^[2] El canal auditivo actúa como un tubo resonante (como un tubo de órgano) para amplificar frecuencias entre 2 y 5,5 kHz con una amplificación máxima de aproximadamente 11 dB que se produce alrededor de 4 kHz. ^[3] Como órgano de la audición, la cóclea consta de dos membranas, la membrana de Reissner y la basilar . La membrana basilar se mueve a los estímulos de audio a través de la frecuencia de estímulo específica que coincide con la frecuencia de resonancia de una región particular de la membrana basilar. El movimiento de la membrana basilar desplaza las células ciliadas internas en una dirección, que codifica una señal rectificada de media onda de potenciales de acción en las células ganglionares espirales. Los axones de estas células forman el nervio auditivo y codifican el estímulo rectificado. Las respuestas del nervio auditivo seleccionan ciertas frecuencias, similares a las de la membrana basilar. Para frecuencias más bajas, las fibras exhiben "bloqueo de fase". Las neuronas en los centros de las vías auditivas superiores están sintonizadas con características de estímulos específicos, como la periodicidad, la intensidad del sonido, la amplitud y la modulación de frecuencia. ^[1] También hay asociaciones neuroanatómicas de ASA a través de las áreas corticales posteriores , incluidos los lóbulos temporales superiores posteriores y el cíngulo posterior . Los estudios han encontrado que las deficiencias en ASA y las operaciones de segregación y agrupación se ven afectadas en pacientes con enfermedad de Alzheimer . ^[4]

Arquitectura del sistema

Cocleagrama

Como primera etapa del procesamiento CASA, el cocleagrama crea una representación de tiempo-frecuencia de la señal de entrada. Al imitar los componentes del oído externo y medio, la señal se divide en diferentes frecuencias que son seleccionadas naturalmente por la cóclea y las células ciliadas. Debido a la selectividad de frecuencia de la membrana basilar, se utiliza un banco de filtros para modelar la membrana, con cada filtro asociado con un punto específico en la membrana basilar. ^[1]

Dado que las células ciliadas producen patrones de picos, cada filtro del modelo también debería producir un pico similar en la respuesta al impulso . El uso de un filtro de gammatona proporciona una respuesta de impulso como el producto de una función gamma y un tono. La salida del filtro de gammatona se puede considerar como una medida del desplazamiento de la membrana basilar. La mayoría de los sistemas CASA representan la frecuencia de disparo en el nervio auditivo en lugar de una basada en picos. Para obtener esto, las salidas del banco de filtros se rectifican en media onda seguida de una raíz cuadrada. (Se han implementado otros modelos, como los controladores automáticos de ganancia). La onda semirectificada es similar al modelo de desplazamiento de las células ciliadas. Los modelos adicionales de las células ciliadas incluyen el modelo de células ciliadas de Meddis, que se empareja con el banco de filtros de gammatona, modelando la transducción de las células ciliadas. ^[5] Con base en el supuesto de que hay tres depósitos de sustancia transmisora dentro de cada célula ciliada, y los transmisores se liberan en proporción al grado de desplazamiento a la membrana basilar, la liberación se equipara con la probabilidad de que se genere un pico en el fibra nerviosa. Este modelo replica muchas de las respuestas nerviosas en los sistemas CASA, como rectificación, compresión, activación espontánea y adaptación. ^[1]

Correlograma

Modelo importante de percepción del tono al unificar 2 escuelas de teoría del tono: ^[1]

Colocar teorías (enfatizando el papel de los armónicos resueltos)
Teorías temporales (enfatizando el papel de los armónicos no resueltos)

El correlograma se calcula generalmente en el dominio del tiempo autocorrelacionando la actividad de activación del nervio auditivo simulado con la salida de cada canal de filtro. ^[1] Al agrupar la autocorrelación a través de la frecuencia, la posición de los picos en el correlograma de resumen corresponde al tono percibido. ^[1]

Correlograma cruzado

Debido a que los oídos reciben señales de audio en diferentes momentos, la fuente de sonido se puede determinar utilizando los retardos recuperados de los dos oídos. ^[6] Mediante la correlación cruzada de los retardos de los canales izquierdo y derecho (del modelo), los picos coincidentes se pueden clasificar como el mismo sonido localizado, a pesar de su ubicación temporal en la señal de entrada. ^[1] El uso del mecanismo de correlación cruzada interaural se ha apoyado a través de estudios fisiológicos, en paralelo con la disposición de las neuronas en el mesencéfalo auditivo . ^[7]

Máscaras de frecuencia de tiempo

Para segregar la fuente de sonido, los sistemas CASA enmascaran el cocleagrama. Esta máscara, a veces un filtro de Wiener , pesa las regiones de origen de destino y suprime el resto. ^[1] La motivación fisiológica detrás de la máscara resulta de la percepción auditiva donde el sonido se vuelve inaudible por un sonido más fuerte. ^[8]

Resíntesis

Una vía de resíntesis reconstruye una señal de audio de un grupo de segmentos. Logrado invirtiendo el cocleagrama, se pueden obtener señales de voz resintetizadas de alta calidad. ^[1]

Aplicaciones

CASA monoaural

La separación de sonido monoaural comenzó primero con la separación de voces según la frecuencia. Hubo muchos desarrollos iniciales basados en la segmentación de diferentes señales de voz a través de la frecuencia. ^[1] Otros modelos siguieron este proceso, mediante la adición de la adaptación a través de modelos de espacio de estado, procesamiento por lotes y arquitectura basada en predicciones. ^[9] El uso de CASA ha mejorado la robustez de los sistemas de separación de voz y ASR. ^[10]

CASA Binaural

Dado que CASA está modelando las vías auditivas humanas, los sistemas CASA binaurales mejoran el modelo humano al proporcionar localización de sonido, agrupación auditiva y solidez a la reverberación al incluir 2 micrófonos separados espacialmente. Con métodos similares a la correlación cruzada, los sistemas pueden extraer la señal de destino de ambos micrófonos de entrada. ^[11]^[12]

Modelos CASA neuronales

Dado que el sistema auditivo biológico está profundamente conectado con las acciones de las neuronas, los sistemas CASA también incorporaron modelos neuronales dentro del diseño. Dos modelos diferentes proporcionan la base para esta área. Malsburg y Schneider propusieron un modelo de red neuronal con osciladores para representar características de diferentes corrientes (sincronizadas y desincronizadas). ^[13] Wang también presentó un modelo que utiliza una red de unidades excitadoras con un inhibidor global con líneas de retardo para representar la escena auditiva dentro de la frecuencia de tiempo. ^[14]^[15]

Análisis de señales de audio musicales

Los enfoques típicos en los sistemas CASA comienzan con la segmentación de las fuentes de sonido en componentes individuales, en sus intentos de imitar el sistema auditivo físico. Sin embargo, existe evidencia de que el cerebro no necesariamente procesa la entrada de audio por separado, sino más bien como una mezcla. ^[16] En lugar de dividir la señal de audio en componentes individuales, la entrada se desglosa por descriptores de nivel superior, como acordes, bajo y melodía, estructura de tiempo y repeticiones de coros y frases. Estos descriptores encuentran dificultades en escenarios del mundo real, con señales monoaurales y binaurales. ^[1] Además, la estimación de estos descriptores depende en gran medida de la influencia cultural de la entrada musical. Por ejemplo, dentro de la música occidental, la melodía y el bajo influyen en la identidad de la pieza, con el núcleo formado por la melodía. Al distinguir las respuestas de frecuencia de la melodía y el bajo, se puede estimar y filtrar una frecuencia fundamental para distinguirla. ^[17] La detección de acordes se puede implementar mediante el reconocimiento de patrones, extrayendo características de bajo nivel que describen el contenido armónico. ^[18] Las técnicas utilizadas en el análisis de escenas musicales también se pueden aplicar al reconocimiento de voz y otros sonidos ambientales. ^[19] Los trabajos futuros incluyen una integración de arriba hacia abajo del procesamiento de señales de audio, como un sistema de seguimiento de ritmo en tiempo real y la expansión fuera del ámbito del procesamiento de señales con la incorporación de psicología y fisiología auditiva. ^[20]

Modelado de percepción neuronal

Si bien muchos modelos consideran la señal de audio como una combinación compleja de diferentes frecuencias, el modelado del sistema auditivo también puede requerir consideración de los componentes neuronales. Tomando un proceso holístico, donde un flujo (de sonidos basados en características) corresponde a la actividad neuronal distribuida en muchas áreas del cerebro, la percepción del sonido podría mapearse y modelarse. Se han propuesto dos soluciones diferentes para vincular la percepción de audio y el área en el cerebro. La codificación jerárquica modela muchas células para codificar todas las combinaciones posibles de características y objetos en la escena auditiva. ^[21]^[22] Correlación temporal u oscilatoria que aborda el problema de la unión centrándose en la sincronía y desincronía entre las oscilaciones neuronales para codificar el estado de unión entre las características auditivas. ^[1] Estas dos soluciones son muy similares a la debacle entre la codificación de lugar y la codificación temporal. Mientras se basa en el modelado de componentes neuronales, otro fenómeno de ASA entra en juego con los sistemas CASA: el alcance del modelado de mecanismos neuronales. Los estudios de los sistemas CASA han implicado el modelado de algunos mecanismos conocidos, como la naturaleza de paso de banda del filtrado coclear y los patrones aleatorios de activación del nervio auditivo; sin embargo, estos modelos pueden no conducir a la búsqueda de nuevos mecanismos, sino más bien dar una comprensión del propósito de los mecanismos conocidos. . ^[23]

Ver también

Análisis de escena auditiva
Separación de señal ciega
Problema de cóctel
Visión de máquina
Reconocimiento de voz

Otras lecturas

DF Rosenthal y HG Okuno (1998) Análisis computacional de la escena auditiva. Mahwah, Nueva Jersey: Lawrence Erlbaum

Referencias

^ a b c d e f g h i j k l m Wang, DL y Brown, GJ (Eds.) (2006). Análisis computacional de la escena auditiva: Principios, algoritmos y aplicaciones . Prensa IEEE / Wiley-Interscience
^ Warren, R. (1999). Percepción auditiva: un nuevo análisis y síntesis . Nueva York: Cambridge University Press.
^ Wiener, F. (1947), "Sobre la difracción de una onda progresiva por la cabeza humana". Revista de la Sociedad Americana de Acústica , 19 , 143-146.
^ Goll, J., Kim, L. (2012), "Deficiencias del análisis de la escena auditiva en la enfermedad de Alzheimer", Brain 135 (1) , 190-200.
^ Meddis, R., Hewitt, M., Shackleton, T. (1990). "Detalles de implementación de un modelo computacional de la sinapsis del nervio auditivo / célula pilosa interna". Revista de la Sociedad Americana de Acústica 87 (4) 1813–1816.
^ Jeffress, LA (1948). "Una teoría del lugar de la localización del sonido". Revista de psicología comparada y fisiológica , 41 35–39.
^ Yin, T., Chan, J. (1990). "Sensibilidad de tiempo interaural en olivo superior medial de gato" Journal Neurophysiology , 64 (2) 465–488.
^ Moore, B. (2003). Introducción a la psicología de la audición (5ª ed.). Prensa académica, Londres.
^ Ellis, D (1996). "Análisis de escena auditiva computacional basado en predicciones". Tesis doctoral, Departamento de Ingeniería Eléctrica e Informática del MIT.
^ Li, P., Guan, Y. (2010). "Separación monoaural del habla basada en MASVQ y CASA para un reconocimiento de voz robusto" Computer Speech and Language , 24 , 30–44.
^ Bodden, M. (1993). "Modelado de ubicaciones de fuentes de sonido humanas y efecto cóctel" Acta Acustica 1 43–55.
^ Lyon, R. (1983). "Un modelo computacional de ubicaciones binaurales y separación". Actas de la Conferencia internacional sobre acústica, habla y procesamiento de señales 1148-1151.
^ Von der Malsburg, C., Schneider, W. (1986). "Un procesador de cócteles neuronales". Cibernética biológica 54 29–40.
^ Wang, D. (1994). "Segregación de flujo auditivo basada en correlación oscilatoria". Actas del Taller internacional IEEE sobre redes neuronales para procesamientos de señales , 624–632.
^ Wang, D. (1996), "Segregación auditiva primitiva basada en correlación oscilatoria". Ciencia cognitiva 20 , 409–456.
^ Bregman, A (1995). "Restricciones en modelos computacionales de análisis de escena auditiva derivados de la percepción humana". The Journal of the Acoustical Society of Japan (E) , 16 (3) , 133-136.
^ Goto, M. (2004). "Un sistema de descripción de escenas musicales en tiempo real: estimación predominante-F0 para detectar melodías y líneas de bajo en señales de audio del mundo real". Speech Communication , 43 , 311–329.
^ Zbigniew, R., Wieczorkowska, A. (2010). "Avances en la recuperación de información musical". Estudios en inteligencia computacional , 274 119-142.
^ Masuda-Katsuse, I (2001). "Un nuevo método para el reconocimiento de voz en presencia de ruido no estacionario, impredecible y de alto nivel". Actas Eurospeech , 1119–1122.
^ Ir a, M (2001). "Un sistema de seguimiento de ritmo en tiempo real basado en audio para música con o sin sonidos de batería". Journal of New Music Research , 30 (2) : 159-171.
↑ deCharms, R., Merzenich, M, (1996). "Representación cortical primaria de sonidos por la coordinación de la sincronización del potencial de acción". Nature , 381 , 610–613.
^ Wang, D. (2005). "La dimensión temporal del análisis de escenas". Transacciones IEEE en redes neuronales , 16 (6) , 1401–1426.
^ Bregman, A. (1990). Análisis de la escena auditiva . Cambridge: MIT Press.

[wangbrown06-1] ^ a b c d e f g h i j k l m Wang, DL y Brown, GJ (Eds.) (2006). Análisis computacional de la escena auditiva: Principios, algoritmos y aplicaciones . Prensa IEEE / Wiley-Interscience

[warren-2] Warren, R. (1999). Percepción auditiva: un nuevo análisis y síntesis . Nueva York: Cambridge University Press.

[wiener-3] Wiener, F. (1947), "Sobre la difracción de una onda progresiva por la cabeza humana". Revista de la Sociedad Americana de Acústica , 19 , 143-146.

[goll-4] Goll, J., Kim, L. (2012), "Deficiencias del análisis de la escena auditiva en la enfermedad de Alzheimer", Brain 135 (1) , 190-200.

[meddis-5] Meddis, R., Hewitt, M., Shackleton, T. (1990). "Detalles de implementación de un modelo computacional de la sinapsis del nervio auditivo / célula pilosa interna". Revista de la Sociedad Americana de Acústica 87 (4) 1813–1816.

[jeffress-6] Jeffress, LA (1948). "Una teoría del lugar de la localización del sonido". Revista de psicología comparada y fisiológica , 41 35–39.

[yin-7] Yin, T., Chan, J. (1990). "Sensibilidad de tiempo interaural en olivo superior medial de gato" Journal Neurophysiology , 64 (2) 465–488.

[moore-8] Moore, B. (2003). Introducción a la psicología de la audición (5ª ed.). Prensa académica, Londres.

[Ellis-9] Ellis, D (1996). "Análisis de escena auditiva computacional basado en predicciones". Tesis doctoral, Departamento de Ingeniería Eléctrica e Informática del MIT.

[li-10] Li, P., Guan, Y. (2010). "Separación monoaural del habla basada en MASVQ y CASA para un reconocimiento de voz robusto" Computer Speech and Language , 24 , 30–44.

[bodden-11] Bodden, M. (1993). "Modelado de ubicaciones de fuentes de sonido humanas y efecto cóctel" Acta Acustica 1 43–55.

[lyon-12] Lyon, R. (1983). "Un modelo computacional de ubicaciones binaurales y separación". Actas de la Conferencia internacional sobre acústica, habla y procesamiento de señales 1148-1151.

[vdm-13] Von der Malsburg, C., Schneider, W. (1986). "Un procesador de cócteles neuronales". Cibernética biológica 54 29–40.

[wangseg-14] Wang, D. (1994). "Segregación de flujo auditivo basada en correlación oscilatoria". Actas del Taller internacional IEEE sobre redes neuronales para procesamientos de señales , 624–632.

[wangprim-15] Wang, D. (1996), "Segregación auditiva primitiva basada en correlación oscilatoria". Ciencia cognitiva 20 , 409–456.

[bregman2-16] Bregman, A (1995). "Restricciones en modelos computacionales de análisis de escena auditiva derivados de la percepción humana". The Journal of the Acoustical Society of Japan (E) , 16 (3) , 133-136.

[Goto-17] Goto, M. (2004). "Un sistema de descripción de escenas musicales en tiempo real: estimación predominante-F0 para detectar melodías y líneas de bajo en señales de audio del mundo real". Speech Communication , 43 , 311–329.

[zb-18] Zbigniew, R., Wieczorkowska, A. (2010). "Avances en la recuperación de información musical". Estudios en inteligencia computacional , 274 119-142.

[masudak-19] Masuda-Katsuse, I (2001). "Un nuevo método para el reconocimiento de voz en presencia de ruido no estacionario, impredecible y de alto nivel". Actas Eurospeech , 1119–1122.

[gotodrum-20] Ir a, M (2001). "Un sistema de seguimiento de ritmo en tiempo real basado en audio para música con o sin sonidos de batería". Journal of New Music Research , 30 (2) : 159-171.

[decharm-21] Charms, R., Merzenich, M, (1996). "Representación cortical primaria de sonidos por la coordinación de la sincronización del potencial de acción". Nature , 381 , 610–613.

[wangtime-22] Wang, D. (2005). "La dimensión temporal del análisis de escenas". Transacciones IEEE en redes neuronales , 16 (6) , 1401–1426.

[bregman-23] Bregman, A. (1990). Análisis de la escena auditiva . Cambridge: MIT Press.

[1]