La localización de sonido 3D se refiere a una tecnología acústica que se utiliza para localizar la fuente de un sonido en un espacio tridimensional . La ubicación de la fuente suele estar determinada por la dirección de las ondas sonoras entrantes (ángulos horizontal y vertical) y la distancia entre la fuente y los sensores. Implica el diseño de la disposición de la estructura de los sensores y las técnicas de procesamiento de señales .
La mayoría de los mamíferos (incluidos los humanos) utilizan la audición binaural para localizar el sonido, comparando la información recibida de cada oído en un proceso complejo que implica una cantidad significativa de síntesis. Es difícil de localizar utilizando la audición monoaural , especialmente en el espacio 3D .
Tecnología
La tecnología de localización de sonido se utiliza en algunos campos del audio y la acústica , como los audífonos , la vigilancia [1] y la navegación . Los sistemas de localización de sonido pasivo en tiempo real existentes se basan principalmente en el enfoque de diferencia de tiempo de llegada ( TDOA ), que limita la localización del sonido al espacio bidimensional y no son prácticos en condiciones ruidosas.
Aplicaciones
Las aplicaciones de la localización de la fuente de sonido incluyen la separación de la fuente de sonido, el seguimiento de la fuente de sonido y la mejora del habla. Sonar utiliza técnicas de localización de fuentes de sonido para identificar la ubicación de un objetivo. La localización de sonido 3D también se utiliza para una interacción eficaz entre humanos y robots. Con la creciente demanda de audición robótica, se están explorando algunas aplicaciones de localización de sonido en 3D, como la interfaz hombre-máquina, la ayuda para discapacitados y las aplicaciones militares. [2]
Señales para la localización del sonido
Las señales de localización [3] son características que ayudan a localizar el sonido. Las señales para la localización del sonido incluyen señales binaurales y monoaurales.
- Las señales monoaurales se pueden obtener mediante análisis espectral y generalmente se utilizan en la localización vertical.
- Las señales binaurales se generan por la diferencia de audición entre los oídos izquierdo y derecho. Estas diferencias incluyen la diferencia de tiempo interaural (ITD) y la diferencia de intensidad interaural (IID). Las señales binaurales se utilizan principalmente para la localización horizontal.
¿Cómo se localiza el sonido?
La primera pista que utiliza nuestra audición es la diferencia de tiempo interaural. El sonido de una fuente directamente delante o detrás de nosotros llegará simultáneamente a ambos oídos. Si la fuente se mueve hacia la izquierda o hacia la derecha, nuestros oídos captan el sonido de la misma fuente que llega a ambos oídos, pero con cierto retraso. Otra forma de decirlo podría ser que los dos oídos captan diferentes fases de la misma señal. [4]
Métodos
Existen muchos métodos diferentes de localización de sonido 3D. Por ejemplo:
- Diferentes tipos de estructura de sensor, como matriz de micrófono y cabezal de robot auditivo binaural. [5]
- Diferentes técnicas para obtener resultados óptimos, como red neuronal , máxima verosimilitud y clasificación de señales múltiples (MUSIC).
- Métodos en tiempo real que utilizan una matriz de sensores vectoriales acústicos (AVS) [6]
- Métodos offline (según puntualidad)
- Enfoque de matriz de micrófonos
Enfoque de formador de haz dirigido
Este enfoque utiliza ocho micrófonos combinados con un formador de haz dirigido mejorado por la Transformación de fase ponderada de confiabilidad (RWPHAT). Los resultados finales se filtran a través de un filtro de partículas que rastrea las fuentes y evita direcciones falsas.
La motivación de utilizar este método es la que se basa en investigaciones previas. Este método se utiliza para el seguimiento y la localización de múltiples fuentes de sonido a pesar de que la banda sonora y la localización solo se aplican a una única fuente de sonido.
Localización de sonido basada en Beamformer
Maximizar la energía de salida de un formador de haz de retardo y suma para encontrar el valor máximo de la salida de un formador de haz dirigido en todas las direcciones posibles. Usando el método de Transformación de Fase Ponderada de Confiabilidad (RWPHAT), la energía de salida del formador de haz de suma y retardo de micrófono M es
Donde E indica la energía y K es una constante, es la correlación cruzada de pares de micrófonos definida por la Transformación de fase ponderada de confiabilidad:
el factor ponderado reflejan la confiabilidad de cada componente de frecuencia, y se define como la ganancia del filtro Wiener , dónde es una estimación de una SNR previa en micrófono, en el marco de tiempo , por frecuencia , calculado utilizando el enfoque dirigido a decisiones. [7]
La es la señal de micrófono y es el retraso en la llegada de ese micrófono. Valin y Michaud proponen el procedimiento más específico de este método [8].
La ventaja de este método es que detecta la dirección del sonido y deriva la distancia de las fuentes de sonido. El principal inconveniente del enfoque de formación de haces es la naturaleza imperfecta de la precisión y capacidad de localización del sonido, en comparación con el enfoque de red neuronal, que utiliza altavoces móviles.
Enfoque de matriz de micrófonos colocados
Este enfoque se refiere a la localización de sonido en tiempo real que utiliza una matriz de sensores vectoriales acústicos (AVS).
Matriz de vectores acústicos
• Contiene tres micrófonos de gradiente de velocidad de partículas acústicas instalados ortogonalmente (mostrados como matriz X, Y y Z) y un micrófono acústico omnidireccional (O).
• De uso común bajo el agua.
• Utiliza el proceso de calibración fuera de línea [9] para medir e interpolar la respuesta al impulso de las matrices X, Y, Z y O, para obtener su vector de dirección.
Una señal de sonido se coloca primero en una ventana usando una ventana rectangular, luego cada señal de segmento resultante se crea como un marco. Se detectan 4 tramas paralelas de la matriz XYZO y se utilizan para la estimación de DOA. Los 4 cuadros se dividen en bloques pequeños con el mismo tamaño, luego la ventana de Hamming y FFT se utilizan para convertir cada bloque de un dominio de tiempo a un dominio de frecuencia. Luego, la salida de este sistema está representada por un ángulo horizontal y un ángulo vertical de las fuentes de sonido que se encuentra por el pico en el espectro espacial 3D combinado.
Las ventajas de esta matriz, en comparación con la matriz de micrófonos anteriores, son que este dispositivo tiene un alto rendimiento incluso si la apertura es pequeña, y puede localizar múltiples fuentes de sonido de banda ancha de baja frecuencia y alta frecuencia simultáneamente. La aplicación de una matriz O puede hacer que haya más información acústica disponible, como la amplitud y la diferencia de tiempo. Lo más importante es que la matriz XYZO tiene un mejor rendimiento con un tamaño pequeño.
El AVS es un tipo de matriz de micrófonos múltiples colocados, hace uso de un enfoque de matriz de micrófonos múltiples para estimar las direcciones de sonido por múltiples matrices y luego encuentra las ubicaciones utilizando información de reflexión como dónde se detecta la dirección donde se cruzan diferentes matrices.
Motivación de la matriz de micrófonos avanzados
Los reflejos de sonido siempre ocurren en un entorno real y las matrices de micrófonos [10] no pueden evitar observar esos reflejos. Este enfoque de arreglos múltiples se probó utilizando arreglos fijos en el techo; el rendimiento del escenario móvil aún debe probarse.
Aprender a aplicar la matriz de varios micrófonos
La incertidumbre del ángulo (AU) se producirá al estimar la dirección, y la incertidumbre de la posición (PU) también se agravará al aumentar la distancia entre la matriz y la fuente. Lo sabemos:
Donde r es la distancia entre el centro de la matriz y la fuente, y AU es el ángulo incierto. La medición se utiliza para juzgar si dos direcciones se cruzan en algún lugar o no. Distancia mínima entre dos líneas:
dóndey son dos direcciones, son vectores paralelos a la dirección detectada, y son la posición de las matrices.
Si
Se considera que dos líneas se cruzan. Cuando dos líneas se cruzan, podemos calcular la ubicación de la fuente de sonido usando lo siguiente:
es la estimación de la posición de la fuente de sonido, es la posición donde cada dirección interseca la línea con la distancia mínima, y son los factores ponderados. Como factor de ponderación, determinamos el uso o desde la matriz hasta la línea con distancia mínima.
Método de aprendizaje para la audición binaural
El aprendizaje auditivo binaural [5] es un método biónico . El sensor es una cabeza simulada de robot con 2 micrófonos sensores junto con el pabellón auricular artificial (reflector). La cabeza del robot tiene 2 ejes de rotación y puede girar horizontal y verticalmente. El reflector hace que el espectro cambie a un patrón determinado para la onda de sonido de ruido blanco entrante y este patrón se utiliza para la señal de la localización vertical. La señal para la localización horizontal es ITD. El sistema utiliza un proceso de aprendizaje que utiliza redes neuronales al girar la cabeza con una fuente de sonido de ruido blanco establecido y analizar el espectro. Los experimentos muestran que el sistema puede identificar bien la dirección de la fuente en un cierto rango de ángulo de llegada. No puede identificar el sonido que sale del rango debido al patrón de espectro colapsado del reflector. La audición binaural usa solo 2 micrófonos y es capaz de concentrarse en una fuente entre múltiples fuentes de ruido.
En la localización del sonido real, la cabeza del robot y el torso juegan un papel funcional, además de los dos pabellones auditivos. Esto funciona como filtrado espacial lineal y el filtrado siempre se cuantifica en términos de la función de transferencia relacionada con la cabeza (HRTF). [11] HRTF también utiliza el sensor de la cabeza del robot, que es el modelo de audición binaural. El HRTF se puede derivar en función de varias señales de localización. La localización de sonido con HRTF está filtrando la señal de entrada con un filtro diseñado en base a HRTF. En lugar de usar las redes neuronales, se usa una función de transferencia relacionada con la cabeza y la localización se basa en un enfoque de correlación simple.
Ver más: función de transferencia relacionada con la cabeza .
Análisis de fase de espectro de potencia cruzada (CSP)
El método CSP [12] también se utiliza para el modelo binaural. La idea es que el ángulo de llegada se puede derivar a través del tiempo de retraso de llegada (TDOA) entre dos micrófonos, y el TDOA se puede estimar encontrando los coeficientes máximos de CSP. Los coeficientes de CSP se derivan de:
Dónde y son señales que entran en el micrófono y respectivamente
Tiempo de retraso de llegada () luego se puede estimar mediante:
La dirección de la fuente de sonido es
Dónde es la velocidad de propagación del sonido, es la frecuencia de muestreo y es la distancia con retardo de tiempo máximo entre 2 micrófonos.
El método CPS no requiere los datos de respuesta al impulso del sistema que HRTF necesita. Una expectativa de maximización algoritmo también se utiliza para la localización de varias fuentes de sonido y reducir los errores de localización. El sistema es capaz de identificar varias fuentes de sonido en movimiento utilizando solo dos micrófonos.
Matriz de línea de sensor 2D
Para estimar la ubicación de una fuente en el espacio 3D, se pueden colocar dos matrices de sensores de línea horizontal y verticalmente. Un ejemplo es una matriz de líneas 2D utilizada para la localización de fuentes submarinas. [13] Al procesar los datos de dos matrices utilizando el método de máxima verosimilitud , la dirección, el alcance y la profundidad de la fuente se pueden identificar simultáneamente. A diferencia del modelo de audición binaural, este método es similar al método de análisis espectral . El método se puede utilizar para localizar una fuente distante.
Matriz de micrófonos bi-giratorios
La rotación de la matriz de dos micrófonos (también denominada matriz de dos micrófonos [14] ) conduce a una señal sinusoidal de diferencia de tiempo entre canales (ICTD). El desplazamiento de fase de la señal sinusoidal resultante se puede mapear directamente con el ángulo azimutal de la fuente de sonido, y la amplitud de la señal ICTD se puede representar como una función del ángulo de elevación de la fuente de sonido y la distancia entre los dos micrófonos. [15]
Enfoque jerárquico de redes neuronales artificiales difusas
El sistema de localización de sonido del Enfoque de redes neuronales artificiales difusas jerárquicas se inspiró en la localización de sonido biológicamente binaural. Algunos animales primitivos con dos orejas y cerebro pequeño pueden percibir el espacio 3D y procesar sonidos, aunque el proceso no se comprende completamente. Algunos animales experimentan dificultades en la ubicación del sonido 3D debido al pequeño tamaño de la cabeza. Además, la longitud de onda del sonido de comunicación puede ser mucho mayor que el diámetro de su cabeza, como es el caso de las ranas .
Basado en métodos de localización de sonido binaurales anteriores, un sistema de red neuronal artificial difusa jerárquica combina métodos de localización de sonido de diferencia de tiempo interaural (basado en ITD) y diferencia de intensidad interaural (basado en IID) para una mayor precisión similar a la de los humanos. Se utilizaron redes neuronales artificiales difusas jerárquicas [16] con el objetivo de lograr la misma precisión de localización de sonido que los oídos humanos.
Los métodos de localización de sonido basados en IID o ITD tienen un problema principal llamado confusión de front-back. [17] En esta localización de sonido basada en un sistema de red neuronal jerárquica, para resolver este problema, se realiza una estimación de IID con estimación de ITD. Este sistema se utilizó para sonidos de banda ancha y se desplegará para escenarios no estacionarios.
Localización de sonido 3D para fuente de sonido monoaural
Normalmente, la localización del sonido se realiza mediante el uso de dos (o más) micrófonos. Utilizando la diferencia de tiempos de llegada de un sonido en los dos micrófonos, se puede estimar matemáticamente la dirección de la fuente de sonido. Sin embargo, la precisión con la que una matriz de micrófonos puede localizar un sonido (usando la diferencia de tiempo Interaural ) está fundamentalmente limitada por el tamaño físico de la matriz. Si la matriz es demasiado pequeña, los micrófonos están demasiado cerca entre sí para que todos graben esencialmente el mismo sonido (con ITF cerca de cero), lo que hace que sea extremadamente difícil estimar la orientación. Por lo tanto, no es raro que las matrices de micrófonos varíen desde decenas de centímetros de longitud (para aplicaciones de escritorio) hasta muchas decenas de metros de longitud (para localización bajo el agua). Sin embargo, las matrices de micrófonos de este tamaño se vuelven poco prácticas para usar en robots pequeños. Incluso para los robots grandes, estos conjuntos de micrófonos pueden resultar engorrosos de montar y maniobrar. Por el contrario, la capacidad de localizar el sonido utilizando un solo micrófono (que puede hacerse extremadamente pequeño) tiene el potencial de dispositivos de localización significativamente más compactos, así como de menor costo y potencia.
• Enfoque HRTF convencional
Una forma general de implementar la localización de sonido 3D es utilizar HRTF ( función de transferencia relacionada con la cabeza ). Primero, calcule HRTF para la localización del sonido 3D, formulando dos ecuaciones; uno representa la señal de una fuente de sonido determinada y el otro indica la salida de señal de los micrófonos de cabeza del robot para el sonido transferido desde la fuente. Estos HRTF procesan los datos de entrada monoaurales y los resultados se emiten desde auriculares estéreo. La desventaja de este método es que se necesitan muchas operaciones paramétricas para que todo el conjunto de filtros realice la localización del sonido 3D, lo que resulta en una alta complejidad computacional.
• Implementación DSP de localización de sonido 3D
Una implementación basada en DSP de un enfoque de localización de sonido 3D en tiempo real con el uso de un DSP integrado puede reducir la complejidad computacional.Como se muestra en la figura, el procedimiento de implementación de este algoritmo en tiempo real se divide en tres fases, (i) División de frecuencia, ( ii) Localización de sonido y (iii) Mezcla. En el caso de la localización de sonido 3D para una fuente de sonido monoaural, los datos de entrada de audio se dividen en dos: los canales izquierdo y derecho y los datos de entrada de audio en series de tiempo se procesan uno tras otro. [18]
Una característica distintiva de este enfoque es que la banda de frecuencia audible se divide en tres, de modo que se puede aprovechar un procedimiento distinto de localización de sonido 3D para cada una de las tres subbandas.
• Enfoque de un solo micrófono
La localización monoaural es posible gracias a la estructura del pabellón auricular (oído externo), que modifica el sonido de una manera que depende de su ángulo de incidencia. Un enfoque de aprendizaje automático está adaptado para la localización monoaural utilizando solo un micrófono y un "pabellón auricular artificial" (que distorsiona el sonido de una manera dependiente de la dirección). El enfoque modela la distribución típica de los sonidos naturales y artificiales, así como los cambios dependientes de la dirección de los sonidos inducidos por el pabellón auricular. [19] Los resultados experimentales también muestran que el algoritmo es capaz de localizar con bastante precisión una amplia gama de sonidos, como el habla humana, los ladridos de perros, cascadas, truenos, etc. A diferencia de los arreglos de micrófonos, este enfoque también ofrece el potencial de dispositivos significativamente más compactos, así como de menor costo y potencia, para la localización del sonido.
Ver también
- Reconstrucción de sonido 3D
- Localización de fuentes acústicas
- Grabación binaural
- Función de transferencia relacionada con la cabeza
- Localización de sonido 3D basada en la percepción
- Localización de sonido
- Localización de sonido vertical
Referencias
- ^ Keyrouz, Fakheredine; Diepold, Klaus; Keyrouz, Shady (septiembre de 2007). Localización de sonido 3D de alto rendimiento para aplicaciones de vigilancia . 2007 IEEE Conference on Advanced Video and Signal Based Surveillance, AVSS 2007 . págs. 563–6. doi : 10.1109 / AVSS.2007.4425372 . ISBN 978-1-4244-1695-0. S2CID 11238184 .
- ^ Kjær, Brüel. "Identificación de la fuente de ruido" . bksv.com . Brüel & Kjær.
- ^ Goldstein, E. Bruce (13 de febrero de 2009). Sensación y percepción (octava ed.). Aprendizaje Cengage. págs. 293-297. ISBN 978-0-495-60149-4.
- ^ Kjær, Brüel. "Escuchar en 3D" . Brüel & Kjær . Brüel & Kjær.
- ^ a b Nakashima, H .; Mukai, T. (2005). "Sistema de localización de fuentes de sonido 3D basado en el aprendizaje de la audición binaural". 2005 IEEE International Conference on Systems, Man and Cybernetics . 4 . págs. 3534–3539. doi : 10.1109 / ICSMC.2005.1571695 . ISBN 0-7803-9298-1. S2CID 7446711 .
- ^ Liang, Yun; Cui, Zheng; Zhao, Shengkui; Rupnow, Kyle; Zhang, Yihao; Jones, Douglas L .; Chen, Deming (2012). "Implementación en tiempo real y optimización del rendimiento de la localización de sonido 3D en GPU". Conferencia y exposición sobre automatización y pruebas en Europa : 832–5. ISSN 1530-1591 .
- ^ Efraín, Y .; Malah, D. (diciembre de 1984). "Mejora del habla mediante un estimador de amplitud espectral de corto tiempo de error cuadrático medio mínimo". Procesamiento de Acústica, Habla y Señal . 32 (6): 1109–21. doi : 10.1109 / TASSP.1984.1164453 . ISSN 0096-3518 .
- ^ Valin, JM; Michaud, F .; Rouat, Jean (14 a 19 de mayo de 2006). Localización y seguimiento 3D robustos de fuentes de sonido mediante formación de haces y filtrado de partículas . Procesamiento de Acústica, Habla y Señal . 4 . pag. IV. arXiv : 1604.01642 . doi : 10.1109 / ICASSP.2006.1661100 . ISBN 978-1-4244-0469-8. ISSN 1520-6149 . S2CID 557491 .
- ^ Salas Natera, MA; Martínez Rodríguez-Osorio, R .; de Haro Ariet, L .; Sierra Pérez, M. (2012). "Propuesta de calibración para nuevas arquitecturas y tecnologías de matriz de antenas para comunicaciones espaciales" . Antenas IEEE y letras de propagación inalámbrica . 11 : 1129–32. Código bibliográfico : 2012IAWPL..11.1129S . doi : 10.1109 / LAWP.2012.2215952 . ISSN 1536-1225 .
- ^ Ishi, CT; Incluso, J .; Hagita, N. (noviembre de 2013). Uso de múltiples matrices de micrófonos y reflejos para la localización 3D de fuentes de sonido . 2013 Conferencia Internacional IEEE / RSJ sobre Robots y Sistemas Inteligentes (IROS 2013) . págs. 3937–42. doi : 10.1109 / IROS.2013.6696919 . ISBN 978-1-4673-6358-7. S2CID 16043629 .
- ^ Keyrouz, Fakheredine; Diepold, Klaus (2006). "Un algoritmo de localización de sonido 3D binaural mejorado" . 2006 Simposio internacional IEEE sobre procesamiento de señales y tecnología de la información . págs. 662–665. doi : 10.1109 / ISSPIT.2006.270883 . ISBN 0-7803-9754-1. S2CID 14042947 .
- ^ Hyun-Don Kim; Komatani, K .; Ogata, T .; Okuno, HG (enero de 2008). Evaluación de la localización de fuentes de sonido basada en dos canales utilizando la herramienta de creación de sonido en movimiento 3D . ICERI 2008. doi : 10.1109 / ICKS.2008.25 .
- ^ Tabrikian, J .; Messer, H. (Enero de 1996). "Localización de fuentes tridimensionales en una guía de ondas". Transacciones IEEE sobre procesamiento de señales . 44 (1): 1–13. Código Bibliográfico : 1996ITSP ... 44 .... 1T . doi : 10.1109 / 78.482007 .
- ^ Gala, Deepak; Lindsay, Nathan; Sun, Liang (julio de 2018). "Localización de fuente de sonido activa en tiempo real para robots terrestres no tripulados utilizando una matriz de bi-micrófonos autorrotacionales". Revista de sistemas inteligentes y robóticos . 95 (3): 935–954. arXiv : 1804.03372 . doi : 10.1007 / s10846-018-0908-3 .
- ^ Gala, Deepak; Lindsay, Nathan; Sun, Liang (junio de 2018). Localización de fuente de sonido tridimensional para vehículos terrestres no tripulados con una matriz de dos micrófonos autorrotacionales . CDSR 2018. doi : 10.11159 / cdsr18.104 .
- ^ Keyrouz, Fakheredine; Diepold, Klaus (mayo de 2008). "Una novedosa solución de red neuronal de inspiración biológica para la detección robótica de fuentes de sonido en 3D". Computación blanda . 12 (7): 721–9. doi : 10.1007 / s00500-007-0249-9 . ISSN 1432-7643 . S2CID 30037380 .
- ^ Hill, PA; Nelson, PA; Kirkeby, O .; Hamada, H. (diciembre de 2000). "Resolución de confusión front-back en sistemas virtuales de imagen acústica". Revista de la Sociedad Americana de Acústica . 108 (6): 2901–10. Código bibliográfico : 2000ASAJ..108.2901H . doi : 10.1121 / 1.1323235 . ISSN 0001-4966 . PMID 11144583 .
- ^ Noriaki, Sakamoto; wataru, Kobayashi; Takao, Onoye; Isao, Shirakawa (2001). Implementación DSP del algoritmo de localización de sonido 3D para fuente de sonido monoaural . La 8va Conferencia Internacional IEEE sobre Electrónica, Circuitos y Sistemas, 2001. ICECS 2001 . 2 . págs. 1061–1064. doi : 10.1109 / ICECS.2001.957673 . ISBN 978-0-7803-7057-9. S2CID 60528168 .
- ^ Saxena, A .; Ng, AY (2009). "Aprendizaje de la ubicación del sonido con un solo micrófono". 2009 Conferencia Internacional IEEE sobre Robótica y Automatización . págs. 1737-1742. doi : 10.1109 / ROBOT.2009.5152861 . ISBN 978-1-4244-2788-8. S2CID 14665341 .
enlaces externos
- Localización 3D de fuentes de sonido virtuales