Audición por computadora

La audición por computadora (CA) o la escucha por máquina es un campo general de estudio de algoritmos y sistemas para la comprensión de audio por máquina. ^[1]^[2] Dado que la noción de lo que significa que una máquina "escuche" es muy amplia y algo vaga, la audición por computadora intenta unir varias disciplinas que originalmente trataban problemas específicos o tenían una aplicación concreta en mente. El ingeniero Paris Smaragdis , entrevistado en Technology Review , habla de estos sistemas: "software que utiliza el sonido para localizar a las personas que se mueven por las habitaciones, monitorear la maquinaria en busca de averías inminentes o activar cámaras de tráfico para registrar accidentes". ^[3]

Inspirado en modelos de audición humana , CA se ocupa de cuestiones de representación, transducción , agrupación, uso del conocimiento musical y semántica de sonido general con el fin de realizar operaciones inteligentes en señales de audio y música por computadora. Técnicamente, esto requiere una combinación de métodos de los campos del procesamiento de señales , modelado auditivo , percepción y cognición de la música , reconocimiento de patrones y aprendizaje automático , así como métodos más tradicionales de inteligencia artificial para la representación del conocimiento musical. ^[4]^[5]

Al igual que la visión por computadora versus el procesamiento de imágenes, la audición por computadora versus la ingeniería de audio se ocupa de la comprensión del audio en lugar del procesamiento. También se diferencia de los problemas de comprensión del habla por máquina, ya que se ocupa de señales de audio generales, como sonidos naturales y grabaciones musicales.

Las aplicaciones de la audición por computadora varían ampliamente e incluyen búsqueda de sonidos , reconocimiento de género , monitoreo acústico , transcripción de música , seguimiento de partituras, textura de audio , improvisación de música , emoción en audio, etc.

Dado que las señales de audio son interpretadas por el sistema oído-cerebro humano, ese complejo mecanismo de percepción debería simularse de alguna manera en un software para "escuchar por máquina". En otras palabras, para funcionar a la par con los humanos, la computadora debe escuchar y comprender el contenido de audio de manera similar a como lo hacen los humanos. El análisis de audio con precisión involucra varios campos: ingeniería eléctrica (análisis de espectro, filtrado y transformaciones de audio); inteligencia artificial (aprendizaje automático y clasificación de sonido); ^[6] psicoacústica (percepción del sonido); ciencias cognitivas (neurociencia e inteligencia artificial); ^[7]acústica (física de la producción de sonido); y música (armonía, ritmo y timbre). Además, las transformaciones de audio, como el cambio de tono, el estiramiento del tiempo y el filtrado de objetos de sonido, deben ser perceptual y musicalmente significativas. Para obtener los mejores resultados, estas transformaciones requieren una comprensión perceptiva de los modelos espectrales, extracción de características de alto nivel y análisis / síntesis de sonido. Finalmente, estructurar y codificar el contenido de un archivo de audio (sonido y metadatos) podría beneficiarse de esquemas de compresión eficientes, que descartan información inaudible en el sonido. ^{[8] Los} modelos computacionales de la música y la percepción y cognición del sonido pueden llevar a una representación más significativa, una manipulación digital más intuitiva y una generación de sonido y música en interfaces musicales humano-máquina.

La audición por computadora se ocupa de las señales de audio que se pueden representar en una variedad de formas, desde la codificación directa de audio digital en dos o más canales hasta instrucciones de síntesis representadas simbólicamente. Las señales de audio generalmente se representan en términos de grabaciones analógicas o digitales . Las grabaciones digitales son muestras de forma de onda acústica o parámetros de algoritmos de compresión de audio . Una de las propiedades únicas de las señales musicales es que a menudo combinan diferentes tipos de representaciones, como partituras gráficas y secuencias de acciones de interpretación que están codificadas como archivos MIDI .