Audio semántico

El audio semántico es la extracción de significado de las señales de audio . El campo del audio semántico se basa principalmente en el análisis de audio para crear algunos metadatos significativos, que luego se pueden usar de diferentes maneras.

Análisis semántico

El análisis semántico de audio se realiza para revelar una comprensión más profunda de una señal de audio. Esto generalmente da como resultado descriptores de metadatos de alto nivel , como los acordes musicales y el tempo, o la identificación del individuo que habla, para facilitar la gestión basada en el contenido de las grabaciones de audio. En los últimos años, el crecimiento de las técnicas automáticas de análisis de datos ha crecido considerablemente,

Recuperación de información musical
Reconocimiento de sonido
Segmentación del habla
Transcripción automática de música
Separación de fuente ciega
Similitud musical
Indexación de audio, hash, búsqueda
Monitoreo de transmisión
Análisis de interpretación musical

Aplicaciones

Con el desarrollo de aplicaciones que utilizan esta información semántica para ayudar al usuario a identificar, organizar y explorar señales de audio e interactuar con ellas. Estas aplicaciones incluyen recuperación de información musical, tecnologías web semánticas, producción de audio, reproducción de sonido, educación y juegos. La tecnología semántica implica algún tipo de comprensión del significado de la información con la que trata y, para ello, puede incorporar aprendizaje automático, procesamiento de señales digitales, procesamiento de voz, separación de fuentes, modelos perceptuales de audición, conocimiento musicológico, metadatos y ontologías.

Aparte de las tecnologías de recuperación y recomendación de audio, la semántica de las señales de audio también se está volviendo cada vez más importante, por ejemplo, en la codificación de audio basada en objetos, así como en la edición y procesamiento de audio inteligente. Los lanzamientos recientes de productos ya demuestran esto en gran medida, sin embargo, son inminentes funcionalidades más innovadoras que se basan en el análisis y la gestión de audio semántico. Estas funcionalidades pueden utilizar, por ejemplo, separación (informada) de fuentes de audio, segmentación e identificación de altavoces, segmentación musical estructural o tecnologías de Web semántica y social , incluidas ontologías y datos abiertos vinculados.

El reconocimiento de voz es una importante aplicación de audio semántico. Pero para el habla, otras operaciones semánticas incluyen la identificación del idioma , la identificación del hablante o la identificación del género. Para audio o música más general, incluye identificar una pieza musical (por ejemplo, Shazam (servicio) ) o la banda sonora de una película.

Las áreas de investigación en audio semántico incluyen la capacidad de etiquetar una forma de onda de audio con dónde cambian las armonías y qué son y dónde se repite el material y qué instrumentos se están reproduciendo.

Audio semántico y la web semántica

La Web Semántica proporciona un marco poderoso para la expresión y reutilización de datos estructurados. El uso y almacenamiento de descriptores de audio semántico en el marco de la web semántica permite un alcance mucho mayor y un estándar unificador para almacenar y administrar metadatos de audio semántico asociados. Se han desarrollado varias ontologías para almacenar y gestionar audio en la web semántica, incluidas (Ontología musical) [1] , (Ontología de estudio) [2] y (Ontología de funciones de audio) [3]

enlaces externos

Tutorial sobre separación de fuentes
Comité Técnico de Análisis Semántico de Audio de la Sociedad de Ingeniería de Audio
42a Conferencia Internacional de AES sobre audio semántico
53a Conferencia Internacional de AES sobre audio semántico
Conferencia internacional AES 2017 sobre audio semántico