El audio semántico es la extracción de significado de las señales de audio . El campo del audio semántico se basa principalmente en el análisis de audio para crear algunos metadatos significativos, que luego se pueden usar de diferentes maneras.
Análisis semántico
El análisis semántico de audio se realiza para revelar una comprensión más profunda de una señal de audio. Esto generalmente da como resultado descriptores de metadatos de alto nivel , como los acordes musicales y el tempo, o la identificación del individuo que habla, para facilitar la gestión basada en el contenido de las grabaciones de audio. En los últimos años, el crecimiento de las técnicas automáticas de análisis de datos ha crecido considerablemente,
- Recuperación de información musical
- Reconocimiento de sonido
- Segmentación del habla
- Transcripción automática de música
- Separación de fuente ciega
- Similitud musical
- Indexación de audio, hash, búsqueda
- Monitoreo de transmisión
- Análisis de interpretación musical
Aplicaciones
Con el desarrollo de aplicaciones que utilizan esta información semántica para ayudar al usuario a identificar, organizar y explorar señales de audio e interactuar con ellas. Estas aplicaciones incluyen recuperación de información musical, tecnologías web semánticas, producción de audio, reproducción de sonido, educación y juegos. La tecnología semántica implica algún tipo de comprensión del significado de la información con la que trata y, para ello, puede incorporar aprendizaje automático, procesamiento de señales digitales, procesamiento de voz, separación de fuentes, modelos perceptuales de audición, conocimiento musicológico, metadatos y ontologías.
Aparte de las tecnologías de recuperación y recomendación de audio, la semántica de las señales de audio también se está volviendo cada vez más importante, por ejemplo, en la codificación de audio basada en objetos, así como en la edición y procesamiento de audio inteligente. Los lanzamientos recientes de productos ya demuestran esto en gran medida, sin embargo, son inminentes funcionalidades más innovadoras que se basan en el análisis y la gestión de audio semántico. Estas funcionalidades pueden utilizar, por ejemplo, separación (informada) de fuentes de audio, segmentación e identificación de altavoces, segmentación musical estructural o tecnologías de Web semántica y social , incluidas ontologías y datos abiertos vinculados.
El reconocimiento de voz es una importante aplicación de audio semántico. Pero para el habla, otras operaciones semánticas incluyen la identificación del idioma , la identificación del hablante o la identificación del género. Para audio o música más general, incluye identificar una pieza musical (por ejemplo, Shazam (servicio) ) o la banda sonora de una película.
Las áreas de investigación en audio semántico incluyen la capacidad de etiquetar una forma de onda de audio con dónde cambian las armonías y qué son y dónde se repite el material y qué instrumentos se están reproduciendo.
Audio semántico y la web semántica
La Web Semántica proporciona un marco poderoso para la expresión y reutilización de datos estructurados. El uso y almacenamiento de descriptores de audio semántico en el marco de la web semántica permite un alcance mucho mayor y un estándar unificador para almacenar y administrar metadatos de audio semántico asociados. Se han desarrollado varias ontologías para almacenar y gestionar audio en la web semántica, incluidas (Ontología musical) [1] , (Ontología de estudio) [2] y (Ontología de funciones de audio) [3]