La minería de audio es una técnica mediante la cual el contenido de una señal de audio se puede analizar y buscar automáticamente. Se usa más comúnmente en el campo del reconocimiento automático de voz , donde el análisis intenta identificar cualquier voz dentro del audio. El término 'minería de audio' a veces se usa indistintamente con indexación de audio, búsqueda fonética, indexación fonética, indexación de voz, análisis de audio, análisis de voz , detección de palabras y recuperación de información . La indexación de audio, sin embargo, se usa principalmente para describir el preproceso de la minería de audio, en el que el archivo de audio se divide en un índice de palabras con capacidad de búsqueda.
Historia
La investigación académica sobre minería de audio comenzó a fines de la década de 1970 en escuelas como la Universidad Carnegie Mellon, la Universidad de Columbia, el Instituto de Tecnología de Georgia y la Universidad de Texas. [1] La indexación y recuperación de datos de audio comenzó a recibir atención y demanda a principios de la década de 1990, cuando el contenido multimedia comenzó a desarrollarse y el volumen del contenido de audio aumentó significativamente. [2] Antes de que la minería de audio se convirtiera en el método principal, se creaban y analizaban manualmente transcripciones escritas de contenido de audio. [3]
Proceso
La minería de audio generalmente se divide en cuatro componentes: indexación de audio, procesamiento de voz y sistemas de reconocimiento, extracción de características y clasificación de audio. [4] El audio normalmente será procesado por un sistema de reconocimiento de voz con el fin de identificar unidades de palabra o fonema que es probable que ocurran en el contenido hablado. Esta información puede usarse inmediatamente en búsquedas predefinidas de palabras clave o frases (un sistema de "detección de palabras" en tiempo real), o la salida del reconocedor de voz puede almacenarse en un archivo de índice. Luego, se pueden cargar uno o más archivos de índice de minería de audio en una fecha posterior para ejecutar búsquedas de palabras clave o frases. Los resultados de una búsqueda normalmente estarán en términos de resultados, que son regiones dentro de archivos que son buenas coincidencias para las palabras clave elegidas. El usuario puede entonces escuchar el audio correspondiente a estos hits para verificar si se encontró una coincidencia correcta.
Indexación de audio
En audio, existe el problema principal de la recuperación de información: es necesario ubicar los documentos de texto que contienen la clave de búsqueda. A diferencia de los humanos, una computadora no puede distinguir entre los diferentes tipos de audios, como la velocidad, el estado de ánimo, el ruido, la música o el habla humana; se necesita un método de búsqueda eficaz. Por tanto, la indexación de audio permite una búsqueda eficaz de información mediante el análisis de un archivo completo mediante el reconocimiento de voz. A continuación, se produce un índice de contenido, que incluye palabras y sus ubicaciones mediante la recuperación de audio basada en contenido, centrándose en las características de audio extraídas.
Se realiza principalmente a través de dos métodos: reconocimiento continuo de voz de vocabulario extenso (LVCSR) e indexación basada en fonética.
Reconocedores de voz continuos de vocabulario extenso (LVCSR)
En la indexación basada en texto o el reconocimiento de voz continuo de vocabulario extenso (LVCSR), el archivo de audio se divide primero en fonemas reconocibles. Luego se pasa por un diccionario que puede contener varios cientos de miles de entradas y se combina con palabras y frases para producir una transcripción de texto completo. Luego, un usuario puede simplemente buscar un término de palabra deseado y se devolverá la parte relevante del contenido de audio. Si el texto o la palabra no se pueden encontrar en el diccionario, el sistema elegirá la siguiente entrada más similar que pueda encontrar. El sistema utiliza un modelo de comprensión del lenguaje para crear un nivel de confianza para sus coincidencias. Si el nivel de confianza está por debajo del 100 por ciento, el sistema proporcionará opciones de todas las coincidencias encontradas. [5]
Ventajas y desventajas
El principal atractivo de LVCSR es su alta precisión y alta velocidad de búsqueda. En LVCSR, los métodos estadísticos se utilizan para predecir la probabilidad de diferentes secuencias de palabras, por lo que la precisión es mucho mayor que la búsqueda de una sola palabra en una búsqueda fonética. Si se puede encontrar la palabra, la probabilidad de que se pronuncie es muy alta. [6] Mientras tanto, mientras que el procesamiento inicial de audio lleva bastante tiempo, la búsqueda es rápida, ya que se necesita una simple prueba de coincidencia de texto.
Por otro lado, LVCSR es susceptible a problemas comunes de reconocimiento de voz . La naturaleza aleatoria inherente del audio y los problemas de ruido externo afectan la precisión de la indexación basada en texto.
Otro problema con LVCSR es su dependencia excesiva de su base de datos de diccionario. LVCSR solo reconoce palabras que se encuentran en sus bases de datos de diccionarios, y estos diccionarios y bases de datos no pueden mantenerse al día con la constante evolución de nueva terminología , nombres y palabras. Si el diccionario no contiene una palabra, el sistema no tiene forma de identificarla o predecirla. Esto reduce la precisión y confiabilidad del sistema. Esto se denomina problema de falta de vocabulario (OOV). Los sistemas de minería de audio intentan hacer frente a OOV actualizando continuamente el diccionario y el modelo de lenguaje utilizado, pero el problema sigue siendo importante y ha buscado alternativas. [7]
Además, debido a la necesidad de actualizar y mantener constantemente el conocimiento basado en tareas y las grandes bases de datos de capacitación para hacer frente al problema de OOV, se incurre en altos costos computacionales. Esto hace que LVCSR sea un enfoque costoso para la minería de audio.
Indexación basada en fonética
La indexación basada en fonética también divide el archivo de audio en fonemas reconocibles, pero en lugar de convertirlos en un índice de texto, se mantienen como están y se analizan para crear un índice basado en fonética. El proceso de indexación basada en fonética se puede dividir en dos fases. La primera fase es la indexación. Comienza por convertir los medios de entrada a un formato de representación de audio estándar ( PCM ). Luego, se aplica un modelo acústico al discurso. Este modelo acústico representa características tanto de un canal acústico (un entorno en el que se pronunció el habla y un transductor a través del cual se grabó) como de un lenguaje natural (en el que los seres humanos expresaron el habla de entrada). Esto produce una pista de búsqueda fonética correspondiente, o pista de audio fonética (PAT), una representación muy comprimida del contenido fonético de los medios de entrada. La segunda fase es la búsqueda. El término de consulta de búsqueda del usuario se analiza en una posible cadena de fonemas utilizando un diccionario fonético. Luego, se pueden escanear múltiples archivos PAT a alta velocidad durante una sola búsqueda de probables secuencias fonéticas que coincidan estrechamente con las correspondientes cadenas de fonemas en el término de consulta. [8] [9]
Ventajas y desventajas
La indexación fonética es más atractiva ya que en gran medida no se ve afectada por problemas lingüísticos como palabras no reconocidas y errores ortográficos. El preprocesamiento fonético mantiene un vocabulario abierto que no requiere actualización. Eso lo hace particularmente útil para buscar terminología especializada o palabras en idiomas extranjeros que no suelen aparecer en los diccionarios. También es más eficaz para buscar archivos de audio con ruido de fondo perturbador y / o expresiones poco claras, ya que puede recopilar resultados en función de los sonidos que puede discernir y, si el usuario lo desea, puede buscar entre las opciones hasta encontrar el elemento deseado. . [10]
Además, a diferencia de LVCSR, puede procesar archivos de audio muy rápidamente ya que hay muy pocos fonemas únicos entre idiomas. Sin embargo, los fonemas no se pueden indexar de manera efectiva como una palabra completa, por lo que la búsqueda en un sistema basado en fonética es lenta. [11]
Un problema con la indexación fonética es su baja precisión. Las búsquedas basadas en fonemas dan como resultado más coincidencias falsas que la indexación basada en texto. Esto es especialmente frecuente para los términos de búsqueda cortos, que tienen una mayor probabilidad de sonar similar a otras palabras o de formar parte de palabras más grandes. También podría devolver resultados irrelevantes de otros idiomas. A menos que el sistema reconozca exactamente la palabra completa o comprenda las secuencias fonéticas de los idiomas, es difícil que la indexación basada en la fonética arroje resultados precisos. [12]
Sistema de procesamiento y reconocimiento de voz
Considerado como el componente más crítico y complejo de la minería de audio, el reconocimiento de voz requiere el conocimiento del sistema de producción de voz humana y su modelado.
Para corresponder al sistema de producción de voz humana, el sistema de producción de voz eléctrica se desarrolla para que consista en:
- Generación de voz
- Percepción del habla
- Discurso sonoro y sordo
- Modelo de habla humana
El sistema de producción de voz eléctrica convierte la señal acústica en la representación correspondiente de lo hablado a través de los modelos acústicos en su software donde se representan todos los fonemas. Un modelo de lenguaje estadístico ayuda en el proceso al identificar la probabilidad de que las palabras se sigan en ciertos idiomas. Junto con un análisis de probabilidad complejo, el sistema de reconocimiento de voz es capaz de tomar una señal de voz desconocida y transcribirla en palabras basadas en el diccionario del programa. [13] [14]
El sistema ASR (reconocimiento automático de voz) incluye:
- Análisis acústico : la forma de onda del sonido de entrada se transforma en una característica
- Modelo acústico : establece la relación entre la señal del habla y los fonemas, el modelo de pronunciación y el modelo de lenguaje. Los algoritmos de entrenamiento se aplican a la base de datos de voz para crear una representación estadística de cada fonema, generando así un modelo acústico con un conjunto de fonemas y sus medidas de probabilidad.
- Modelo de pronunciación : los fonemas se asignan a palabras específicas
- Modelo de lenguaje : las palabras están organizadas para formar oraciones significativas.
Algunas aplicaciones del procesamiento de voz incluyen reconocimiento de voz, codificación de voz, autenticación de hablante, mejora de voz y síntesis de voz.
Extracción de características
Requisito previo para todo el proceso de reconocimiento de voz, la extracción de características debe establecerse primero dentro del sistema. Los archivos de audio deben procesarse de principio a fin, asegurando que no se pierda información importante.
Al diferenciar las fuentes de sonido a través del tono, características tímbricas, características rítmicas, inarmonicidad, autocorrelación y otras características basadas en la predictibilidad de la señal, el patrón estadístico y las características dinámicas.
El cumplimiento de la estandarización dentro de la extracción de características se regula a través de las características estándar internacionales MPEG-7 , donde las características para la clasificación de señales de audio o voz se fijan en términos de técnicas utilizadas para analizar y representar datos sin procesar en términos de ciertas características.
Técnicas estándar de extracción de voz:
- La codificación predictiva lineal (LPC) estima la muestra de voz actual mediante el análisis de la muestra de voz anterior
- El coeficiente cepstral de frecuencia mel (MFCC) representa la señal de voz a través de una forma paramétrica utilizando una escala mel
- La Predicción Lineal Perceptual (PLP) toma en consideración el habla humana
Sin embargo, las tres técnicas no son ideales ya que se ignoran las señales no estacionarias. Las señales no estacionarias se pueden analizar usando Fourier y Fourier de corta duración , mientras que las señales que varían en el tiempo se analizan usando Wavelet y Transformada de wavelet discreta (DWT) .
Clasificación de audio
La clasificación de audio es una forma de aprendizaje supervisado e implica el análisis de grabaciones de audio. Se divide en varias categorías: clasificación de datos acústicos, clasificación de sonidos ambientales, clasificación musical y clasificación de enunciados en lenguaje natural. [15] Las características que se utilizan a menudo para este proceso son el tono , las características tímbricas , las características rítmicas, la falta de armonía y la correlación de audio, aunque también se pueden usar otras características. Hay varios métodos para la clasificación de audio utilizando clasificadores existentes, como el k-Vecinos más cercanos o el clasificador ingenuo de Bayes . Mediante el uso de datos de audio anotados, las máquinas aprenden a identificar y clasificar los sonidos.
También se ha investigado el uso de redes neuronales profundas para el reconocimiento de voz y la clasificación de audio, debido a su efectividad en otros campos como la clasificación de imágenes. [16] Un método de utilizar DNN es convertir archivos de audio en archivos de imagen, mediante espectrogramas para realizar la clasificación. [17] [18]
Aplicaciones de la minería de audio
La minería de audio se utiliza en áreas como la minería de audio musical (también conocida como recuperación de información musical ), que se relaciona con la identificación de características perceptualmente importantes de una pieza musical, como la estructura melódica, armónica o rítmica. A continuación, se pueden realizar búsquedas para encontrar piezas musicales que sean similares en cuanto a sus características melódicas, armónicas y / o rítmicas.
Dentro del campo de la lingüística , la minería de audio se ha utilizado para el procesamiento fonético y el análisis semántico. [19] La eficiencia de la minería de audio en el procesamiento de datos audiovisuales ayuda en la identificación y segmentación del hablante, así como en la transcripción de texto. A través de este proceso, el habla se puede categorizar para identificar información o extraer información a través de palabras clave habladas en el audio. En particular, esto se ha utilizado para análisis de voz . Los centros de llamadas han utilizado la tecnología para realizar análisis en tiempo real mediante la identificación de cambios de tono, sentimiento o tono, entre otros, que luego se procesan mediante un motor de decisiones o inteligencia artificial para tomar nuevas medidas. [20] Se ha observado un uso adicional en áreas de reconocimiento de voz y aplicaciones de texto a voz.
También se ha utilizado junto con la minería de video, en proyectos como la minería de datos de películas.
Ver también
- Analítica de voz
- Recuperación de información musical
- Traducción automática estadística
Referencias
- ^ Leavitt, Neal (2002). "Escuchémoslo para la minería de audio". Computadora . 35 (10): 23-25. doi : 10.1109 / MC.2002.1039511 .
- ^ Zhang, Zhongfei; Zhang, Ruofei (2008). Minería de datos multimedia: una introducción sistemática a los conceptos y la teoría . Prensa CRC. ISBN 9781584889670.
- ^ Leavitt, Neal (2002). "Escuchémoslo para la minería de audio". Computadora . 35 (10): 23-25. doi : 10.1109 / MC.2002.1039511 .
- ^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Procesamiento de audio y reconocimiento de voz . Saltador. ISBN 978-981-13-6098-5.
- ^ Leavitt, Neal (2002). "Escuchémoslo para la minería de audio". Computadora . 35 (10): 23-25. doi : 10.1109 / MC.2002.1039511 .
- ^ Leavitt, Neal (2002). "Escuchémoslo para la minería de audio". Computadora . 35 (10): 23-25. doi : 10.1109 / MC.2002.1039511 .
- ^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Procesamiento de audio y reconocimiento de voz . Saltador. ISBN 978-981-13-6098-5.
- ^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Procesamiento de audio y reconocimiento de voz . Saltador. ISBN 978-981-13-6098-5.
- ^ Leavitt, Neal (2002). "Escuchémoslo para la minería de audio". Computadora . 35 (10): 23-25. doi : 10.1109 / MC.2002.1039511 .
- ^ Cardillo, P .; Clements, M .; Miller, M. (2002). "Búsqueda fonética frente a LVCSR: cómo encontrar lo que realmente desea en archivos de audio" . Revista internacional de tecnología del habla . 5 (1): 9-22. doi : 10.1023 / A: 1013670312989 . S2CID 36313454 . Consultado el 23 de abril de 2020 .
- ^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Procesamiento de audio y reconocimiento de voz . Saltador. ISBN 978-981-13-6098-5.
- ^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Procesamiento de audio y reconocimiento de voz . Saltador. ISBN 978-981-13-6098-5.
- ^ Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Procesamiento de audio y reconocimiento de voz . Saltador. ISBN 978-981-13-6098-5.
- ^ Leavitt, Neal (2002). "Escuchémoslo para la minería de audio". Computadora . 35 (10): 23-25. doi : 10.1109 / MC.2002.1039511 .
- ^ Lim, Hengtee. "¿Qué es la clasificación de audio?" . Lionbridge . Consultado el 20 de abril de 2020 .
- ^ Smales, Mike. "Clasificación de sonido mediante Deep Learning" . Medio . Consultado el 20 de abril de 2020 .
- ^ Hartquist, John. "Clasificación de audio mediante FastAI y transformaciones de frecuencia sobre la marcha" . hacia la ciencia de datos . Consultado el 20 de abril de 2020 .
- ^ Vasani, Dipam. "Clasificación de sonido mediante imágenes, fastai" . hacia la ciencia de datos . Medio . Consultado el 21 de abril de 2020 .
- ^ Ezzat, Souraya; El Gayar, Neamat; Ghanem, Moustafa M. (2012). "Análisis de sentimientos de las conversaciones de audio del centro de llamadas mediante clasificación de texto" (PDF) . Revista Internacional de Sistemas de Información Computacional y Aplicaciones de Gestión Industrial . 4 : 619–627.
- ^ Klie, Leonard. "La era de la analítica del habla está cerca" . destinationCRM.com . Consultado el 12 de abril de 2020 .
Otras lecturas
Sen, Soumya; Dutta, Anjan; Dey, Nilanjan (2019). Procesamiento de audio y reconocimiento de voz . Saltador. ISBN 978-981-13-6098-5.
enlaces externos
Procesamiento de audio y reconocimiento de voz: conceptos, técnicas y descripciones generales de la investigación