Cepstrum de frecuencia mel

En el procesamiento de sonido , el cepstrum de frecuencia mel ( MFC ) es una representación del espectro de potencia a corto plazo de un sonido, basado en una transformada de coseno lineal de un espectro de potencia logarítmica en una escala de frecuencia mel no lineal .

Los coeficientes cepstrales de frecuencia Mel ( MFCC ) son coeficientes que forman colectivamente un MFC. ^[1] Se derivan de un tipo de representación cepstral del clip de audio (un "espectro de un espectro" no lineal). La diferencia entre el cepstrum y el cepstrum de frecuencia mel es que en el MFC, las bandas de frecuencia están igualmente espaciadas en la escala mel, lo que se aproxima más a la respuesta del sistema auditivo humano que las bandas de frecuencia espaciadas linealmente que se utilizan en el espectro normal. Esta deformación de frecuencia puede permitir una mejor representación del sonido, por ejemplo, en la compresión de audio .

Los MFCC se obtienen comúnmente de la siguiente manera: ^[2]

Tome la transformada de Fourier de (un extracto en ventana de) una señal.
Mapee las potencias del espectro obtenido anteriormente en la escala mel , utilizando ventanas triangulares superpuestas o, alternativamente, ventanas superpuestas coseno .
Tome los registros de los poderes en cada una de las frecuencias mel.
Tome la transformada de coseno discreta de la lista de potencias mel log, como si fuera una señal.
Los MFCC son las amplitudes del espectro resultante.

Puede haber variaciones en este proceso, por ejemplo: diferencias en la forma o espaciado de las ventanas utilizadas para mapear la escala, ^[3] o adición de características dinámicas como "delta" y "delta-delta" (primera y segunda -orden de diferencia trama a trama) coeficientes. ^[4]

El Instituto Europeo de Normas de Telecomunicaciones a principios de la década de 2000 definió un algoritmo MFCC estandarizado para su uso en teléfonos móviles . ^[5]

Aplicaciones

Los MFCC se utilizan comúnmente como funciones en los sistemas de reconocimiento de voz ^[6] , como los sistemas que pueden reconocer automáticamente los números hablados en un teléfono.

Los MFCC también encuentran cada vez más usos en aplicaciones de recuperación de información musical , como clasificación de género , medidas de similitud de audio, etc. ^[7]

Sensibilidad al ruido

Los valores de MFCC no son muy robustos en presencia de ruido aditivo, por lo que es común normalizar sus valores en los sistemas de reconocimiento de voz para disminuir la influencia del ruido. Algunos investigadores proponen modificaciones al algoritmo básico de MFCC para mejorar la robustez, como elevar las amplitudes log-mel a una potencia adecuada (alrededor de 2 o 3) antes de tomar la DCT ( Transformada de coseno discreta ), que reduce la influencia de baja componentes energéticos. ^[8]

Historia

A Paul Mermelstein ^[9]^[10] se le atribuye típicamente el desarrollo del MFC. Mermelstein le da crédito a Bridle y Brown ^[11] por la idea:

Bridle y Brown utilizaron un conjunto de 19 coeficientes de forma espectral ponderados dados por la transformada de coseno de las salidas de un conjunto de filtros de paso de banda espaciados no uniformemente. El espaciado del filtro se elige para que sea logarítmico por encima de 1 kHz y los anchos de banda del filtro también se incrementan allí. Por lo tanto, los llamaremos parámetros cepstrales basados en mel. ^[9]

A veces se citan a los dos primeros creadores. ^[12]

Muchos autores, incluidos Davis y Mermelstein, ^[10] han comentado que las funciones de base espectral de la transformada del coseno en el MFC son muy similares a los componentes principales de los espectros logarítmicos, que fueron aplicados a la representación y el reconocimiento del habla mucho antes por Pols y sus colegas. ^[13]^[14]

Ver también

Referencias

^ Min Xu; et al. (2004). "Generación de palabras clave de audio basadas en HMM" (PDF) . En Kiyoharu Aizawa; Yuichi Nakamura; Shin'ichi Satoh (eds.). Avances en el procesamiento de información multimedia - PCM 2004: 5ª Conferencia sobre multimedia de la Cuenca del Pacífico . Saltador. ISBN 978-3-540-23985-7. Archivado desde el original (PDF) el 10 de mayo de 2007.
^ Sahidullah, Md .; Saha, Goutam (mayo de 2012). "Diseño, análisis y evaluación experimental de transformación basada en bloques en computación MFCC para reconocimiento de locutor". Comunicación de voz . 54 (4): 543–565. doi : 10.1016 / j.specom.2011.11.004 .
^ Fang Zheng, Guoliang Zhang y Zhanjiang Song (2001), " Comparación de diferentes implementaciones de MFCC ", J. Computer Science & Technology, 16 (6): 582–589.
^ S. Furui (1986), "Reconocimiento de palabras aisladas independientes del hablante basado en dinámicas espectrales enfatizadas"
^ Instituto Europeo de Normas de Telecomunicaciones (2003), Aspectos de calidad, transmisión y procesamiento de voz (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de características de front-end; Algoritmos de compresión . Norma técnica ES 201108, v1.1.3.
^ T. Ganchev, N. Fakotakis y G. Kokkinakis (2005), " Evaluación comparativa de varias implementaciones de MFCC en la tarea de verificación del hablante Archivado el 17 de julio de 2011en la Wayback Machine ", en la 10ª Conferencia Internacional sobre Discurso y Computación ( SPECOM 2005), vol. 1, págs. 191-194.
^ Meinard Müller (2007). Recuperación de información para música y movimiento . Saltador. pag. 65. ISBN 978-3-540-74047-6.
^ V. Tyagi y C. Wellekens (2005), sobre la desensibilización del Mel-Cepstrum a componentes espectrales espurios para el reconocimiento robusto del habla , en acústica, habla y procesamiento de señales, 2005. Actas. (ICASSP '05). Conferencia Internacional IEEE sobre, vol. 1, págs. 529–532.
^ a b P. Mermelstein (1976), " Medidas de distancia para el reconocimiento de voz, psicológico e instrumental", en Reconocimiento de patrones e inteligencia artificial , CH Chen, Ed., págs. 374–388. Academic, Nueva York.
^ a b S.B. Davis y P. Mermelstein (1980), " Comparación de representaciones paramétricas para el reconocimiento de palabras monosilábicas en oraciones habladas continuamente ", en IEEE Transactions on Acustics, Speech, and Signal Processing , 28 (4), págs. 357–366.
^ JS Bridle y MD Brown (1974), "Un sistema experimental de reconocimiento automático de palabras", Informe JSRU No. 1003, Unidad conjunta de investigación del habla, Ruislip, Inglaterra.
^ Nelson Morgan ; Hervé Bourlard y Hynek Hermansky (2004). "Reconocimiento automático de voz: una perspectiva auditiva" . En Steven Greenberg y William A. Ainsworth (eds.). Procesamiento del habla en el sistema auditivo . Saltador. pag. 315. ISBN 978-0-387-00590-4.
^ LCW Pols (1966), "Análisis espectral e identificación de vocales holandesas en palabras monosilábicas", Tesis doctoral, Universidad Libre, Amsterdam, Países Bajos
^ R. Plomp, LCW Pols y JP van de Geer (1967). " Análisis dimensional de espectros vocales ". J. Acoustical Society of America, 41 (3): 707–712.

enlaces externos

Códigos MATLAB para MFCC y otras funciones de voz
Un tutorial sobre MFCC para el reconocimiento automático de voz

[1] Min Xu; et al. (2004). "Generación de palabras clave de audio basadas en HMM" (PDF) . En Kiyoharu Aizawa; Yuichi Nakamura; Shin'ichi Satoh (eds.). Avances en el procesamiento de información multimedia - PCM 2004: 5ª Conferencia sobre multimedia de la Cuenca del Pacífico . Saltador. ISBN 978-3-540-23985-7. Archivado desde el original (PDF) el 10 de mayo de 2007.

[2] Sahidullah, Md .; Saha, Goutam (mayo de 2012). "Diseño, análisis y evaluación experimental de transformación basada en bloques en computación MFCC para reconocimiento de locutor". Comunicación de voz . 54 (4): 543–565. doi : 10.1016 / j.specom.2011.11.004 .

[3] Fang Zheng, Guoliang Zhang y Zhanjiang Song (2001), " Comparación de diferentes implementaciones de MFCC ", J. Computer Science & Technology, 16 (6): 582–589.

[4] S. Furui (1986), "Reconocimiento de palabras aisladas independientes del hablante basado en dinámicas espectrales enfatizadas"

[etsi01-5] Instituto Europeo de Normas de Telecomunicaciones (2003), Aspectos de calidad, transmisión y procesamiento de voz (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de características de front-end; Algoritmos de compresión . Norma técnica ES 201108, v1.1.3.

[6] T. Ganchev, N. Fakotakis y G. Kokkinakis (2005), " Evaluación comparativa de varias implementaciones de MFCC en la tarea de verificación del hablante Archivado el 17 de julio de 2011en la Wayback Machine ", en la 10ª Conferencia Internacional sobre Discurso y Computación ( SPECOM 2005), vol. 1, págs. 191-194.

[7] Meinard Müller (2007). Recuperación de información para música y movimiento . Saltador. pag. 65. ISBN 978-3-540-74047-6.

[8] V. Tyagi y C. Wellekens (2005), sobre la desensibilización del Mel-Cepstrum a componentes espectrales espurios para el reconocimiento robusto del habla , en acústica, habla y procesamiento de señales, 2005. Actas. (ICASSP '05). Conferencia Internacional IEEE sobre, vol. 1, págs. 529–532.

[merm76-9] P. Mermelstein (1976), " Medidas de distancia para el reconocimiento de voz, psicológico e instrumental", en Reconocimiento de patrones e inteligencia artificial , CH Chen, Ed., págs. 374–388. Academic, Nueva York.

[merm80-10] S.B. Davis y P. Mermelstein (1980), " Comparación de representaciones paramétricas para el reconocimiento de palabras monosilábicas en oraciones habladas continuamente ", en IEEE Transactions on Acustics, Speech, and Signal Processing , 28 (4), págs. 357–366.

[11] JS Bridle y MD Brown (1974), "Un sistema experimental de reconocimiento automático de palabras", Informe JSRU No. 1003, Unidad conjunta de investigación del habla, Ruislip, Inglaterra.

[12] Nelson Morgan ; Hervé Bourlard y Hynek Hermansky (2004). "Reconocimiento automático de voz: una perspectiva auditiva" . En Steven Greenberg y William A. Ainsworth (eds.). Procesamiento del habla en el sistema auditivo . Saltador. pag. 315. ISBN 978-0-387-00590-4.

[13] LCW Pols (1966), "Análisis espectral e identificación de vocales holandesas en palabras monosilábicas", Tesis doctoral, Universidad Libre, Amsterdam, Países Bajos

[14] R. Plomp, LCW Pols y JP van de Geer (1967). " Análisis dimensional de espectros vocales ". J. Acoustical Society of America, 41 (3): 707–712.

[1]