FMLR


En el procesamiento de señales , la regresión lineal de máxima verosimilitud del espacio de características ( fMLLR ) es una transformación de características global que normalmente se aplica de forma adaptativa al altavoz, donde fMLLR transforma las características acústicas en características adaptadas al altavoz mediante una operación de multiplicación con una matriz de transformación. En alguna literatura, fMLLR también se conoce como Regresión lineal de máxima verosimilitud restringida ( cMLLR ).

Las transformaciones fMLLR se entrenan en un sentido de máxima verosimilitud sobre datos de adaptación. Estas transformaciones se pueden estimar de muchas maneras, pero en fMLLR solo se considera la estimación de máxima verosimilitud (ML) . La transformación fMLLR se entrena en un conjunto particular de datos de adaptación, de modo que maximiza la probabilidad de esos datos de adaptación dado un conjunto de modelos actual.

Esta técnica es un enfoque ampliamente utilizado para la adaptación del hablante en el reconocimiento de voz basado en HMM , [1] [2]

investigaciones posteriores [3] también muestran que fMLLR es una característica acústica excelente para los modelos híbridos de reconocimiento de voz DNN/HMM [4] .

La transformación de características de fMLLR se puede calcular fácilmente con la herramienta de voz de código abierto Kaldi , el script Kaldi utiliza el esquema de estimación estándar descrito en el Apéndice B del documento original, [1] en particular, la sección Apéndice B.1 "Método directo sobre filas" .

En la formulación de Kaldi, fMLLR es una transformación de característica afín de la forma → , que se puede escribir en la forma →W , donde = es la característica acústica con un 1 adjunto. Tenga en cuenta que esto difiere de parte de la literatura donde el 1 aparece primero como = .