Modelo acústico

Un modelo acústico se utiliza en el reconocimiento automático de voz para representar la relación entre una señal de audio y los fonemas u otras unidades lingüísticas que componen el habla. El modelo se aprende a partir de un conjunto de grabaciones de audio y sus correspondientes transcripciones. Se crea tomando grabaciones de audio del habla y sus transcripciones de texto, y utilizando software para crear representaciones estadísticas de los sonidos que componen cada palabra.

Los sistemas de reconocimiento de voz modernos utilizan tanto un modelo acústico como un modelo de lenguaje para representar las propiedades estadísticas del habla. El modelo acústico modela la relación entre la señal de audio y las unidades fonéticas en el idioma. El modelo de lenguaje se encarga de modelar las secuencias de palabras en el lenguaje. Estos dos modelos se combinan para obtener las secuencias de palabras mejor clasificadas correspondientes a un segmento de audio determinado.

La mayoría de los sistemas de reconocimiento de voz modernos operan en el audio en pequeños fragmentos conocidos como cuadros con una duración aproximada de 10 ms por cuadro. La señal de audio sin procesar de cada cuadro se puede transformar aplicando el cepstrum de frecuencia mel . Los coeficientes de esta transformación se conocen comúnmente como coeficientes cepstrales de frecuencia mel (MFCC) y se utilizan como entrada para el modelo acústico junto con otras características.

Recientemente, el uso de redes neuronales convolucionales ha dado lugar a grandes mejoras en el modelado acústico. ^[1]

El audio se puede codificar a diferentes velocidades de muestreo (es decir, muestras por segundo; las más comunes son: 8, 16, 32, 44.1, 48 y 96 kHz) y diferentes bits por muestra (las más comunes son: 8 bits, 16 -bits, 24 bits o 32 bits). Los motores de reconocimiento de voz funcionan mejor si el modelo acústico que utilizan se entrenó con audio de voz que se grabó con la misma frecuencia de muestreo / bits por muestra que la voz que se reconoce.

El factor limitante para el reconocimiento de voz basado en telefonía es el ancho de banda en el que se puede transmitir la voz. Por ejemplo, un teléfono de línea terrestre estándar solo tiene un ancho de banda de 64 kbit / sa una frecuencia de muestreo de 8 kHz y 8 bits por muestra (8000 muestras por segundo * 8 bits por muestra = 64000 bit / s). Por lo tanto, para el reconocimiento de voz basado en telefonía, los modelos acústicos deben entrenarse con archivos de audio de voz de 8 kHz / 8 bits.