Procesamiento de voz

El procesamiento del habla es el estudio de las señales del habla y los métodos de procesamiento de las señales. Las señales generalmente se procesan en una representación digital , por lo que el procesamiento de voz puede considerarse como un caso especial de procesamiento de señales digitales , aplicado a las señales de voz . Los aspectos del procesamiento del habla incluyen la adquisición, manipulación, almacenamiento, transferencia y salida de señales de voz. La entrada se llama reconocimiento de voz y la salida se llama síntesis de voz .

Los primeros intentos de procesamiento y reconocimiento del habla se centraron principalmente en comprender un puñado de elementos fonéticos simples , como las vocales. En 1952, tres investigadores de Bell Labs, Stephen. Balashek, R. Biddulph y KH Davis, desarrollaron un sistema que podía reconocer dígitos hablados por un solo hablante. ^[1] En la década de 1940 se informaron trabajos pioneros en el campo del reconocimiento de voz mediante el análisis de su espectro. ^[2]

La codificación predictiva lineal (LPC), un algoritmo de procesamiento del habla, fue propuesto por primera vez por Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT) en 1966. ^[3] Bishnu S. Atal realizó más desarrollos en la tecnología LPC . y Manfred R. Schroeder en Bell Labs durante la década de 1970. ^[3] LPC fue la base para la tecnología de voz sobre IP (VoIP), ^[3] así como chips de sintetizador de voz , como los chips de voz LPC de Texas Instruments utilizados en Speak & Spelljuguetes de 1978. ^[4]

Uno de los primeros productos de reconocimiento de voz disponibles comercialmente fue Dragon Dictate, lanzado en 1990. En 1992, AT&T utilizó la tecnología desarrollada por Lawrence Rabiner y otros en Bell Labs en su servicio de procesamiento de llamadas de reconocimiento de voz para enrutar llamadas sin un operador humano. En este punto, el vocabulario de estos sistemas era más grande que el vocabulario humano promedio. ^[5]

A principios de la década de 2000, la estrategia de procesamiento de voz dominante comenzó a alejarse de los modelos ocultos de Markov hacia redes neuronales más modernas y aprendizaje profundo . ^{[ cita requerida ]}

La deformación dinámica del tiempo (DTW) es un algoritmo para medir la similitud entre dos secuencias temporales , que pueden variar en velocidad. En general, DTW es un método que calcula una coincidencia óptima entre dos secuencias dadas (por ejemplo, series de tiempo) con ciertas restricciones y reglas. La coincidencia óptima se denota por la coincidencia que satisface todas las restricciones y reglas y que tiene el costo mínimo, donde el costo se calcula como la suma de las diferencias absolutas, para cada par de índices coincidentes, entre sus valores. ^{[ cita requerida ]}