Síntesis de voz


La síntesis del habla es la producción artificial del habla humana . Un sistema informático utilizado para este propósito se denomina computadora de voz o sintetizador de voz , y puede implementarse en productos de software o hardware . Un sistema de texto a voz ( TTS ) convierte el texto del idioma normal en voz; otros sistemas traducen representaciones lingüísticas simbólicas como transcripciones fonéticas en habla. [1] El proceso inverso es el reconocimiento de voz .

El habla sintetizada se puede crear concatenando fragmentos de habla grabada que se almacenan en una base de datos. Los sistemas difieren en el tamaño de las unidades de voz almacenadas; un sistema que almacena teléfonos o difonos proporciona el mayor rango de salida, pero puede carecer de claridad. Para dominios de uso específicos, el almacenamiento de palabras u oraciones completas permite una salida de alta calidad. Alternativamente, un sintetizador puede incorporar un modelo del tracto vocal y otras características de la voz humana para crear una salida de voz completamente "sintética". [2]

La calidad de un sintetizador de voz se juzga por su similitud con la voz humana y por su capacidad para ser entendido con claridad. Un programa inteligible de texto a voz permite a las personas con discapacidades visuales o de lectura escuchar palabras escritas en una computadora doméstica. Muchos sistemas operativos de computadora han incluido sintetizadores de voz desde principios de la década de 1990.

Un sistema de texto a voz (o "motor") se compone de dos partes: [3] un front-end y un back-end . El front-end tiene dos tareas principales. Primero, convierte el texto sin procesar que contiene símbolos como números y abreviaturas en el equivalente de palabras escritas. Este proceso a menudo se denomina normalización de texto , preprocesamiento o tokenización . Luego, el front-end asigna transcripciones fonéticas a cada palabra y divide y marca el texto en unidades prosódicas , como frases , cláusulas y oraciones . El proceso de asignar transcripciones fonéticas a las palabras se llamaconversión de texto a fonema o de grafema a fonema . Las transcripciones fonéticas y la información de prosodia forman juntas la representación lingüística simbólica que genera el front-end. El back-end, a menudo denominado sintetizador, convierte la representación lingüística simbólica en sonido. En ciertos sistemas, esta parte incluye el cálculo de la prosodia de destino (contorno de tono, duraciones de fonemas), [4] que luego se impone en el discurso de salida.

Mucho antes de la invención del procesamiento de señales electrónicas , algunas personas intentaron construir máquinas para emular el habla humana. Algunas leyendas tempranas de la existencia de " Brazen Heads " involucraron al Papa Silvestre II (m. 1003 d. C.), Albertus Magnus (1198-1280) y Roger Bacon (1214-1294).

En 1779, el científico germano - danés Christian Gottlieb Kratzenstein ganó el primer premio en un concurso anunciado por la Academia Imperial Rusa de Ciencias y Artes para los modelos que construyó del tracto vocal humano que podrían producir los cinco sonidos de vocales largas (en notación del Alfabeto Fonético Internacional ). : [aː] , [eː] , [iː] , [oː] y [uː] ). [5] Siguió la " máquina de habla acústico-mecánica " operada por fuelles de Wolfgang von Kempelen dePressburg , Hungría, descrito en un artículo de 1791. [6] Esta máquina agregó modelos de la lengua y los labios, lo que le permitió producir consonantes y vocales. En 1837, Charles Wheatstone produjo una "máquina parlante" basada en el diseño de von Kempelen, y en 1846, Joseph Faber exhibió la " Eufonia ". En 1923 Paget resucitó el diseño de Wheatstone. [7]


Descripción general de un sistema TTS típico
Carcasa de computadora y sintetizador de voz utilizada por Stephen Hawking en 1999
Grabación de demostración de DECtalk usando las voces de Perfect Paul y Uppity Ursula
Fidelity Voice Chess Challenger (1979), la primera computadora de ajedrez parlante
Salida de voz de Fidelity Voice Chess Challenger
Una demostración de SAM en el C64
Demostración de MacinTalk 1
Demostración de MacinTalk 2 con las voces de Mr. Hughes y Marvin
Ejemplo de síntesis de voz con la utilidad Say incluida en Workbench 1.3
Demostración de voz TI-99/4A utilizando el vocabulario incorporado
Stephen Hawking fue una de las personas más famosas en usar una computadora de voz para comunicarse.