La síntesis del habla es la producción artificial del habla humana . Un sistema informático utilizado para este propósito se denomina computadora de voz o sintetizador de voz , y puede implementarse en productos de software o hardware . Un sistema de texto a voz ( TTS ) convierte el texto del idioma normal en voz; otros sistemas traducen representaciones lingüísticas simbólicas como transcripciones fonéticas en habla. [1] El proceso inverso es el reconocimiento de voz .
El habla sintetizada se puede crear concatenando fragmentos de habla grabada que se almacenan en una base de datos. Los sistemas difieren en el tamaño de las unidades de voz almacenadas; un sistema que almacena teléfonos o difonos proporciona el mayor rango de salida, pero puede carecer de claridad. Para dominios de uso específicos, el almacenamiento de palabras u oraciones completas permite una salida de alta calidad. Alternativamente, un sintetizador puede incorporar un modelo del tracto vocal y otras características de la voz humana para crear una salida de voz completamente "sintética". [2]
La calidad de un sintetizador de voz se juzga por su similitud con la voz humana y por su capacidad para ser entendido con claridad. Un programa inteligible de texto a voz permite a las personas con discapacidades visuales o de lectura escuchar palabras escritas en una computadora doméstica. Muchos sistemas operativos de computadora han incluido sintetizadores de voz desde principios de la década de 1990.
Un sistema de texto a voz (o "motor") se compone de dos partes: [3] un front-end y un back-end . El front-end tiene dos tareas principales. Primero, convierte el texto sin procesar que contiene símbolos como números y abreviaturas en el equivalente de palabras escritas. Este proceso a menudo se denomina normalización de texto , preprocesamiento o tokenización . Luego, el front-end asigna transcripciones fonéticas a cada palabra y divide y marca el texto en unidades prosódicas , como frases , cláusulas y oraciones . El proceso de asignar transcripciones fonéticas a las palabras se llamaconversión de texto a fonema o de grafema a fonema . Las transcripciones fonéticas y la información de prosodia forman juntas la representación lingüística simbólica que genera el front-end. El back-end, a menudo denominado sintetizador, convierte la representación lingüística simbólica en sonido. En ciertos sistemas, esta parte incluye el cálculo de la prosodia de destino (contorno de tono, duraciones de fonemas), [4] que luego se impone en el discurso de salida.
Mucho antes de la invención del procesamiento de señales electrónicas , algunas personas intentaron construir máquinas para emular el habla humana. Algunas leyendas tempranas de la existencia de " Brazen Heads " involucraron al Papa Silvestre II (m. 1003 d. C.), Albertus Magnus (1198-1280) y Roger Bacon (1214-1294).
En 1779, el científico germano - danés Christian Gottlieb Kratzenstein ganó el primer premio en un concurso anunciado por la Academia Imperial Rusa de Ciencias y Artes para los modelos que construyó del tracto vocal humano que podrían producir los cinco sonidos de vocales largas (en notación del Alfabeto Fonético Internacional ). : [aː] , [eː] , [iː] , [oː] y [uː] ). [5] Siguió la " máquina de habla acústico-mecánica " operada por fuelles de Wolfgang von Kempelen dePressburg , Hungría, descrito en un artículo de 1791. [6] Esta máquina agregó modelos de la lengua y los labios, lo que le permitió producir consonantes y vocales. En 1837, Charles Wheatstone produjo una "máquina parlante" basada en el diseño de von Kempelen, y en 1846, Joseph Faber exhibió la " Eufonia ". En 1923 Paget resucitó el diseño de Wheatstone. [7]