Síntesis de voz

La síntesis del habla es la producción artificial del habla humana . Un sistema informático utilizado para este propósito se denomina computadora de voz o sintetizador de voz y puede implementarse en productos de software o hardware . Un sistema de conversión de texto a voz ( TTS ) convierte el texto del idioma normal en voz; otros sistemas presentan representaciones lingüísticas simbólicas como transcripciones fonéticas al habla. ^[1]

La voz sintetizada se puede crear concatenando fragmentos de voz grabada que se almacenan en una base de datos. Los sistemas difieren en el tamaño de las unidades de voz almacenadas; un sistema que almacena teléfonos o difonos proporciona el rango de salida más grande, pero puede carecer de claridad. Para dominios de uso específicos, el almacenamiento de palabras u oraciones completas permite una salida de alta calidad. Alternativamente, un sintetizador puede incorporar un modelo del tracto vocal y otras características de la voz humana para crear una salida de voz completamente "sintética". ^[2]

La calidad de un sintetizador de voz se juzga por su similitud con la voz humana y por su capacidad para ser entendido con claridad. Un programa de conversión de texto a voz inteligible permite a las personas con impedimentos visuales o de lectura escuchar palabras escritas en una computadora en casa. Muchos sistemas operativos de computadora han incluido sintetizadores de voz desde principios de la década de 1990.

Un sistema de conversión de texto a voz (o "motor") se compone de dos partes: ^[3] un front-end y un back-end . El front-end tiene dos tareas principales. Primero, convierte texto sin formato que contiene símbolos como números y abreviaturas en el equivalente de palabras escritas. Este proceso a menudo se denomina normalización de texto , preprocesamiento o tokenización . El front-end luego asigna transcripciones fonéticas a cada palabra y divide y marca el texto en unidades prosódicas , como frases , cláusulas y oraciones . El proceso de asignar transcripciones fonéticas a palabras se llamaconversión de texto a fonema o de grafema a fonema . Las transcripciones fonéticas y la información prosódica juntas forman la representación lingüística simbólica que genera el front-end. El back-end, a menudo denominado sintetizador, convierte la representación lingüística simbólica en sonido. En ciertos sistemas, esta parte incluye el cálculo de la prosodia objetivo (contorno de tono, duraciones de fonemas), ^[4] que luego se impone a la voz de salida.

Mucho antes de la invención del procesamiento de señales electrónicas , algunas personas intentaron construir máquinas para emular el habla humana. Algunas leyendas tempranas de la existencia de " Cabezas de bronce " involucraban al Papa Silvestre II (m. 1003 d. C.), Albertus Magnus (1198-1280) y Roger Bacon (1214-1294).

En 1779, el científico germano - danés Christian Gottlieb Kratzenstein ganó el primer premio en un concurso anunciado por la Academia Imperial de Ciencias y Artes de Rusia por los modelos que construyó del tracto vocal humano que podían producir los cinco sonidos de vocales largas (en notación del Alfabeto Fonético Internacional : [aː] , [eː] , [iː] , [oː] y [uː] ). ^[5] Siguió la " máquina de habla acústico-mecánica " operada por fuelles de Wolfgang von Kempelen de Pressburg , Hungría , descrito en un artículo de 1791. ^[6] Esta máquina agregó modelos de la lengua y los labios, lo que le permitió producir consonantes y vocales. En 1837, Charles Wheatstone produjo una "máquina parlante" basada en el diseño de von Kempelen, y en 1846, Joseph Faber exhibió la " Euphonia ". En 1923, Paget resucitó el diseño de Wheatstone. ^[7]