Codificador de voz

Un codificador de voz ( / v oʊ k oʊ d ər / , una contracción de voz y el codificador ) es una categoría de códec de voz que los análisis y sintetiza la señal de voz humana para la compresión de datos de audio , la multiplexación , el cifrado de voz o la transformación de voz.

Codificador de voz de principios de la década de 1970, hecho a medida para la banda de música electrónica Kraftwerk

El codificador de voz fue inventado en 1938 por Homer Dudley en Bell Labs como un medio para sintetizar el habla humana. ^[1] Este trabajo se desarrolló en el codificador de voz de canal que se utilizó como un códec de voz para telecomunicaciones para codificar el habla para conservar el ancho de banda en la transmisión.

Al cifrar las señales de control, la transmisión de voz se puede asegurar contra la interceptación. Su uso principal de esta manera es para comunicaciones de radio seguras. La ventaja de este método de cifrado es que no se envía ninguna señal original, solo envolventes de los filtros de paso de banda. La unidad receptora debe configurarse con la misma configuración de filtro para volver a sintetizar una versión del espectro de señal original.

El vocoder también se ha utilizado ampliamente como instrumento musical electrónico . La parte del decodificador del codificador de voz, denominada voder , se puede utilizar de forma independiente para la síntesis de voz .

Teoría

La voz humana consta de sonidos generados por la apertura y cierre de la glotis por las cuerdas vocales , lo que produce una forma de onda periódica con muchos armónicos . Este sonido básico es luego filtrado por la nariz y la garganta (un complicado sistema de tuberías resonantes ) para producir diferencias en el contenido armónico ( formantes ) de forma controlada, creando la amplia variedad de sonidos utilizados en el habla. Existe otro conjunto de sonidos, conocidos como sonidos sordos y oclusivos , que son creados o modificados por la boca de diferentes formas.

El codificador de voz examina el habla midiendo cómo cambian sus características espectrales con el tiempo. Esto da como resultado una serie de señales que representan estas frecuencias modificadas en cualquier momento en particular mientras el usuario habla. En términos simples, la señal se divide en varias bandas de frecuencia (cuanto mayor sea este número, más preciso será el análisis) y el nivel de señal presente en cada banda de frecuencia proporciona la representación instantánea del contenido de energía espectral. Para recrear el habla, el codificador de voz simplemente invierte el proceso, procesando una fuente de ruido de banda ancha pasándola por una etapa que filtra el contenido de frecuencia en función de la serie de números grabada originalmente.

Específicamente, en el codificador, la entrada pasa a través de un filtro multibanda , luego cada banda pasa a través de un seguidor de envolvente y las señales de control de los seguidores de envolvente se transmiten al decodificador. El decodificador aplica estas señales de control (amplitud) a los amplificadores correspondientes de los canales de filtro para la resíntesis .

La información sobre la frecuencia instantánea de la señal de voz original (a diferencia de su característica espectral) se descarta; no era importante conservarlo para el uso original del codificador de voz como ayuda de cifrado. Es este aspecto "deshumanizante" del proceso de codificación de voz lo que lo ha hecho útil para crear efectos de voz especiales en la música popular y el entretenimiento de audio.

El proceso de codificador de voz envía solo los parámetros del modelo vocal a través del enlace de comunicación, en lugar de una recreación punto por punto de la forma de onda. Dado que los parámetros cambian lentamente en comparación con la forma de onda del habla original, se puede reducir el ancho de banda necesario para transmitir el habla. Esto permite que más canales de voz utilicen un canal de comunicación determinado , como un canal de radio o un cable submarino .

Los codificadores de voz analógicos generalmente analizan una señal entrante dividiendo la señal en múltiples bandas o rangos de frecuencia sintonizados. Una señal de modulador y portadora se envía a través de una serie de estos filtros de paso de banda sintonizados . En el ejemplo de una voz de robot típica, el modulador es un micrófono y la portadora es ruido o una forma de onda de diente de sierra . ^{[se necesita aclaración ]} Por lo general, hay entre ocho y 20 bandas.

La amplitud del modulador para cada una de las bandas de análisis individuales genera un voltaje que se utiliza para controlar los amplificadores para cada una de las bandas portadoras correspondientes. El resultado es que los componentes de frecuencia de la señal moduladora se mapean en la señal portadora como cambios de amplitud discretos en cada una de las bandas de frecuencia.

A menudo hay una banda sorda o un canal de sibilancia . Esto es para frecuencias que están fuera de las bandas de análisis para el habla típica pero que siguen siendo importantes en el habla. Ejemplos son palabras que comienzan con las letras s, f, ch o cualquier otro sonido sibilante. Estos se pueden mezclar con la salida de la portadora para aumentar la claridad. El resultado es un habla reconocible, aunque con un sonido algo "mecánico". Los codificadores de voz a menudo incluyen un segundo sistema para generar sonidos sordos, utilizando un generador de ruido en lugar de la frecuencia fundamental .

En el algoritmo del codificador de voz de canal, entre los dos componentes de una señal analítica , considerar solo el componente de amplitud y simplemente ignorar el componente de fase tiende a resultar en una voz poco clara; sobre los métodos para rectificar esto, vea Phase Vocoder .

Historia

Circuito esquemático del codificador de voz de Dudley
(basado en: Dudley 1940 , p. 508 , Fig.7 ^[2] )

HY-2 Vocoder (diseñado en 1961), fue la última generación de vocoder de canal en los EE . UU . ^[3]^[4]

El desarrollo de un codificador de voz se inició en 1928 por el ingeniero de Bell Labs , Homer Dudley , ^{[5] a} quien se le concedieron las patentes, solicitud de EE . UU. 2,151,091 el 21 de marzo de 1939, ^[6] y la solicitud de EE.UU. 2.098.956 el 16 de noviembre de 1937. ^[7]

Luego, para mostrar la capacidad de síntesis de voz de su parte decodificadora , el Voder (Voice Operating Demonstrator, solicitud de EE . UU. 2,121,142 ^[8] ), se presentó al público en el edificio de AT&T en la Feria Mundial de Nueva York de 1939-1940. ^[9] El Voder consistía en un par conmutable de oscilador electrónico y generador de ruido como fuente de sonido detono agudo y silbido , filtros resonadores de 10 bandascon amplificadores de ganancia variable como tracto vocal y controladores manuales que incluyen un conjunto de presión. -teclas sensibles para el control del filtro y un pedal para el control del tono. ^[10] Los filtros controlados por teclas convierten el tono y el silbido en vocales , consonantes e inflexiones . Esta era una máquina compleja de operar, pero un operador experto podía producir un habla reconocible. ^[9]^{[medio 1]}

El codificador de voz de Dudley se utilizó en el sistema SIGSALY , que fue construido por los ingenieros de Bell Labs en 1943. SIGSALY se utilizó para comunicaciones de voz cifradas de alto nivel durante la Segunda Guerra Mundial . El codificador de voz KO-6 fue lanzado en 1949 en cantidades limitadas; fue una aproximación cercana al SIGSALY a 1200 bit / s. En 1953, el codificador de voz KY-9 THESEUS ^[11] 1650 bit / s utilizó lógica de estado sólido para reducir el peso a 565 libras (256 kg) de las 55 toneladas de SIGSALY, y en 1961 el codificador de voz HY-2, un 16 canales Sistema de 2400 bit / s, pesaba 100 libras (45 kg) y fue la última implementación de un codificador de voz de canal en un sistema de voz seguro. ^[12]

Desde entonces, el trabajo posterior en este campo ha utilizado la codificación de voz digital . La técnica de codificación de voz más utilizada es la codificación predictiva lineal (LPC), ^[13] que fue propuesta por primera vez por Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT) en 1966. ^[14] Otra técnica de codificación de voz, La modulación de código de pulso diferencial adaptativo (ADPCM), fue desarrollada por P. Cummiskey, Nikil S. Jayant y James L. Flanagan en Bell Labs en 1973. ^[15]

Aplicaciones

Equipo terminal para sistemas basados en radio móvil digital (DMR) .
Troncalización digital
DMR TDMA
Codificación y cifrado de voz digital
WLL digital
Sistemas de reproducción y almacenamiento de voz
Sistemas de mensajería
Sistemas VoIP
Buscapersonas por voz
Repetidores de voz digitales regenerativos
Implantes cocleares: la codificación de voz de ruido y tono se utiliza para simular los efectos de los implantes cocleares.
Efectos musicales y otros efectos artísticos ^[16]

Implementaciones modernas

Incluso con la necesidad de grabar varias frecuencias y sonidos sordos adicionales, la compresión de los sistemas de codificación de voz es impresionante. Los sistemas de grabación de voz estándar capturan frecuencias de aproximadamente 500 Hz a 3400 Hz, donde se encuentran la mayoría de las frecuencias utilizadas en el habla, normalmente con una frecuencia de muestreo de 8 kHz (ligeramente mayor que la frecuencia de Nyquist ). La resolución de muestreo es típicamente de 12 o más bits por resolución de muestra (16 es estándar), para una velocidad de datos final en el rango de 96-128 kbit / s, pero un buen vocoder puede proporcionar una simulación de voz razonablemente buena con tan solo 2,4 kbit / s de datos.

Los codificadores de voz de "calidad de peaje", como ITU G.729, se utilizan en muchas redes telefónicas. G.729 en particular tiene una velocidad de datos final de 8 kbit / s con una calidad de voz excelente. G.723 alcanza una calidad ligeramente inferior a velocidades de datos de 5,3 kbit / sy 6,4 kbit / s. Muchos sistemas de codificación de voz utilizan velocidades de datos más bajas, pero la calidad de la voz por debajo de 5 kbit / s comienza a disminuir rápidamente.

En los sistemas de cifrado de la NSA se utilizan varios sistemas de codificación de voz :

LPC-10, FIPS Pub 137, 2400 bit / s, que utiliza codificación predictiva lineal
Predicción lineal excitada por código (CELP), 2400 y 4800 bit / s, estándar federal 1016, utilizado en STU-III
Modulación delta de pendiente variable continua (CVSD), 16 kbit / s, utilizada en encriptadores de banda ancha como el KY-57 .
Predicción lineal de excitación mixta (MELP), MIL STD 3005, 2400 bit / s, utilizada en el futuro terminal digital de banda estrecha FNBDT , el teléfono seguro del siglo XXI de la NSA .
Modulación de código de pulso diferencial adaptativo ( ADPCM ), anterior ITU-T G.721, 32 kbit / s utilizado en el teléfono seguro STE

(ADPCM no es un codificador de voz adecuado, sino un códec de forma de onda. La UIT ha reunido G.721 junto con algunos otros códecs ADPCM en G.726).

Los codificadores de voz también se utilizan actualmente en el desarrollo de la psicofísica , la lingüística , la neurociencia computacional y la investigación de implantes cocleares .

Los codificadores de voz modernos que se utilizan hoy en día en equipos de comunicación y en dispositivos de almacenamiento de voz se basan en los siguientes algoritmos:

Predicción lineal excitada por código algebraico (ACELP 4,7 kbit / s - 24 kbit / s) ^[17]
Predicción lineal de excitación mixta (MELPe 2400, 1200 y 600 bit / s) ^[18]
Excitación multibanda (AMBE 2000 bit / s - 9600 bit / s) ^[19]
Representación pulsada sinusoidal (SPR 600 bit / s - 4800 bit / s) ^[20]
Interpolación robusta y avanzada de formas de onda de baja complejidad (RALCWI 2050bit / s, 2400bit / sy 2750bit / s) ^[21]
Predicción lineal excitada de tres ondas (TWELP 600 bit / s - 9600 bit / s) ^[22]
Codificador de voz robusto de ruido (NRV 300 bit / sy 800 bit / s) ^[23]

Basado en predicciones lineales

Desde finales de la década de 1970, la mayoría de los codificadores de voz no musicales se han implementado utilizando predicción lineal , mediante la cual la envolvente espectral de la señal objetivo (formante) se estima mediante un filtro IIR de todos los polos . En la codificación de predicción lineal, el filtro de todos los polos reemplaza el banco de filtros de paso de banda de su predecesor y se usa en el codificador para blanquear la señal (es decir, aplanar el espectro) y nuevamente en el decodificador para volver a aplicar la forma espectral del objetivo. señal de voz.

Una ventaja de este tipo de filtrado es que la ubicación de los picos espectrales del predictor lineal está completamente determinada por la señal objetivo y puede ser tan precisa como lo permita el período de tiempo a filtrar. Esto contrasta con los codificadores de voz realizados utilizando bancos de filtros de ancho fijo, donde los picos espectrales generalmente solo se pueden determinar dentro del alcance de una banda de frecuencia determinada. El filtrado LP también tiene las desventajas de que las señales con un gran número de frecuencias constituyentes pueden exceder el número de frecuencias que puede representar el filtro de predicción lineal. Esta restricción es la razón principal por la que la codificación LP casi siempre se usa en conjunto con otros métodos en codificadores de voz de alta compresión.

Interpolativo de forma de onda

El codificador de voz de interpolación de forma de onda (WI) fue desarrollado en AT&T Bell Laboratories alrededor de 1995 por WB Kleijn, y posteriormente AT&T desarrolló una versión de baja complejidad para la competencia de codificador de voz seguro del Departamento de Defensa. Se realizaron mejoras notables al codificador WI en la Universidad de California, Santa Bárbara . AT&T posee las principales patentes relacionadas con WI, y otros institutos poseen patentes adicionales. ^[24]^[25]^[26]

Efectos artísticos

Usos en música

Configuración de vocoder de canal como aplicación musical

Para aplicaciones musicales , se utiliza una fuente de sonidos musicales como portadora, en lugar de extraer la frecuencia fundamental. Por ejemplo, se podría usar el sonido de un sintetizador como entrada al banco de filtros, una técnica que se hizo popular en la década de 1970.

Historia

Werner Meyer-Eppler , científico alemán con especial interés en la síntesis de voz electrónica, publicó una tesis en 1948 sobre la música electrónica y la síntesis de voz desde el punto de vista de la síntesis de sonido . ^[27] Más tarde jugó un papel decisivo en la fundación del Estudio de Música Electrónica de WDR en Colonia, en 1951. ^[28]

Siemens Synthesizer (c.1959) en Siemens Studio for Electronic Music fue uno de los primeros intentos de usar un vocoder para crear música.

Uno de los primeros intentos de utilizar un codificador de voz para crear música fue el "Siemens Synthesizer" en el Siemens Studio for Electronic Music, desarrollado entre 1956 y 1959. ^[29]^[30]^{[media 2]}

En 1968, Robert Moog desarrolló uno de los primeros codificadores de voz musicales de estado sólido para el estudio de música electrónica de la Universidad de Buffalo . ^[31]

En 1968, Bruce Haack construyó un prototipo de codificador de voz, llamado "Farad" en honor a Michael Faraday . ^[32] Apareció por primera vez en "The Electronic Record For Children" lanzado en 1969 y luego en su álbum de rock The Electric Lucifer lanzado en 1970. ^[33]^{[media 3]}

En 1970, Wendy Carlos y Robert Moog construyeron otro codificador de voz musical, un dispositivo de diez bandas inspirado en los diseños de codificador de voz de Homer Dudley . Originalmente se llamó codificador-decodificador de espectro y luego se denominó simplemente codificador de voz. La señal portadora provenía de un sintetizador modular Moog y el modulador de una entrada de micrófono . La salida del codificador de voz de diez bandas era bastante inteligible, pero se basaba en un habla especialmente articulada . Algunos codificadores de voz utilizan un filtro de paso alto para dejar pasar algo de sibilancia desde el micrófono; esto arruina el dispositivo para su aplicación original de codificación de voz, pero hace que el efecto de sintetizador parlante sea mucho más inteligible. ^{[ cita requerida ]}

En 1973, la banda británica Emerson, Lake y Palmer utilizaron un vocoder en su álbum Brain Salad Surgery , para la canción Karn Evil 9: 3rd Impression .

La canción de 1975 The Raven del álbum Tales of Mystery and Imagination de The Alan Parsons Project , presenta a Alan Parsons interpretando la voz a través de un codificador de voz EMI . Según las notas del álbum, "The Raven" fue la primera canción de rock que incluía un codificador de voz digital.

Pink Floyd también usó un vocoder en tres de sus álbumes, primero en Animales de 1977 para las canciones Sheep and Pigs (Three different Ones) , y luego en A Momentary Lapse of Reason de 1987 en A New Machine Part 1 y A New Machine Part. 2 , y finalmente en The Division Bell de 1994 , en Keep Talking .

A finales de la década de 1970, el dúo francés Space Art utilizó un codificador de voz durante la grabación de su segundo álbum, Trip in the Center Head . ^[34]

Phil Collins usó un codificador de voz para proporcionar un efecto vocal para su single de éxito internacional de 1981 " In the Air Tonight ". ^[35]

Los codificadores de voz han aparecido en grabaciones pop de vez en cuando, la mayoría de las veces simplemente como un efecto especial en lugar de un aspecto destacado del trabajo. Sin embargo, muchos artistas electrónicos experimentales del género musical de la nueva era a menudo utilizan el vocoder de una manera más completa en obras específicas, como Jean Michel Jarre (en Zoolook , 1984) y Mike Oldfield (en QE2 , 1980 y Five Miles Out , 1982). ).

El módulo Vocoder y el uso de M. Oldfield se pueden ver claramente en su DVD "Live At Montreux 1981" (pista "Sheba").

También hay algunos artistas que han hecho de los vocoders una parte esencial de su música, en general o durante una fase extendida. Los ejemplos incluyen el alemán de synthpop grupo Kraftwerk , los japoneses nueva ola de grupos Polysics , Stevie Wonder ( "Enviar Una Your Love", "Una semilla de una estrella") y el teclista de jazz / fusión Herbie Hancock durante su último período de 1970. En 1982, Neil Young usó un Sennheiser Vocoder VSM201 en seis de las nueve pistas de Trans . ^[36] Quizás el ejemplo más escuchado, aunque a menudo no reconocido, del uso de un codificador de voz en la música popular, es el álbum Thriller de Michael Jackson de 1982 , en la canción " PYT (Pretty Young Thing) ". Durante los primeros segundos de la canción, las voces de fondo "ooh-ooh, ooh, ooh", detrás de sus palabras, ejemplifican el sonido fuertemente modulado de su voz a través de un Vocoder. ^[37] El puente también cuenta con un codificador de voz ("Bastante joven / Me haces cantar"), cortesía del músico de sesión Michael Boddicker .

Coldplay ha utilizado un codificador de voz en algunas de sus canciones. Por ejemplo, en " Major Minus " y " Hurts Like Heaven ", ambos del álbum Mylo Xyloto (2011), las voces de Chris Martin son en su mayoría procesadas por vocoder. " Midnight ", de Ghost Stories (2014), también presenta a Martin cantando a través de un codificador de voz. ^[38] La pista oculta "X Marks The Spot" de A Head Full of Dreams también se ha grabado a través de un codificador de voz.

La banda de Noisecore Atari Teenage Riot ha utilizado codificadores de voz en una variedad de sus canciones y presentaciones en vivo como Live at the Brixton Academy (2002) junto con otras tecnologías de audio digital tanto antiguas como nuevas.

La canción de Red Hot Chili Peppers " By the Way " utiliza un efecto de codificador de voz en la voz de Anthony Kiedis.

Entre los usos más consistentes del vocoder para emular la voz humana se encuentran Daft Punk , quienes han utilizado este instrumento desde su primer álbum Homework (1997) hasta su último trabajo Random Access Memories (2013) y consideran la convergencia de la voz tecnológica y humana "la identidad de su proyecto musical ". ^[39] Por ejemplo, la letra de " Around the World " (1997) está procesada integralmente por vocoder, " Get Lucky " (2013) presenta una mezcla de voces humanas naturales y procesadas, y " Instant Crush " (2013) presenta a Julian Casablancas cantando en un vocoder.

Efectos de voz en otras artes

Las "voces de robots" se convirtieron en un elemento recurrente en la música popular durante el siglo XX. Además de los codificadores de voz , varios otros métodos para producir variaciones en este efecto incluyen: Sonovox , Talk box y Auto-Tune , codificadores de voz de predicción lineal ^{[media 4]} , síntesis de voz , modulación en anillo ^{[media 5]}^{[media 6]} y filtro de peine .

Los codificadores de voz se utilizan en la producción de televisión , cine y juegos, generalmente para robots o computadoras parlantes. Las voces de robot de los Cylons en Battlestar Galactica fueron creadas con un EMS Vocoder 2000. ^[36] La versión de 1980 del tema de Doctor Who , arreglada y grabada por Peter Howell , tiene una sección de la melodía principal generada por un Roland SVC- 350 codificador de voz. También se utilizó un codificador de voz Roland VC-330 para crear la voz de Soundwave , un personaje de la serie Transformers .

En 1967, la serie Supermarionation Captain Scarlet and the Mysterons se utilizó en el tema de los créditos finales de los primeros 14 episodios para proporcionar la repetición de las palabras "Captain Scarlet".

En 1972, el primer álbum de música electrónica de Isao Tomita , Electric Samurai: Switched on Rock, fue un intento temprano de aplicar la técnica de síntesis de voz a través de un codificador de voz ^[^{cita requerida}^] en el rock electrónico y la música pop . El álbum incluía interpretaciones electrónicas de canciones de pop y rock contemporáneo , al tiempo que utilizaba voces sintetizadas en lugar de voces humanas. En 1974, utilizó voces sintetizadas en su popular álbum de música clásica Snowflakes are Dancing , que se convirtió en un éxito mundial y ayudó a popularizar la música electrónica. Emerson, Lake y Palmer lo usaron para el álbum Brain Salad Surgery (1973). ^[40]

Ver también

Modificación de tono de escala de tiempo de audio
Autoajuste
Homer Dudley
Lista de codificadores de voz
Codificador de voz de fase
Interfaz de voz silenciosa
Hablar caja
Werner Meyer-Eppler

Referencias

^ [1] , "Sistema para la producción artificial de sonidos vocales o de otro tipo", publicado el 7 de abril de 1937
^ Dudley, Homer (octubre de 1940). "La naturaleza portadora del habla" . Revista técnica de Bell System . XIX (4).
^ "HY-2" . Cryptomuseum.com . Consultado el 31 de julio de 2019 .
^ "HY-2 Vocoder" . Máquinas criptográficas.
^ Molinos, Mara (2012). "Medios y prótesis: el codificador de voz, la laringe artificial y la historia del procesamiento de señales" . Qui Parle . 21 (1): 107-149. doi : 10.5250 / quiparle.21.1.0107 . S2CID 143012886 .
^ Solicitud estadounidense 2151091 , Dudley, Homer W., " Transmisión de señal ", publicada el 21 de mayo de 1939, asignada a Bell Telephone Laboratories , Inc. (presentado el 30 de octubre de 1935)
^ Solicitud estadounidense 2098956 , Dudley, Homer W., " Sistema de señalización ", publicada el 16 de noviembre de 1937, asignada a Bell Telephone Laboratories , Inc. (presentado el 2 de diciembre de 1936)
^ Aplicación estadounidense 2121142 , Dudley, Homer, " Transmisión de señal ", publicada el 21 de junio de 1938, asignada a Bell Telephone Laboratories , Inc. (presentada el 7 de abril de 1937)
^ a b "El 'Voder' y 'Vocoder' Homer Dudley, Estados Unidos, 1940" . 120 años de música electrónica (120years.net) . 2013-09-21. El Vocoder (Voice Operated reCorDER) y Voder (Voice Operation DEmonstratoR) desarrollados por el físico investigador Homer Dudley, ... El Voder se presentó por primera vez en 1939 en la Feria Mundial de Nueva York (donde se demostró a intervalos de una hora) y más tarde en 1940 en San Francisco. Había veinte operadoras capacitadas conocidas como las 'chicas' que manejaban la máquina como un instrumento musical como un piano o un órgano, ... Esto se hacía manipulando catorce teclas con los dedos, una barra con la muñeca izquierda y una pedal con el pie derecho.
^ "El Voder (1939)" . Talking Heads: Simulacra . Laboratorios Haskins .; Residencia en James L. Flanagan (1965). "Síntesis de voz". Análisis, síntesis y percepción del habla . Springer-Verlag. págs. 172-173.
Ver: diagrama esquemático del sintetizador Voder .
^ "KY-9" . Cryptomuseum.com . Consultado el 31 de julio de 2019 .
^ "Campbell.qxd" (PDF) . Consultado el 31 de julio de 2019 .
^ Gupta, Shipra (mayo de 2016). "Aplicación de MFCC en reconocimiento de oradores independientes de texto" (PDF) . Revista Internacional de Investigación Avanzada en Ciencias de la Computación e Ingeniería de Software . 6 (5): 805-810 (806). ISSN 2277-128X . S2CID 212485331 . Archivado desde el original (PDF) el 18 de octubre de 2019 . Consultado el 18 de octubre de 2019 . Los métodos LPC son los más utilizados en la codificación de voz.
^ Gray, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: parte II de codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontró. Proceso de la señal de tendencias . 3 (4): 203–303. doi : 10.1561 / 2000000036 . ISSN 1932-8346 .
^ Cummiskey, P .; Jayant, Nikil S .; Flanagan, James L. (1973). "Cuantificación adaptativa en codificación diferencial PCM de voz". El diario técnico de Bell System . 52 (7): 1105-1118. doi : 10.1002 / j.1538-7305.1973.tb02007.x .
^ Disertación y patentes de Ernst Rothauser sobre tecnología vocoder
^ "Voice Age" (licenciamiento) . VoiceAge Corporation.
^ "MELPe - Preguntas frecuentes" . Compandent Inc.
^ "IMBE y AMBE" . Sistemas de voz digital, Inc.
^ "Codificadores de voz SPR" . DSP Innovations Inc.
^ "Circuitos integrados de codificador de voz RALCWI" . Microcircuitos CML . CML Microsystems Plc.
^ "TWELP Vocoder" . DSP Innovations Inc.
^ "Ruido Rubust Vocoders" . Raytheon BBN Technologies. Archivado desde el original el 2 de abril de 2014.
^ Kleijn, WB; Haagen, J. (1995). "Un codificador de voz basado en la descomposición de formas de onda características". 1995 Conferencia internacional sobre acústica, habla y procesamiento de señales . IEEE 1995 Conferencia internacional sobre acústica, habla y procesamiento de señales, 1995. ICASSP-95 . 1 . (AT&T Bell Labs., Murray Hill, Nueva Jersey). págs. 508–511. doi : 10.1109 / ICASSP.1995.479640 . ISBN 978-0-7803-2431-2. S2CID 9105323 .
^ Kleijn, WB; Shoham, Y .; Enviar.; Hagen, R. (1996). "Un codificador de interpolación de formas de onda de baja complejidad". 1996 IEEE International Conference on Acustics, Speech, and Signal Processing Conference Proceedings . IEEE Icassp 1996 . 1 . (AT&T Bell Labs., Murray Hill, Nueva Jersey). págs. 212–215. doi : 10.1109 / ICASSP.1996.540328 . ISBN 978-0-7803-3192-1. S2CID 44346744 .
^ Gottesman, O .; Gersho, A. (2001). (Departamento de Ingeniería Eléctrica y Computación, Univ. De California, Santa Bárbara, CA). "Codificación interpolativa de forma de onda mejorada a baja tasa de bits" . Transacciones IEEE sobre procesamiento de voz y audio . 9 (Noviembre de 2001): 786–798. doi : 10.1109 / 89.966082 . S2CID 17949435 .
^ Meyer-Eppler, Werner (1949), Elektronische Klangerzeugung: Elektronische Musik und Synthetische Sprache , Bonn: Ferdinand Dümmlers
^ Diesterhöft, Sonja (2003), "Meyer-Eppler und der Vocoder" , Seminars Klanganalyse und -synthese (en alemán), Fachgebiet Kommunikationswissenschaft, Institut für Sprache und Kommunikation, Instituto de Tecnología de Berlín , archivado desde el original el 5 de marzo de 2008
^ "Das Siemens-Studio für elektronische Musik von Alexander Schaaf und Helmut Klein" (en alemán). Deutsches Museum. Archivado desde el original el 30 de septiembre de 2013.
^ Holmes, Thom (2012). "Primeros sintetizadores y experimentadores" . Música electrónica y experimental: tecnología, música y cultura (4ª ed.). Routledge. págs. 190-192. ISBN 978-1-136-46895-7.
(Véase también el extracto de pp. 157 - 160 de la tercera edición, en 2008 ( ISBN 978-0-415-95781-6 ))
^ Bode, Harald (octubre de 1984). "Historia de la modificación electrónica del sonido" (PDF) . Revista de la Sociedad de Ingeniería de Audio . 32 (10): 730–739.
^ BRUCE HAACK - FARAD: LA VOZ ELÉCTRICA (Notas para los medios). Bruce Haack. Stones Throw Records LLC. 2010.CS1 maint: otros en cite AV media (notas) ( enlace )
^ "Biografía de Bruce Haack 1965-1974" . Publicación de Bruce Haack.
^ Richard, Philippe (29 de noviembre de 2016). "Música. Arte espacial, pionniers de l'electro à la française" [Música. Space Art, pioneros del electro francés]. Ouest France (en francés) . Consultado el 28 de abril de 2021 . CS1 maint: parámetro desalentado ( enlace )
^ Flans, Robyn (5 de enero de 2005). "Pistas clásicas:" In the Air Tonight "de Phil Collins " . Mezclar en línea . Consultado el 25 de febrero de 2015 .
^ a b Tompkins, Dave (2010-2011). Cómo arruinar una playa bonita: el codificador de voz de la Segunda Guerra Mundial al Hip-Hop, The Machine Speaks . Casa Melville. ISBN 978-1-61219-093-8.
^ "El Vocoder: de la codificación de voz a Robot Rock" . Música NPR . 13 de mayo de 2010.
^ "¡Midnight es increíble! Pero parece que la voz de Chris tiene autoajuste en algunas partes. Pensé que Coldplay no usa autoajuste." . Coldplay "Oracle". 5 de marzo de 2014 . Consultado el 25 de marzo de 2014 .
^ "Daft Punk:" La musique actuelle manque d'ambition " " (entrevista) . Le Figaro . 3 de mayo de 2013.
^ Jenkins, Mark (2007), Sintetizadores analógicos: del legado de Moog a la síntesis de software , Elsevier , págs. 133–4, ISBN 978-0-240-52072-8, consultado el 27 de mayo de 2011

Referencias multimedia

^ Una de las primeras máquinas de codificación de voz [sic] (película cinematográfica). C. 1939.
Una demostración del Voder (no del Vocoder).
^ Siemens Electronic Music Studio en Deutsches Museum (varias partes) (Video).
Detalles del Siemens Electronic Music Studio, exhibido en el Deutsches Museum .
^ Bruce Haack (1970). Electric to Me Turn - de "The Electric Lucifer" (fonógrafo). Columbia Records.
Una muestra de Vocoder anterior.
^ T-Pain (2005). I'm Sprung (CD Single / Descarga). Jive Records.
Una muestra del efecto Auto-Tune (también conocido como efecto T-Pain ).
^ Síntesis de voz por computadora anterior (audio). AT&T Bell Labs. C. 1961.
Una muestra de síntesis de voz y síntesis de canciones anteriores por computadora , por John Larry Kelly, Jr. y Louis Gerstman en Bell Labs , utilizando una computadora IBM 704 . La canción demo " Daisy Bell ", musical acompañada por Max Mathews , impresionó a Arthur C. Clarke y más tarde la utilizó en la escena culminante del guión de su novela 2001: A Space Odyssey .
^ TI Speak & Spell (video). Instrumentos Texas. C. 1980.
Una muestra de síntesis de voz .

enlaces externos

"Cómo funcionan los codificadores de voz" . PAIA. Archivado desde el original el 7 de septiembre de 2011.
Descripción, fotografías y diagrama del vocoder en 120years.net
"Curso de Mats Claesson en Vokator" . Archivado desde el original el 6 de marzo de 2016. Descripción de un Vocoder moderno.
Implementación GPL de un codificador de voz, como complemento LADSPA
Artículo de O'Reilly sobre codificadores de voz
Objeto de interés: The Vocoder The New Yorker Magazine Mini documental

[1] [1] , "Sistema para la producción artificial de sonidos vocales o de otro tipo", publicado el 7 de abril de 1937

[2] Dudley, Homer (octubre de 1940). "La naturaleza portadora del habla" . Revista técnica de Bell System . XIX (4).

[3] "HY-2" . Cryptomuseum.com . Consultado el 31 de julio de 2019 .

[4] "HY-2 Vocoder" . Máquinas criptográficas.

[autogenerated-5] Molinos, Mara (2012). "Medios y prótesis: el codificador de voz, la laringe artificial y la historia del procesamiento de señales" . Qui Parle . 21 (1): 107-149. doi : 10.5250 / quiparle.21.1.0107 . S2CID 143012886 .

[USpatentapplication2151019-6] Solicitud estadounidense 2151091 , Dudley, Homer W., " Transmisión de señal ", publicada el 21 de mayo de 1939, asignada a Bell Telephone Laboratories , Inc. (presentado el 30 de octubre de 1935)

[USpatentapplication2098956-7] Solicitud estadounidense 2098956 , Dudley, Homer W., " Sistema de señalización ", publicada el 16 de noviembre de 1937, asignada a Bell Telephone Laboratories , Inc. (presentado el 2 de diciembre de 1936)

[USpatentapplication2121142-8] Aplicación estadounidense 2121142 , Dudley, Homer, " Transmisión de señal ", publicada el 21 de junio de 1938, asignada a Bell Telephone Laboratories , Inc. (presentada el 7 de abril de 1937)

[120years-HomerDudley-9] "El 'Voder' y 'Vocoder' Homer Dudley, Estados Unidos, 1940" . 120 años de música electrónica (120years.net) . 2013-09-21. El Vocoder (Voice Operated reCorDER) y Voder (Voice Operation DEmonstratoR) desarrollados por el físico investigador Homer Dudley, ... El Voder se presentó por primera vez en 1939 en la Feria Mundial de Nueva York (donde se demostró a intervalos de una hora) y más tarde en 1940 en San Francisco. Había veinte operadoras capacitadas conocidas como las 'chicas' que manejaban la máquina como un instrumento musical como un piano o un órgano, ... Esto se hacía manipulando catorce teclas con los dedos, una barra con la muñeca izquierda y una pedal con el pie derecho.

[haskinsLabs-10] "El Voder (1939)" . Talking Heads: Simulacra . Laboratorios Haskins .; Residencia en James L. Flanagan (1965). "Síntesis de voz". Análisis, síntesis y percepción del habla . Springer-Verlag. págs. 172-173.
Ver: diagrama esquemático del sintetizador Voder .

[12] "KY-9" . Cryptomuseum.com . Consultado el 31 de julio de 2019 .

[13] "Campbell.qxd" (PDF) . Consultado el 31 de julio de 2019 .

[14] Gupta, Shipra (mayo de 2016). "Aplicación de MFCC en reconocimiento de oradores independientes de texto" (PDF) . Revista Internacional de Investigación Avanzada en Ciencias de la Computación e Ingeniería de Software . 6 (5): 805-810 (806). ISSN 2277-128X . S2CID 212485331 . Archivado desde el original (PDF) el 18 de octubre de 2019 . Consultado el 18 de octubre de 2019 . Los métodos LPC son los más utilizados en la codificación de voz.

[Gray-15] Gray, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: parte II de codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontró. Proceso de la señal de tendencias . 3 (4): 203–303. doi : 10.1561 / 2000000036 . ISSN 1932-8346 .

[16] Cummiskey, P .; Jayant, Nikil S .; Flanagan, James L. (1973). "Cuantificación adaptativa en codificación diferencial PCM de voz". El diario técnico de Bell System . 52 (7): 1105-1118. doi : 10.1002 / j.1538-7305.1973.tb02007.x .

[17] Disertación y patentes de Ernst Rothauser sobre tecnología vocoder

[18] "Voice Age" (licenciamiento) . VoiceAge Corporation.

[19] "MELPe - Preguntas frecuentes" . Compandent Inc.

[20] "IMBE y AMBE" . Sistemas de voz digital, Inc.

[21] "Codificadores de voz SPR" . DSP Innovations Inc.

[22] "Circuitos integrados de codificador de voz RALCWI" . Microcircuitos CML . CML Microsystems Plc.

[23] "TWELP Vocoder" . DSP Innovations Inc.

[24] "Ruido Rubust Vocoders" . Raytheon BBN Technologies. Archivado desde el original el 2 de abril de 2014.

[kleijn95-25] Kleijn, WB; Haagen, J. (1995). "Un codificador de voz basado en la descomposición de formas de onda características". 1995 Conferencia internacional sobre acústica, habla y procesamiento de señales . IEEE 1995 Conferencia internacional sobre acústica, habla y procesamiento de señales, 1995. ICASSP-95 . 1 . (AT&T Bell Labs., Murray Hill, Nueva Jersey). págs. 508–511. doi : 10.1109 / ICASSP.1995.479640 . ISBN 978-0-7803-2431-2. S2CID 9105323 .

[kleijn96-26] Kleijn, WB; Shoham, Y .; Enviar.; Hagen, R. (1996). "Un codificador de interpolación de formas de onda de baja complejidad". 1996 IEEE International Conference on Acustics, Speech, and Signal Processing Conference Proceedings . IEEE Icassp 1996 . 1 . (AT&T Bell Labs., Murray Hill, Nueva Jersey). págs. 212–215. doi : 10.1109 / ICASSP.1996.540328 . ISBN 978-0-7803-3192-1. S2CID 44346744 .

[gottesman01-27] Gottesman, O .; Gersho, A. (2001). (Departamento de Ingeniería Eléctrica y Computación, Univ. De California, Santa Bárbara, CA). "Codificación interpolativa de forma de onda mejorada a baja tasa de bits" . Transacciones IEEE sobre procesamiento de voz y audio . 9 (Noviembre de 2001): 786–798. doi : 10.1109 / 89.966082 . S2CID 17949435 .

[meyer-eppler1949-28] Meyer-Eppler, Werner (1949), Elektronische Klangerzeugung: Elektronische Musik und Synthetische Sprache , Bonn: Ferdinand Dümmlers

[meyer-eppler-29] Diesterhöft, Sonja (2003), "Meyer-Eppler und der Vocoder" , Seminars Klanganalyse und -synthese (en alemán), Fachgebiet Kommunikationswissenschaft, Institut für Sprache und Kommunikation, Instituto de Tecnología de Berlín , archivado desde el original el 5 de marzo de 2008

[siemens-30] "Das Siemens-Studio für elektronische Musik von Alexander Schaaf und Helmut Klein" (en alemán). Deutsches Museum. Archivado desde el original el 30 de septiembre de 2013.

[holmes2012-31] Holmes, Thom (2012). "Primeros sintetizadores y experimentadores" . Música electrónica y experimental: tecnología, música y cultura (4ª ed.). Routledge. págs. 190-192. ISBN 978-1-136-46895-7.
(Véase también el extracto de pp. 157 - 160 de la tercera edición, en 2008 ( ISBN 978-0-415-95781-6 ))

[bode1984-33] Bode, Harald (octubre de 1984). "Historia de la modificación electrónica del sonido" (PDF) . Revista de la Sociedad de Ingeniería de Audio . 32 (10): 730–739.

[farad-34] BRUCE HAACK - FARAD: LA VOZ ELÉCTRICA (Notas para los medios). Bruce Haack. Stones Throw Records LLC. 2010.CS1 maint: otros en cite AV media (notas) ( enlace )

[brucehaack-35] "Biografía de Bruce Haack 1965-1974" . Publicación de Bruce Haack.

[OuestFrance-37] Richard, Philippe (29 de noviembre de 2016). "Música. Arte espacial, pionniers de l'electro à la française" [Música. Space Art, pioneros del electro francés]. Ouest France (en francés) . Consultado el 28 de abril de 2021 . CS1 maint: parámetro desalentado ( enlace )

[38] Flans, Robyn (5 de enero de 2005). "Pistas clásicas:" In the Air Tonight "de Phil Collins " . Mezclar en línea . Consultado el 25 de febrero de 2015 .

[tompkins-39] Tompkins, Dave (2010-2011). Cómo arruinar una playa bonita: el codificador de voz de la Segunda Guerra Mundial al Hip-Hop, The Machine Speaks . Casa Melville. ISBN 978-1-61219-093-8.

[40] "El Vocoder: de la codificación de voz a Robot Rock" . Música NPR . 13 de mayo de 2010.

[41] "¡Midnight es increíble! Pero parece que la voz de Chris tiene autoajuste en algunas partes. Pensé que Coldplay no usa autoajuste." . Coldplay "Oracle". 5 de marzo de 2014 . Consultado el 25 de marzo de 2014 .

[42] "Daft Punk:" La musique actuelle manque d'ambition " " (entrevista) . Le Figaro . 3 de mayo de 2013.

[jenkins_2007-46] Jenkins, Mark (2007), Sintetizadores analógicos: del legado de Moog a la síntesis de software , Elsevier , págs. 133–4, ISBN 978-0-240-52072-8, consultado el 27 de mayo de 2011

[11] Una de las primeras máquinas de codificación de voz [sic] (película cinematográfica). C. 1939.
Una demostración del Voder (no del Vocoder).

[32] Siemens Electronic Music Studio en Deutsches Museum (varias partes) (Video).
Detalles del Siemens Electronic Music Studio, exhibido en el Deutsches Museum .

[36] Bruce Haack (1970). Electric to Me Turn - de "The Electric Lucifer" (fonógrafo). Columbia Records.
Una muestra de Vocoder anterior.

[43] T-Pain (2005). I'm Sprung (CD Single / Descarga). Jive Records.
Una muestra del efecto Auto-Tune (también conocido como efecto T-Pain ).

[44] Síntesis de voz por computadora anterior (audio). AT&T Bell Labs. C. 1961.
Una muestra de síntesis de voz y síntesis de canciones anteriores por computadora , por John Larry Kelly, Jr. y Louis Gerstman en Bell Labs , utilizando una computadora IBM 704 . La canción demo " Daisy Bell ", musical acompañada por Max Mathews , impresionó a Arthur C. Clarke y más tarde la utilizó en la escena culminante del guión de su novela 2001: A Space Odyssey .

[45] TI Speak & Spell (video). Instrumentos Texas. C. 1980.
Una muestra de síntesis de voz .

[1]