Loquendo es una corporación multinacional de tecnología de software informático, con sede en Torino , Italia, que ofrece aplicaciones de reconocimiento de voz, síntesis de voz, verificación e identificación de hablantes. [1] Loquendo, que fue fundada en 2001 bajo el Telecom Italia Lab (anteriormente, CSELT ), también tenía oficinas en Reino Unido, España, Alemania, Francia y Estados Unidos. [2]
Tipo | Privado |
---|---|
Industria | Aplicaciones de productividad |
Fundado | Setenta como grupo de investigación dentro del CSELT 2001 (como empresa independiente) |
Sede | Torino , Italia |
Gente clave | Presidente y CEO: Davide Franco |
Productos | síntesis de voz , reconocimiento de voz , verificación de locutor , consultoría |
Ingresos | 15 millones de euros (2010) |
Lngresos netos | 1,5 millones de euros (2010) |
Número de empleados | 103 (2011) |
Sitio web | loquendo |
Los productos comerciales actuales se pueden encontrar en dispositivos de navegación portátiles y en el automóvil , dispositivos de asistencia para personas con capacidades diferentes, teléfonos inteligentes , lectores de libros electrónicos , cajeros automáticos parlantes , juegos de computadora , electrodomésticos controlados por voz y otros. Los sistemas de síntesis de voz y reconocimiento de voz se utilizan en una nueva aplicación de e-salud como parte del asistente virtual de los Servicios de Salud del Gobierno de la Junta de Andalucía de España. [3]
Los productos de Loquendo han recibido varios premios, incluido el de Líder en motores de voz de Speech Technologies en 2007, 2008 y 2009 [4]. Fue calificado como 'Líder de mercado' por Speech Technologies en 2009 y 2010. [5]
El 30 de septiembre de 2011, Nuance anunció que había adquirido Loquendo. [6]
Historia
Loquendo fue originalmente un grupo de investigación creado a mediados de los años setenta por los directores de IRI - STET en los laboratorios CSELT de Turín antes de convertirse en una empresa por derecho propio en 2001.
Síntesis de voz
Sobre la base de las recomendaciones de la Universidad de Padua , aplicando la técnica de los llamados difonos (la unión de una consonante y una vocal, que cuenta 150 en total para el italiano), el grupo de tecnología de voz dirigido por Giulio Modena creó el primer discurso. sintetizador con alta inteligibilidad capaz de hablar (y cantar) italiano en 1975. [7] Se llamó MUSA (MUltichannel Speaking Automaton) , que demostró lo que era posible con la tecnología de la época. Los resultados obtenidos en esos años se condensaron en un disco de audio a 45 rpm publicado en 1978, distribuido en miles de copias a través de los medios de comunicación masiva. La pista automática, tras una breve autopresentación hablada del sistema, contenía una divertida versión italiana de la canción Frère Jacques realizada en polifonía ( a cappella ) con más voces cantantes (MUSA podía gestionar hasta 8 canales de síntesis en paralelo).
La evolución de este prototipo, con el aumento del número de difonos (alrededor de 1000), el refinamiento de las herramientas de análisis del lenguaje y la gestión mejorada de la forma de onda, llevaron a una marcada mejora también de la voz sintética. Esto condujo a la creación del primer circuito integrado de "sintetizador de voz", desarrollado internamente en CSELT , que fue fabricado por SGS (catálogo como Zilog 's Z80 del periférica (con el código M8950) microprocesador.
Más adelante en la década de los noventa nace " ELOQUENS ", un software sintetizador de voz multiplataforma destinado a varios sistemas operativos como DOS , Windows , System 7 , Unix , OS / 2 ) y placas telefónicas con un gran número de canales, como los utilizado por el operador telefónico italiano para crear el servicio de información de abonados de telefonía inversa (utilizado para obtener la identidad y la dirección de un abonado a partir de su número de teléfono). [8] [9]
Hacia finales de la década de 1990, la síntesis de voz adoptó un nuevo enfoque, en lugar de pasar difonos, utilizaría la selección y concatenación de unidades acústicas de longitud variable, un enfoque que fue posible gracias al aumento de la potencia de las computadoras y especialmente a la creciente capacidad de almacenamiento masivo. sistemas. Esto resultó en "ACTOR" - "La voz que suena humana" - que comenzó a tener una gran audiencia debido a la cantidad de servicios telefónicos y aplicaciones creadas por empresas relacionadas con Loquendo.
En el año 2000, el sintetizador salió de los laboratorios de investigación como un producto comercial, incluyendo una serie de herramientas de edición para producir audio sintético enriquecido con emociones, y también se lanzó como una biblioteca de software para su uso en varios productos, desde pequeños portátiles. dispositivos como teléfonos móviles, navegadores y computadoras de mano, hasta servidores telefónicos multicanal / multilingüe para centros de llamadas (semiautomáticos).
La síntesis de voz de Loquendo se ha convertido en un meme de internet en YouTube , aunque es más común en videos del idioma español. A menudo se usa en creepypastas y doblajes de parodia (a menudo con lenguaje vulgar).
Reconocimiento de voz
Poco después del inicio de la investigación sobre la síntesis de voz, comenzaron a investigar sobre el reconocimiento de voz y, a principios de los años ochenta, produjeron el primer prototipo, capaz de reconocer los diez dígitos y algunos comandos simples.
La aplicación de los modelos Hidden Markov en 1984 [10] condujo al desarrollo de un reconocedor de voz que podía reconocer palabras y oraciones conectadas, creado en colaboración con ELSAG , otra empresa del grupo IRI - STET . Incluso en colaboración con ELSAG, en 1986 se presentó RIPAC (RIconoscimento PArlato Connesso) , un microprocesador temprano destinado a realizar el reconocimiento del habla conectada . Este procesador tenía niveles de integración VLSI y estaba compuesto por 70.000 transistores .
La necesidad de producir aplicaciones telefónicas de reconocimiento de voz independientes lleva a la creación de bases de datos de voz con las voces grabadas de cientos de personas diferentes y en 1987 la primera gran base de datos, obtenida a través de la grabación de las voces de más de 1000 personas que llaman desde toda Italia con un procedimiento automático, se utilizó en la creación de un servidor telefónico especialmente diseñado en los laboratorios CSELT.
Este material guardado permitió el entrenamiento de modelos de Markov y, mediante el uso de algoritmos sofisticados, condujo al desarrollo de "AURIS", el primer reconocedor comercial que podía "convertir" en una variedad de dispositivos con procesadores de señal digital (DSP).
En la década de los noventa, comenzó una gran colaboración entre Europa y, junto con una docena de otras empresas y universidades de toda Europa, se recopiló una base de datos de voz muy grande en toda Europa, con las voces de más de 65000 personas. [11]
Este material, combinado con un nuevo enfoque mixto de modelos Hidden Markov y redes neuronales condujo a "FLEXUS", [12] el primer reconocedor de voz de vocabulario flexible, que permitió que muchos servicios telefónicos variados utilizaran el reconocimiento automático de voz en sus interfaces humanas.
La fusión de "FLEXUS" y "ACTOR" en un único sistema creó "Dialogos", permitiendo la creación de servicios telefónicos de última generación.
El nacimiento de Loquendo como empresa condujo al desarrollo de muchos idiomas y al lanzamiento del reconocedor en forma de software de biblioteca para la creación de diversas aplicaciones de telefonía.
También introdujeron varios sistemas para escribir gramáticas finitas de estado y sistemas de modelos de lenguaje natural.
Las campañas de grabación de bases de datos de voz continúan trasladándose desde Europa a los países mediterráneos, al Sur, Centro y Norteamérica, y finalmente a países del Lejano Oriente. En general, se han registrado innumerables horas de discurso al contactar a cientos de miles de personas en las regiones enumeradas. Las grabaciones se han recopilado tanto para redes de telefonía fija, como en vehículos en movimiento para teléfonos móviles y también utilizando micrófonos de alta calidad en entornos domésticos para aplicaciones de consumo como videojuegos, electrodomésticos y domótica en general.
Reconocimiento de locutor
Las actividades de investigación sobre el reconocimiento de oradores se iniciaron a principios de los años ochenta. [13] Más tarde, en medio de dos mil, las bases de datos de voz adaptadas a esta tarea estuvieron disponibles. En colaboración con el Politécnico de Turín , iniciaron experimentos en dos frentes diferentes: "identificación" y "verificación" del hablante .
El éxito de la investigación también ha llevado a la empresa a avanzar hacia el desarrollo de productos específicamente para estas tareas a través de las plataformas habilitadoras que se describen a continuación.
Codificación de voz
Las actividades de investigación en codificación de voz comenzaron incluso antes que las de reconocimiento y síntesis de voz, con el objetivo de construir equipos como CODEC y cancelador de eco para poder aumentar al máximo el número de conversaciones telefónicas que pueden fluir a través de un solo cable (o conexión por satélite) sin perder la inteligibilidad de la voz.
A finales de los años setenta, los estudios y experimentos llevaron a la creación de algoritmos para codificar la señal de voz telefónica y establecieron la normativa europea CCITT conocida como codificación de ley A ( ley de codificación de logaritmos de 8 bits "A" para señales de audio en banda de 8 kHz limitado). Este estándar se utilizó luego en el CODEC para líneas telefónicas ISDN de 64 kbit / s .
En los años siguientes construyeron códecs más fuertes (centrales telefónicas usadas) y, dentro del consorcio PAN-Europa GSM , el códec para usar en teléfonos móviles de segunda generación.
Al mismo tiempo, construyeron un CODEC para transmitir señales de alta calidad a pesar del límite de banda de 8 kHz de los cables telefónicos, lo cual fue útil para aplicaciones de conferencias de audio y video.
Habilitación de plataformas
A finales de los noventa, el desarrollo de Internet en la forma que se conoce hoy en día (hipertexto residente en diferentes servidores que se extienden por todo el planeta en una gran red) llevó a la necesidad de que estos textos estuvieran disponibles en voz por teléfono.
Al mismo tiempo, el IVR - Interactive Voice Response , se hizo cada vez más popular y utilizó herramientas de hardware y software para desarrollar rápidamente nuevas aplicaciones de telefonía. Se hizo evidente que los modelos de desarrollo anteriores que llevaron al desarrollo de sistemas complejos como la automatización del servicio de consulta de directorio o las Estaciones de Servicio Automático de Información eran demasiado rígidos y no permitirían fácilmente el desarrollo de nuevas aplicaciones.
Por lo tanto, se consideró que existía la necesidad de habilitar plataformas para sistemas telefónicos de voz automáticos que fueran escalables y fácilmente programables. Con este fin, se creó un grupo de trabajo especial para desarrollar un prototipo de navegador de voz , que se mostrará al público en SMAU 2000, [14] con el nombre " VoxNauta ". Fue un éxito tan grande que Telecom Italia decidió cerrar sus laboratorios de investigación originales y crear Loquendo el 1 de febrero de 2001.
A lo largo de los años, "VoxNauta" se desarrolló aún más en varias formas escalables: desde pequeños servidores hasta grandes sistemas empresariales con miles de líneas y se ha instalado en cientos de empresas en todo el mundo.
El nacimiento de estándares para escribir servicios telefónicos para conectar el servidor que aloja las tecnologías de voz a los servidores que alojan las placas telefónicas impulsa el desarrollo del software solo.
La aparición de estándares en la redacción de servicios telefónicos ( VoiceXML ) y protocolos ( MRCP ) para conectar servidores que alojan las tecnologías de voz a servidores que alojan las placas telefónicas llevó a la creación del software Speech Server , que aloja texto a voz y reconocedor de voz. motores de Loquendo
Esta continua investigación y desarrollo han llevado a Loquendo a ser una de las marcas más conocidas en el campo de la síntesis y el reconocimiento de voz.
La marca
No existe una explicación definitiva del origen del nombre Loquendo , mientras que el logo fue creado por el departamento gráfico de Telecom Italia . Cuando se muestra como un gif animado, las tres ondas sobre la "O" se encienden en secuencia, dando la sensación de emisión de sonido.
La marca no ha sido protegida por la empresa, existen otras empresas italianas cuyo nombre deriva directamente de Loquendo, y esto ha contribuido a su uso generalizado, incluso a costa de marcas competidoras.
Venta de la empresa
A lo largo de los años ha habido rumores de la venta de Loquendo a otras empresas. [15]
El más reciente fue en el verano de 2011, cuando se anunció que dos empresas multinacionales con sede en EE. UU., Nuance y Avaya , estaban estudiando la posibilidad de una adquisición.
Como Nuance era un competidor directo de la empresa italiana, los trabajadores de Loquendo estaban preocupados por el posible desmembramiento de la investigación y el desarrollo y la desaparición de Italia de una excelente marca con cuarenta años de experiencia. [dieciséis]
Una compra por parte de Avaya parecía más deseable ya que sus actividades eran complementarias a la que realizaba Loquendo; De hecho, Avaya no poseía ninguna tecnología de voz y, por lo tanto, podría haber estado muy interesado en la posibilidad de desarrollo interno en lugar de comprarlos a compañías externas. [17]
Estos informes fueron seguidos con gran interés por los trabajadores, las autoridades locales de Turín y Piamonte y toda la comunidad científica internacional. [18] [19] [20]
El 13 de agosto de 2011, Telecom Italia anunció públicamente la venta de la totalidad de su participación en Loquendo a Nuance por 53 millones de euros. [21] [22] [23]
Productos
- síntesis de voz
- reconocimiento de voz
- verificación del hablante
- navegador de voz
Referencias
- ^ "Loquendo de un vistazo" . Loquendo . 2001. Archivado desde el original el 22 de febrero de 2011 . Consultado el 3 de marzo de 2011 .
- ^ "Ubicaciones" . Loquendo . 2001. Archivado desde el original el 23 de febrero de 2011 . Consultado el 3 de marzo de 2011 .
- ^ Klie, Leonard (18 de mayo de 2010). "Loquendo presta su voz al asistente virtual de los servicios de salud gubernamentales" . Medios de tecnología del habla . Information Today, Inc. Archivado desde el original el 26 de marzo de 2016 . Consultado el 23 de agosto de 2018 .
- ^ Felipe-Barkin, Eric (1 de julio de 2000). "Líderes del mercado: motor de voz" . Tecnología del habla . Information Today, Inc. Archivado desde el original el 3 de enero de 2014 . Consultado el 23 de agosto de 2018 .
- ^ "Guía del comprador de la industria de tecnología del habla" . Tecnología del habla . Information Today, Inc. 2007. Archivado desde el original el 3 de enero de 2014 . Consultado el 23 de agosto de 2018 .
- ^ "Nuance cierra la adquisición de Loquendo" . Nuance Communications, Inc. Burlington, Mass: Business Wire . 30 de septiembre de 2011 . Consultado el 23 de agosto de 2018 .
- ^ Roberto Billi (editor), con los siguientes autores del CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella , Morena Danieli, Fulvio Faraci, Luciano Fissore , Roberto Gemello, Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, "Tecnologie vocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce " , Ed. Laboratorio de telecomunicaciones 1995. ISBN
- ^ "Archivo de hoja de datos: ELOQUENS" . Archivado desde el original el 27 de febrero de 2017 . Consultado el 27 de febrero de 2017 .
- ^ Billi, R .; Canavesio, F .; Ciaramella, A .; Nebbia, L. (1995). "Tecnología de voz interactiva en el trabajo: la experiencia CSELT". Comunicación de voz . 17 (3–4): 263–271. doi : 10.1016 / 0167-6393 (95) 00030-R .
- ^ Pirani, Giancarlo, ed. Arquitecturas y algoritmos avanzados para la comprensión del habla. Vol. 1. Springer Science & Business Media, 2013.
- ^ Proyectos familiares de SpeechDat (del nombre del progenitor)
- ^ Archivo de hoja de datos: FLEXUS
- ^ Cavazza, Michele y Alberto Ciaramella. "Dispositivo para la verificación del hablante". Patente de Estados Unidos Nº 4.752.958. 21 de junio de 1988 (la patente de TI se presentó en 1983, ver en Espacenet )
- ↑ (it) Corriere della Sera , Pagine web da ascoltare al telefono , 4 settembre 2000
- ↑ (it) il Giornale , Telecom, in attesa di Sparkle vende la «piccola» Loquendo , 11 luglio 2009
- ↑ (it) la Repubblica , Loquendo, il ministero convoca anche Bernabè , 2 de agosto de 2010
- ↑ (it) la Repubblica , Loquendo, seconda offerta. I dipendenti: "Dà più garanzie" , 6 de agosto de 2010
- ^ "¡Salviamo Loquendo!" . Archivado desde el original el 30 de marzo de 2012 . Consultado el 10 de agosto de 2011 .
- ^ "Un neo da estirpare", l'Informatica, cap. 1 En: Luciano Gallino , "La scomparsa dell'Italia industriale", Ed. Einaudi 2003 - ISBN 978-88-06-16628-1
- ^ Marina Cassi, La comunità della scienza difende Loquendo Archivado el 30 de marzo de 2012 en Wayback Machine , "La Stampa", 10 de agosto de 2011
- ^ Comunicado de prensa , Telecom Italia vende Loquendo a Nuance por un valor empresarial de 53 millones de euros , "Telecom Italia", 13 de agosto de 2011
- ↑ ( comunicado de prensa , Nuance to Acquire Loquendo Archivado el 21 de mayo de 2015 en Wayback Machine , "Nuance", 15 de agosto de 2011
- ↑ (it) Luca Davi, Telecom Italia cede Loquendo al gruppo Nuance , "Il Sole 24 ORE", 14 de agosto de 2011
Bibliografía
- (it) Luigi Bonavoglia, "CSELT trent'anni" , Ed. CSELT, 1994 [1]
- (it) Roberto Billi (curador), con los siguientes Autores del CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello, Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, "Tecnologie vocali per l'interazione uomo-macchina . Nuovi servizi a portata di voce " , Ed. Laboratorio de telecomunicaciones 1995, ISBN 88-85404-09-X , ISBN 978-88-85404-09-0
- (en) Pirani, Giancarlo, ed. Arquitecturas y algoritmos avanzados para la comprensión del habla. Vol. 1. Springer Science & Business Media, 2013. ISBN 978-3-540-53402-0
- (it) Quarant'anni d'innovazione , ed. Millennium srl, (suplemento al núm. 224 de Media Duemila, 2005)
- (es) torinowireless.it
- (es) smau.it
- (it) corriere.it
- (es) isticom.it
- (es) deputatids.it
- (es) h-care.eu
- (it) Forum PA 17-20 maggio 2010 - Cartella Stampa AVAYA
enlaces externos
- Sitio web de Loquendo
- Loquendo online