De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda

El reconocimiento de voz es un subcampo interdisciplinario de la informática y la lingüística computacional que desarrolla metodologías y tecnologías que permiten el reconocimiento y la traducción del lenguaje hablado a texto por computadoras. También se conoce como reconocimiento automático de voz ( ASR ), reconocimiento de voz por computadora o voz a texto ( STT ). Incorpora conocimientos e investigación en los campos de la informática , la lingüística y la ingeniería informática .

Algunos sistemas de reconocimiento de voz requieren "capacitación" (también llamada "inscripción") en la que un hablante individual lee texto o vocabulario aislado en el sistema. El sistema analiza la voz específica de la persona y la usa para ajustar el reconocimiento del habla de esa persona, lo que resulta en una mayor precisión. Los sistemas que no utilizan formación se denominan sistemas "independientes del hablante" [1] . Los sistemas que utilizan la formación se denominan "dependientes del hablante".

Las aplicaciones de reconocimiento de voz incluyen interfaces de usuario de voz , como marcación por voz (p. Ej., "Llamar a casa"), enrutamiento de llamadas (p. Ej., "Me gustaría hacer una llamada por cobrar"), control de aparatos domóticos , buscar palabras clave (p. Ej., Encontrar un podcast en el que haya palabras específicas fueron hablados), ingreso simple de datos (por ejemplo, ingresar un número de tarjeta de crédito), preparación de documentos estructurados (por ejemplo, un informe de radiología), determinación de las características del hablante, [2] procesamiento de voz a texto (por ejemplo, procesadores de texto o correos electrónicos ), y aviones (normalmente denominada entrada de voz directa ).

El término reconocimiento de voz [3] [4] [5] o identificación del hablante [6] [7] [8] se refiere a identificar al hablante, en lugar de lo que está diciendo. Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados en la voz de una persona específica o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad.

Desde la perspectiva de la tecnología, el reconocimiento de voz tiene una larga historia con varias oleadas de innovaciones importantes. Más recientemente, el campo se ha beneficiado de los avances en aprendizaje profundo y big data . Los avances se evidencian no solo por el aumento de artículos académicos publicados en el campo, sino más importante aún por la adopción de la industria mundial de una variedad de métodos de aprendizaje profundo en el diseño e implementación de sistemas de reconocimiento de voz.

Historia [ editar ]

Las áreas clave de crecimiento fueron: el tamaño del vocabulario, la independencia del hablante y la velocidad de procesamiento.

Antes de 1970 [ editar ]

  • 1952 - Tres investigadores de Bell Labs, Stephen Balashek, [9] R. Biddulph y KH Davis construyeron un sistema llamado "Audrey" [10] para el reconocimiento de dígitos de un solo hablante. Su sistema ubicó a los formantes en el espectro de potencia de cada enunciado. [11]
  • 1960 - Gunnar Fant desarrolló y publicó el modelo de filtro de fuente de producción de voz .
  • 1962 - IBM demostró la capacidad de reconocimiento de voz de su máquina "Shoebox" de 16 palabras en la Feria Mundial de 1962 . [12]
  • 1966 - La codificación predictiva lineal (LPC), un método de codificación de voz , fue propuesta por primera vez por Fumitada Itakura de la Universidad de Nagoya y Shuzo Saito de Nippon Telegraph and Telephone (NTT), mientras trabajaba en el reconocimiento de voz. [13]
  • 1969 - La financiación de Bell Labs se agotó durante varios años cuando, en 1969, el influyente John Pierce escribió una carta abierta que criticaba y desfinanciaba la investigación sobre reconocimiento de voz. [14] Este desfinanciamiento duró hasta que Pierce se retiró y James L. Flanagan se hizo cargo.

Raj Reddy fue la primera persona en asumir el reconocimiento de voz continuo como estudiante graduado en la Universidad de Stanford a fines de la década de 1960. Los sistemas anteriores requerían que los usuarios hicieran una pausa después de cada palabra. El sistema de Reddy emitió comandos hablados para jugar al ajedrez .

Por esta época, los investigadores soviéticos inventaron el algoritmo de distorsión del tiempo dinámico (DTW) y lo utilizaron para crear un reconocedor capaz de operar con un vocabulario de 200 palabras. [15] DTW procesó la voz dividiéndola en cuadros cortos, por ejemplo, segmentos de 10 ms, y procesando cada cuadro como una sola unidad. Aunque DTW sería reemplazado por algoritmos posteriores, la técnica continuó. Lograr la independencia de los oradores seguía sin resolverse en este período.

1970–1990 [ editar ]

  • 1971 - DARPA financió cinco años para Speech Understanding Research , investigación de reconocimiento de voz que busca un vocabulario mínimo de 1,000 palabras. Pensaron que la comprensión del habla sería clave para progresar en el reconocimiento de voz , pero esto más tarde resultó falso. [16] BBN , IBM , Carnegie Mellon y Stanford Research Institute participaron en el programa. [17] [18] Esta investigación revivió el reconocimiento de voz después de la carta de John Pierce.
  • 1972 - El grupo de procesamiento de señales, habla y acústica de IEEE celebró una conferencia en Newton, Massachusetts.
  • 1976 Se llevó a cabo el primer ICASSP en Filadelfia , que desde entonces ha sido un lugar importante para la publicación de investigaciones sobre reconocimiento de voz. [19]

A finales de la década de 1960, Leonard Baum desarrolló las matemáticas de las cadenas de Markov en el Instituto de Análisis de Defensa . Una década más tarde, en CMU, los estudiantes de Raj Reddy, James Baker y Janet M. Baker, comenzaron a utilizar el modelo oculto de Markov (HMM) para el reconocimiento de voz. [20] James Baker había aprendido sobre los HMM en un trabajo de verano en el Instituto de Análisis de Defensa durante su educación universitaria. [21] El uso de HMM permitió a los investigadores combinar diferentes fuentes de conocimiento, como acústica, lenguaje y sintaxis, en un modelo probabilístico unificado.

  • A mediados de la década de 1980 , el equipo de Fred Jelinek de IBM creó una máquina de escribir activada por voz llamada Tangora, que podía manejar un vocabulario de 20.000 palabras. [22] El enfoque estadístico de Jelinek puso menos énfasis en emular la forma en que el cerebro humano procesa y entiende el habla en favor del uso de estadísticas. técnicas de modelado como los HMM. (El grupo de Jelinek descubrió de forma independiente la aplicación de los HMM al habla. [21] ) Esto fue controvertido con los lingüistas ya que los HMM son demasiado simplistas para explicar muchas características comunes de los lenguajes humanos. [23] Sin embargo, el HMM demostró ser una forma muy útil para modelar el habla y reemplazó la deformación temporal dinámica para convertirse en el algoritmo de reconocimiento de voz dominante en la década de 1980.[24]
  • 1982 - Dragon Systems, fundada por James y Janet M. Baker , [25] fue uno de los pocos competidores de IBM.

Reconocimiento de voz práctico [ editar ]

La década de 1980 también vio la introducción del modelo de lenguaje n-gram .

  • 1987 - El modelo de retroceso permitió que los modelos de lenguaje usaran n-gramas de longitud múltiple, y CSELT usó HMM para reconocer idiomas (tanto en software como en procesadores especializados de hardware, por ejemplo, RIPAC ).

Gran parte del progreso en el campo se debe al rápido aumento de las capacidades de las computadoras. Al final del programa DARPA en 1976, la mejor computadora disponible para los investigadores era la PDP-10 con 4 MB de RAM. [23] Podría tomar hasta 100 minutos decodificar solo 30 segundos de habla. [26]

Dos productos prácticos fueron:

  • 1987 - un reconocedor de Kurzweil Applied Intelligence
  • 1990 - Dragon Dictate, un producto de consumo lanzado en 1990 [27] [28] AT&T implementó el servicio de procesamiento de llamadas de reconocimiento de voz en 1992 para enrutar llamadas telefónicas sin el uso de un operador humano. [29] La tecnología fue desarrollada por Lawrence Rabiner y otros en Bell Labs.

En este punto, el vocabulario del sistema de reconocimiento de voz comercial típico era más grande que el vocabulario humano promedio. [23] El ex alumno de Raj Reddy, Xuedong Huang , desarrolló el sistema Sphinx-II en CMU. El sistema Sphinx-II fue el primero en realizar reconocimiento de voz continuo, de vocabulario extenso e independiente del hablante, y tuvo el mejor desempeño en la evaluación de 1992 de DARPA. El manejo del habla continua con un vocabulario extenso fue un hito importante en la historia del reconocimiento de voz. Huang fundó el grupo de reconocimiento de voz en Microsoft en 1993. Kai-Fu Lee , estudiante de Raj Reddy, se unió a Apple, donde, en 1992, ayudó a desarrollar un prototipo de interfaz de voz para la computadora Apple conocida como Casper.

Lernout & Hauspie , una empresa de reconocimiento de voz con sede en Bélgica, adquirió varias otras empresas, incluidas Kurzweil Applied Intelligence en 1997 y Dragon Systems en 2000. La tecnología de voz L&H se utilizó en el sistema operativo Windows XP . L&H fue un líder de la industria hasta que un escándalo contable puso fin a la empresa en 2001. ScanSoft compró la tecnología de voz de L&H, que se convirtió en Nuance en 2005. Apple originalmente obtuvo la licencia del software de Nuance para proporcionar capacidad de reconocimiento de voz a su asistente digital Siri . [30]

2000 [ editar ]

En la década de 2000, DARPA patrocinó dos programas de reconocimiento de voz: Speech-to-Text eficaz, asequible y reutilizable (EARS) en 2002 y Global Autonomous Language Explitation (GALE). En el programa EARS participaron cuatro equipos: IBM , un equipo liderado por BBN con LIMSI y Univ. de Pittsburgh , Cambridge University , y un equipo compuesto por ICSI , SRI y University of Washington . EARS financió la recopilación del corpus de discursos telefónicos de la centralita que contiene 260 horas de conversaciones grabadas de más de 500 oradores. [31] El programa GALE se centró en árabe yDiscurso de noticias de transmisión en mandarín . El primer esfuerzo de Google en el reconocimiento de voz se produjo en 2007 después de contratar a algunos investigadores de Nuance. [32] El primer producto fue GOOG-411 , un servicio de directorio telefónico. Las grabaciones de GOOG-411 produjeron datos valiosos que ayudaron a Google a mejorar sus sistemas de reconocimiento. La búsqueda por voz de Google ahora es compatible con más de 30 idiomas.

En los Estados Unidos, la Agencia de Seguridad Nacional ha hecho uso de un tipo de reconocimiento de voz para la detección de palabras clave desde al menos 2006. [33] Esta tecnología permite a los analistas buscar en grandes volúmenes de conversaciones grabadas y aislar menciones de palabras clave. Las grabaciones se pueden indexar y los analistas pueden ejecutar consultas en la base de datos para encontrar conversaciones de interés. Algunos programas de investigación del gobierno se centraron en aplicaciones de inteligencia de reconocimiento de voz, programa para OREJAS ejemplo de DARPA y IARPA 's programa de Babel .

A principios de la década de 2000, el reconocimiento de voz todavía estaba dominado por enfoques tradicionales como los modelos ocultos de Markov combinados con redes neuronales artificiales de retroalimentación . [34] Hoy, sin embargo, muchos aspectos del reconocimiento de voz han sido asumidos por un método de aprendizaje profundo llamado Memoria a corto plazo largo (LSTM), una red neuronal recurrente publicada por Sepp Hochreiter & Jürgen Schmidhuber en 1997. [35] LSTM RNNs evitar el problema del gradiente que desaparece y puede aprender tareas de "aprendizaje muy profundo" [36]que requieren recuerdos de eventos que ocurrieron hace miles de pasos de tiempo discretos, lo cual es importante para el habla. Alrededor de 2007, LSTM entrenado por Connectionist Temporal Classification (CTC) [37] comenzó a superar el reconocimiento de voz tradicional en ciertas aplicaciones. [38] En 2015, el reconocimiento de voz de Google supuestamente experimentó un aumento dramático en el rendimiento del 49% a través de LSTM capacitado en CTC, que ahora está disponible a través de Google Voice para todos los usuarios de teléfonos inteligentes. [39]

Geoffrey Hinton y sus estudiantes de la Universidad de Toronto y Li Deng [40] y sus colegas de Microsoft Research introdujeron el uso de redes de alimentación profunda (no recurrentes) para el modelado acústico durante la última parte de 2009 , inicialmente en el trabajo colaborativo entre Microsoft y la Universidad de Toronto, que posteriormente se amplió para incluir a IBM y Google (de ahí el subtítulo "Las opiniones compartidas de cuatro grupos de investigación" en su artículo de revisión de 2012). [41] [42] [43] Un ejecutivo de investigación de Microsoft llamó a esta innovación "el cambio más dramático en precisión desde 1979". [44]En contraste con las constantes mejoras incrementales de las últimas décadas, la aplicación del aprendizaje profundo redujo la tasa de error de palabras en un 30%. [44] Esta innovación se adoptó rápidamente en todo el campo. Los investigadores también han comenzado a utilizar técnicas de aprendizaje profundo para el modelado del lenguaje.

En la larga historia del reconocimiento de voz, tanto la forma superficial como la forma profunda (por ejemplo, redes recurrentes) de las redes neuronales artificiales se habían explorado durante muchos años durante las décadas de 1980, 1990 y algunos años después de la década de 2000. [45] [46] [47] Pero estos métodos nunca se impusieron a la tecnología no uniforme del modelo de mezcla gaussiana de elaboración manual interna / modelo de Markov oculto (GMM-HMM) basada en modelos generativos del habla entrenados discriminativamente. [48] Una serie de dificultades clave habían sido analizadas metodológicamente en la década de 1990, incluida la disminución del gradiente [49] y la estructura de correlación temporal débil en los modelos predictivos neuronales. [50] [51]Todas estas dificultades se sumaron a la falta de grandes datos de entrenamiento y gran poder de cómputo en estos primeros días. La mayoría de los investigadores de reconocimiento de voz que entendieron tales barreras se alejaron posteriormente de las redes neuronales para buscar enfoques de modelado generativo hasta el reciente resurgimiento del aprendizaje profundo que comenzó alrededor de 2009-2010 y que había superado todas estas dificultades. Hinton y col. y Deng et al. revisó parte de esta historia reciente sobre cómo su colaboración entre ellos y luego con colegas de cuatro grupos (Universidad de Toronto, Microsoft, Google e IBM) encendió un renacimiento de aplicaciones de redes neuronales de alimentación profunda al reconocimiento de voz. [42] [43] [52] [53]

Década de 2010 [ editar ]

A principios de 2010s discurso de reconocimiento, también llamado reconocimiento de voz [54] [55] [56] se diferencia claramente de sp EAKER el reconocimiento y la independencia del altavoz se consideró un gran avance. Hasta entonces, los sistemas requerían un período de "formación". Un anuncio de 1987 para una muñeca tenía el lema "Finalmente, la muñeca que te entiende". - a pesar de que se describió como "qué niños podrían entrenar para responder a su voz". [12]

En 2017, los investigadores de Microsoft alcanzaron un hito histórico de paridad humana al transcribir el habla de telefonía conversacional en la tarea de Switchboard ampliamente comparada. Se utilizaron varios modelos de aprendizaje profundo para optimizar la precisión del reconocimiento de voz. Se informó que la tasa de error de palabras de reconocimiento de voz era tan baja como 4 transcriptores humanos profesionales trabajando juntos en el mismo punto de referencia, que fue financiado por el equipo de voz de IBM Watson en la misma tarea. [57]

Modelos, métodos y algoritmos [ editar ]

Tanto el modelado acústico y modelado de lenguaje son parte importante de modernos algoritmos de reconocimiento de voz basados en estadísticas. Los modelos ocultos de Markov (HMM) se utilizan ampliamente en muchos sistemas. El modelado del lenguaje también se utiliza en muchas otras aplicaciones de procesamiento del lenguaje natural, como la clasificación de documentos o la traducción automática estadística .

Modelos ocultos de Markov [ editar ]

Los sistemas modernos de reconocimiento de voz de uso general se basan en modelos ocultos de Markov. Estos son modelos estadísticos que generan una secuencia de símbolos o cantidades. Los HMM se utilizan en el reconocimiento de voz porque una señal de voz puede verse como una señal estacionaria por partes o una señal estacionaria de corta duración. En una escala de tiempo corta (por ejemplo, 10 milisegundos), el habla se puede aproximar como un proceso estacionario . Se puede pensar en el habla como un modelo de Markov para muchos propósitos estocásticos.

Otra razón por la que los HMM son populares es porque se pueden entrenar automáticamente y son simples y factibles de usar computacionalmente. En reconocimiento de voz, el modelo de Markov oculto haría salida una secuencia de n vectores de valores reales-dimensionales (con n siendo un entero pequeño, tal como 10), la salida de uno de estos cada 10 milisegundos. Los vectores consistirían en coeficientes cepstrales , que se obtienen tomando una transformada de Fourier de una ventana de tiempo corta del habla y descorrelacionando el espectro usando una transformada de coseno., luego tomando los primeros coeficientes (más significativos). El modelo de Markov oculto tenderá a tener en cada estado una distribución estadística que es una mezcla de gaussianas de covarianza diagonal, lo que dará una probabilidad para cada vector observado. Cada palabra, o (para sistemas de reconocimiento de voz más generales), cada fonema , tendrá una distribución de salida diferente; un modelo de Markov oculto para una secuencia de palabras o fonemas se hace concatenando los modelos de Markov ocultos entrenados individualmente para las palabras y fonemas separados.

Se describen anteriormente los elementos centrales del enfoque más común basado en HMM para el reconocimiento de voz. Los sistemas de reconocimiento de voz modernos utilizan varias combinaciones de varias técnicas estándar para mejorar los resultados con respecto al enfoque básico descrito anteriormente. Un sistema típico de vocabulario extenso necesitaría una dependencia del contexto para los fonemas (por lo que los fonemas con diferentes contextos izquierdo y derecho tienen diferentes realizaciones como estados HMM); utilizaría la normalización cepstral para normalizar las diferentes condiciones de grabación y de altavoz; para una mayor normalización del hablante, podría usar la normalización de la longitud del tracto vocal (VTLN) para la normalización hombre-mujer y la regresión lineal de máxima probabilidad(MLLR) para una adaptación más general del altavoz. Las características tendrían los denominados coeficientes delta y delta-delta para capturar la dinámica del habla y, además, podrían usar análisis discriminante lineal heterocedástico (HLDA); o podría omitir los coeficientes delta y delta-delta y usar empalme y una proyección basada en LDA seguida quizás por un análisis discriminante lineal heterocedástico o una transformada de covarianza global semi-ligada (también conocida como transformada lineal de máxima verosimilitudo MLLT). Muchos sistemas utilizan las llamadas técnicas de entrenamiento discriminativas que prescinden de un enfoque puramente estadístico para la estimación de parámetros de HMM y, en cambio, optimizan alguna medida relacionada con la clasificación de los datos de entrenamiento. Algunos ejemplos son la información mutua máxima (MMI), el error de clasificación mínimo (MCE) y el error telefónico mínimo (MPE).

La decodificación del discurso (el término para lo que sucede cuando el sistema se presenta con una nueva expresión y debe calcular la oración fuente más probable) probablemente usaría el algoritmo de Viterbi para encontrar la mejor ruta, y aquí hay una opción entre crear dinámicamente una combinación del modelo de Markov oculto, que incluye la información del modelo acústico y de lenguaje, y combinándola estáticamente de antemano (el enfoque del transductor de estado finito , o FST).

Una posible mejora de la decodificación es mantener un conjunto de buenos candidatos en lugar de simplemente mantener al mejor candidato, y utilizar una función de mejor puntuación ( re puntuación ) para calificar a estos buenos candidatos para que podamos elegir el mejor de acuerdo con esta puntuación refinada. . El conjunto de candidatos se puede mantener como una lista (el enfoque de lista de las N mejores ) o como un subconjunto de los modelos (una red ). La reclasificación se suele realizar tratando de minimizar el riesgo de Bayes [58].(o una aproximación de la misma): en lugar de tomar la oración fuente con máxima probabilidad, tratamos de tomar la oración que minimiza la expectativa de una función de pérdida dada con respecto a todas las transcripciones posibles (es decir, tomamos la oración que minimiza la distancia promedio a otras posibles oraciones ponderadas por su probabilidad estimada). La función de pérdida suele ser la distancia de Levenshtein , aunque puede ser distancias diferentes para tareas específicas; el conjunto de posibles transcripciones se poda, por supuesto, para mantener la manejabilidad. Se han ideado algoritmos eficientes para volver a puntuar las celosías representadas como transductores de estado finito ponderados con distancias de edición representadas a sí mismas como unTransductor de estado finito que verifica ciertos supuestos. [59]

Reconocimiento de voz basado en distorsión de tiempo dinámico (DTW) [ editar ]

La deformación dinámica del tiempo es un enfoque que se utilizó históricamente para el reconocimiento de voz, pero que ahora ha sido desplazado en gran medida por el enfoque basado en HMM más exitoso.

La deformación de tiempo dinámica es un algoritmo para medir la similitud entre dos secuencias que pueden variar en el tiempo o la velocidad. Por ejemplo, se detectarían similitudes en los patrones de caminar, incluso si en un video la persona caminaba lentamente y si en otro caminaba más rápido, o incluso si hubiera aceleraciones y desaceleraciones durante el curso de una observación. DTW se ha aplicado a vídeo, audio y gráficos; de hecho, cualquier dato que se pueda convertir en una representación lineal se puede analizar con DTW.

Una aplicación muy conocida ha sido el reconocimiento automático de voz, para hacer frente a diferentes velocidades de habla. En general, es un método que permite a una computadora encontrar una coincidencia óptima entre dos secuencias dadas (por ejemplo, series de tiempo) con ciertas restricciones. Es decir, las secuencias se "deforman" de forma no lineal para coincidir entre sí. Este método de alineación de secuencias se utiliza a menudo en el contexto de modelos de Markov ocultos.

Redes neuronales [ editar ]

Las redes neuronales surgieron como un enfoque atractivo de modelado acústico en ASR a fines de la década de 1980. Desde entonces, las redes neuronales se han utilizado en muchos aspectos del reconocimiento de voz, como la clasificación de fonemas, [60] clasificación de fonemas a través de algoritmos evolutivos multiobjetivos, [61] reconocimiento de palabras aisladas, [62] reconocimiento de voz audiovisual, reconocimiento de hablante audiovisual y hablante adaptación.

Las redes neuronales hacen menos suposiciones explícitas sobre las propiedades estadísticas de características que los HMM y tienen varias cualidades que las convierten en modelos de reconocimiento atractivos para el reconocimiento de voz. Cuando se utilizan para estimar las probabilidades de un segmento de características del habla, las redes neuronales permiten el entrenamiento discriminativo de una manera natural y eficiente. Sin embargo, a pesar de su eficacia para clasificar unidades de tiempo corto como fonemas individuales y palabras aisladas, [63] las redes neuronales tempranas rara vez tenían éxito en tareas de reconocimiento continuo debido a su capacidad limitada para modelar dependencias temporales.

Un enfoque para esta limitación fue el uso de redes neuronales como un preprocesamiento, transformación de características o reducción de dimensionalidad, [64] paso antes del reconocimiento basado en HMM. Sin embargo, más recientemente, LSTM y las redes neuronales recurrentes (RNN) relacionadas [35] [39] [65] [66] y las redes neuronales con retardo de tiempo (TDNN) [67] han demostrado un rendimiento mejorado en esta área.

Redes neuronales recurrentes y de retroalimentación profunda [ editar ]

También se están investigando las redes neuronales profundas y los codificadores automáticos de reducción de ruido [68] . Una red neuronal de retroalimentación profunda (DNN) es una red neuronal artificial con múltiples capas ocultas de unidades entre las capas de entrada y salida. [42] De manera similar a las redes neuronales superficiales, las DNN pueden modelar relaciones complejas no lineales. Las arquitecturas DNN generan modelos de composición, donde las capas adicionales permiten la composición de características de capas inferiores, lo que brinda una gran capacidad de aprendizaje y, por lo tanto, el potencial de modelar patrones complejos de datos de voz. [69]

Un éxito de las DNN en el reconocimiento de voz de vocabulario extenso ocurrió en 2010 por investigadores industriales, en colaboración con investigadores académicos, donde se adoptaron grandes capas de salida de la DNN basadas en estados HMM dependientes del contexto construidos por árboles de decisión. [70] [71] [72] Consulte revisiones completas de este desarrollo y del estado del arte a octubre de 2014 en el reciente libro Springer de Microsoft Research. [73] Consulte también los antecedentes relacionados con el reconocimiento automático de voz y el impacto de varios paradigmas de aprendizaje automático, en particular, incluido el aprendizaje profundo , en artículos generales recientes. [74] [75]

Un principio fundamental del aprendizaje profundo es eliminar la ingeniería de funciones hecha a mano y utilizar funciones sin procesar. Este principio fue explorado con éxito por primera vez en la arquitectura del autoencoder profundo en el espectrograma "crudo" o características de banco de filtros lineales, [76] mostrando su superioridad sobre las características Mel-Cepstral que contienen algunas etapas de transformación fija de espectrogramas. Se ha demostrado más recientemente que las verdaderas características "crudas" del habla, las formas de onda, producen excelentes resultados de reconocimiento de voz a mayor escala. [77]

Reconocimiento de voz automático de extremo a extremo [ editar ]

Desde 2014, ha habido mucho interés en la investigación en ASR "de un extremo a otro". Los enfoques tradicionales basados ​​en la fonética (es decir, todos los modelos basados ​​en HMM ) requerían componentes separados y capacitación para el modelo de pronunciación, acústica y de lenguaje . Los modelos de extremo a extremo aprenden conjuntamente todos los componentes del reconocedor de voz. Esto es valioso porque simplifica el proceso de capacitación y el proceso de implementación. Por ejemplo, se requiere un modelo de lenguaje n-gram para todos los sistemas basados ​​en HMM, y un modelo típico de lenguaje n-gram a menudo requiere varios gigabytes de memoria, lo que hace que su implementación en dispositivos móviles no sea práctica. [78] En consecuencia, los sistemas ASR comerciales modernos de Google y Apple (a partir de 2017) se implementan en la nube y requieren una conexión de red en lugar del dispositivo local.

El primer intento de ASR de extremo a extremo fue con sistemas basados ​​en la clasificación temporal conexionista (CTC) introducidos por Alex Graves de Google DeepMind y Navdeep Jaitly de la Universidad de Toronto en 2014. [79] El modelo consistía en redes neuronales recurrentes y una capa de CTC. En conjunto, el modelo RNN-CTC aprende la pronunciación y el modelo acústico juntos, sin embargo, es incapaz de aprender el idioma debido a la independencia condicional.supuestos similares a un HMM. En consecuencia, los modelos CTC pueden aprender directamente a asignar la acústica del habla a los caracteres en inglés, pero los modelos cometen muchos errores ortográficos comunes y deben depender de un modelo de idioma separado para limpiar las transcripciones. Más tarde, Baidu amplió el trabajo con conjuntos de datos extremadamente grandes y demostró cierto éxito comercial en chino mandarín e inglés. [80] En 2016, la Universidad de Oxford presentó LipNet , [81] el primer modelo de lectura de labios de extremo a extremo a nivel de oraciones, que utiliza convoluciones espacio-temporales junto con una arquitectura RNN-CTC, superando el rendimiento a nivel humano en un conjunto de datos gramaticales restringidos. [82]Google DeepMind presentó en 2018 una arquitectura CNN-RNN-CTC a gran escala que logró un rendimiento 6 veces mejor que los expertos humanos. [83]

Un enfoque alternativo a los modelos basados ​​en CTC son los modelos basados ​​en la atención. Los modelos ASR basados ​​en la atención fueron introducidos simultáneamente por Chan et al. de la Universidad Carnegie Mellon y Google Brain y Bahdanau et al. de la Universidad de Montreal en 2016. [84] [85]El modelo llamado "Escuchar, asistir y deletrear" (LAS), literalmente "escucha" la señal acústica, presta "atención" a diferentes partes de la señal y "deletrea" la transcripción un carácter a la vez. A diferencia de los modelos basados ​​en CTC, los modelos basados ​​en la atención no tienen supuestos de independencia condicional y pueden aprender todos los componentes de un reconocedor de voz, incluido el modelo de pronunciación, acústico y de lenguaje directamente. Esto significa que, durante la implementación, no es necesario llevar un modelo de lenguaje, lo que lo hace muy práctico para aplicaciones con memoria limitada. A finales de 2016, los modelos basados ​​en la atención han tenido un éxito considerable, incluso superando a los modelos CTC (con o sin un modelo de lenguaje externo). [86]Se han propuesto varias extensiones desde el modelo LAS original. Las descomposiciones de secuencias latentes (LSD) fueron propuestas por la Universidad Carnegie Mellon , el MIT y Google Brain para emitir directamente unidades de subpalabras que son más naturales que los caracteres en inglés; [87] La Universidad de Oxford y Google DeepMind extendieron LAS a "Watch, Listen, Attend and Spell" (WLAS) para manejar la lectura de labios superando el rendimiento del nivel humano. [88]

Aplicaciones [ editar ]

Sistemas en el automóvil [ editar ]

Normalmente, una entrada de control manual, por ejemplo por medio de un control de dedo en el volante, habilita el sistema de reconocimiento de voz y esto se indica al conductor mediante un mensaje de audio. Siguiendo el mensaje de audio, el sistema tiene una "ventana de escucha" durante la cual puede aceptar una entrada de voz para reconocimiento. [ cita requerida ]

Se pueden usar comandos de voz simples para iniciar llamadas telefónicas, seleccionar estaciones de radio o reproducir música desde un teléfono inteligente compatible, reproductor MP3 o unidad flash cargada con música. Las capacidades de reconocimiento de voz varían según la marca y el modelo de automóvil. Algunos de los más recientes [ ¿cuándo? ] Los modelos de automóviles ofrecen reconocimiento de voz en lenguaje natural en lugar de un conjunto fijo de comandos, lo que permite al conductor utilizar oraciones completas y frases comunes. Con tales sistemas, por lo tanto, no hay necesidad de que el usuario memorice un conjunto de palabras de comando fijas. [ cita requerida ]

Cuidado de la salud [ editar ]

Documentación médica [ editar ]

En el sector de la salud , el reconocimiento de voz se puede implementar en el front-end o back-end del proceso de documentación médica. El reconocimiento de voz de front-end es donde el proveedor dicta en un motor de reconocimiento de voz, las palabras reconocidas se muestran a medida que se pronuncian y el dictador es responsable de editar y firmar el documento. El reconocimiento de voz de fondo o diferido es donde el proveedor dicta en un sistema de dictado digital , la voz se enruta a través de una máquina de reconocimiento de voz y el documento borrador reconocido se envía junto con el archivo de voz original al editor, donde se edita el borrador. e informe finalizado. Actualmente, el reconocimiento de voz diferido se usa ampliamente en la industria.

Uno de los principales problemas relacionados con el uso del reconocimiento de voz en el cuidado de la salud es que la Ley Estadounidense de Recuperación y Reinversión de 2009 ( ARRA ) proporciona beneficios económicos sustanciales a los médicos que utilizan un EMR de acuerdo con los estándares de "Uso Significativo". Estos estándares requieren que el EMR mantenga una cantidad sustancial de datos (ahora más comúnmente conocido como Registro de Salud Electrónico o EHR). El uso del reconocimiento de voz se adapta más naturalmente a la generación de texto narrativo, como parte de una interpretación de radiología / patología, nota de progreso o resumen de alta: las ventajas ergonómicas de usar el reconocimiento de voz para ingresar datos discretos estructurados (p. Ej., Valores numéricos o códigos de una lista o un vocabulario controlado) son relativamente mínimos para las personas videntes que pueden utilizar un teclado y un ratón.

Un problema más importante es que la mayoría de los HCE no se han adaptado expresamente para aprovechar las capacidades de reconocimiento de voz. Una gran parte de la interacción del médico con el EHR implica la navegación a través de la interfaz de usuario mediante menús y clics en las pestañas / botones, y depende en gran medida del teclado y el mouse: la navegación basada en voz proporciona solo beneficios ergonómicos modestos. Por el contrario, muchos sistemas altamente personalizados para el dictado de radiología o patología implementan "macros" de voz, donde el uso de ciertas frases, por ejemplo, "informe normal", completará automáticamente una gran cantidad de valores predeterminados y / o generará un texto estándar, que varían según el tipo de examen, por ejemplo, una radiografía de tórax frente a una serie de contraste gastrointestinal para un sistema de radiología.

Uso terapéutico [ editar ]

El uso prolongado de software de reconocimiento de voz junto con procesadores de texto ha demostrado beneficios para el fortalecimiento de la memoria a corto plazo en pacientes con MAV cerebral que han sido tratados con resección . Es necesario realizar más investigaciones para determinar los beneficios cognitivos para las personas cuyas MAV han sido tratadas mediante técnicas radiológicas. [ cita requerida ]

Militar [ editar ]

Aviones de combate de alto rendimiento [ editar ]

En la última década se han dedicado importantes esfuerzos a la prueba y evaluación del reconocimiento de voz en aviones de combate . De particular interés han sido el programa de Estados Unidos en el reconocimiento de voz para el combate de Integración de Tecnología Avanzada (AFTI) / F-16 aviones ( F-16 VISTA ), el programa en Francia por Mirage aviones, y otros programas en el Reino Unido se trata de una variedad de plataformas de aviones. En estos programas, los reconocedores de voz se han operado con éxito en aviones de combate, con aplicaciones que incluyen: configuración de frecuencias de radio, comando de un sistema de piloto automático, configuración de coordenadas de punto de dirección y parámetros de lanzamiento de armas y control de la visualización de vuelo.

Trabajando con pilotos suecos que volaban en la cabina del JAS-39 Gripen, Englund (2004) encontró que el reconocimiento se deterioraba con el aumento de las cargas g . El informe también concluyó que la adaptación mejoró en gran medida los resultados en todos los casos y que se demostró que la introducción de modelos para respirar mejora significativamente las puntuaciones de reconocimiento. Al contrario de lo que podría haberse esperado, no se encontraron efectos del inglés deficiente de los hablantes. Era evidente que el habla espontánea causaba problemas al reconocedor, como era de esperar. Por tanto, se podría esperar que un vocabulario restringido y, sobre todo, una sintaxis adecuada, mejoraran sustancialmente la precisión del reconocimiento. [89]

El Eurofighter Typhoon , actualmente en servicio con la RAF del Reino Unido , emplea un sistema dependiente del altavoz, que requiere que cada piloto cree una plantilla. El sistema no se utiliza para tareas críticas para la seguridad o para las armas, como el lanzamiento de armas o el descenso del tren de aterrizaje, pero se utiliza para una amplia gama de otras funciones de la cabina. Los comandos de voz se confirman mediante retroalimentación visual y / o auditiva. El sistema se considera una característica de diseño importante en la reducción de la carga de trabajo del piloto , [90] e incluso permite al piloto asignar objetivos a su avión con dos simples comandos de voz oa cualquiera de sus pilotos con solo cinco comandos. [91]

También se están desarrollando sistemas independientes de los altavoces y se están probando para el F35 Lightning II (JSF) y el entrenador de combate líder Alenia Aermacchi M-346 Master . Estos sistemas han producido puntuaciones de precisión de palabras superiores al 98%. [92]

Helicópteros [ editar ]

Los problemas de lograr una alta precisión de reconocimiento bajo estrés y ruido pertenecen en gran medida al entorno de los helicópteros , así como al entorno de los aviones de combate. El problema del ruido acústico es en realidad más severo en el entorno del helicóptero, no solo por los altos niveles de ruido sino también porque el piloto del helicóptero, en general, no usa una máscara , lo que reduciría el ruido acústico en el micrófono . En la última década se han llevado a cabo importantes programas de prueba y evaluación en aplicaciones de sistemas de reconocimiento de voz en helicópteros, en particular por la Actividad de Investigación y Desarrollo de Aviónica del Ejército de los EE. UU. (AVRADA) y por el Royal Aerospace Establishment ( RAE).) en el Reino Unido. El trabajo en Francia ha incluido el reconocimiento de voz en el helicóptero Puma . También ha habido un trabajo muy útil en Canadá . Los resultados han sido alentadores y las aplicaciones de voz han incluido: control de radios de comunicación, configuración de sistemas de navegación y control de un sistema automatizado de traspaso de objetivos.

Al igual que en las aplicaciones de combate, el problema primordial de la voz en los helicópteros es el impacto en la efectividad del piloto. Se informan resultados alentadores para las pruebas AVRADA, aunque estos representan solo una demostración de viabilidad en un entorno de prueba. Queda mucho por hacer tanto en el reconocimiento de voz como en la tecnología de voz en general para lograr mejoras de rendimiento consistentes en los entornos operativos.

Formación de controladores de tránsito aéreo [ editar ]

La formación para controladores de tránsito aéreo (ATC) representa una excelente aplicación para los sistemas de reconocimiento de voz. Muchos sistemas de entrenamiento ATC requieren actualmente que una persona actúe como un "pseudo piloto", participando en un diálogo de voz con el controlador en formación, que simula el diálogo que el controlador tendría que realizar con los pilotos en una situación ATC real. Reconocimiento y síntesis de vozLas técnicas ofrecen el potencial de eliminar la necesidad de que una persona actúe como pseudo-piloto, reduciendo así la capacitación y el personal de apoyo. En teoría, las tareas del controlador de aire también se caracterizan por un habla muy estructurada como salida principal del controlador, por lo que debería ser posible reducir la dificultad de la tarea de reconocimiento de voz. En la práctica, esto rara vez es el caso. El documento FAA 7110.65 detalla las frases que deben utilizar los controladores de tránsito aéreo. Si bien este documento ofrece menos de 150 ejemplos de dichas frases, la cantidad de frases admitidas por uno de los sistemas de reconocimiento de voz de los proveedores de simulación supera las 500.000.

La USAF, USMC, el Ejército de los EE. UU., La Marina de los EE. UU. Y la FAA, así como una serie de organizaciones internacionales de capacitación de ATC, como la Real Fuerza Aérea Australiana y las Autoridades de Aviación Civil en Italia, Brasil y Canadá, están utilizando actualmente simuladores de ATC con reconocimiento de voz de varios proveedores diferentes. [ cita requerida ]

Telefonía y otros dominios [ editar ]

ASR es ahora un lugar común en el campo de la telefonía y se está generalizando en el campo de los juegos de computadora y la simulación. En los sistemas de telefonía, ASR ahora se usa predominantemente en los centros de contacto al integrarlo con los sistemas IVR . A pesar del alto nivel de integración con el procesamiento de textos en la informática personal en general, en el campo de la producción de documentos, ASR no ha experimentado los aumentos esperados en el uso.

La mejora de las velocidades de los procesadores móviles ha hecho que el reconocimiento de voz sea práctico en los teléfonos inteligentes . La voz se utiliza principalmente como parte de una interfaz de usuario, para crear comandos de voz predefinidos o personalizados.

Uso en la educación y la vida diaria [ editar ]

Para el aprendizaje de idiomas , el reconocimiento de voz puede resultar útil para aprender un segundo idioma . Puede enseñar la pronunciación adecuada, además de ayudar a una persona a desarrollar fluidez con sus habilidades para hablar. [93]

Los estudiantes que son ciegos (ver Ceguera y educación ) o que tienen muy baja visión pueden beneficiarse del uso de la tecnología para transmitir palabras y luego escuchar a la computadora recitarlas, así como usar una computadora ordenando con su voz, en lugar de tener que mirar la pantalla y el teclado. [94]

Los estudiantes que están físicamente discapacitados o sufren de lesiones por esfuerzo repetitivo u otras lesiones en las extremidades superiores pueden aliviarse de tener que preocuparse por escribir a mano, mecanografiar o trabajar con un escriba en las tareas escolares mediante el uso de programas de voz a texto. También pueden utilizar la tecnología de reconocimiento de voz para disfrutar libremente buscando en Internet o usando una computadora en casa sin tener que operar físicamente un mouse y un teclado. [94]

El reconocimiento de voz puede permitir que los estudiantes con discapacidades de aprendizaje se conviertan en mejores escritores. Al decir las palabras en voz alta, pueden aumentar la fluidez de su escritura y aliviar sus preocupaciones con respecto a la ortografía, la puntuación y otras mecánicas de la escritura. [95] Además, consulte Discapacidad de aprendizaje .

El uso de software de reconocimiento de voz, junto con una grabadora de audio digital y una computadora personal que ejecuta un software de procesamiento de texto, ha demostrado ser positivo para restaurar la capacidad de memoria a corto plazo dañada, en personas con accidente cerebrovascular y craneotomía.

Personas con discapacidad [ editar ]

Las personas con discapacidad pueden beneficiarse de los programas de reconocimiento de voz. Para las personas sordas o con problemas de audición, el software de reconocimiento de voz se utiliza para generar automáticamente subtítulos de conversaciones, como discusiones en salas de conferencias, conferencias en el aula y / o servicios religiosos. [96]

El reconocimiento de voz también es muy útil para las personas que tienen dificultades para usar las manos, desde lesiones leves por estrés repetitivo hasta discapacidades que impiden el uso de dispositivos de entrada de computadora convencionales. De hecho, las personas que usaban mucho el teclado y desarrollaron RSI se convirtieron en un mercado temprano urgente para el reconocimiento de voz. [97] [98] El reconocimiento de voz se utiliza en telefonía para sordos , como correo de voz a texto, servicios de retransmisión y teléfono con subtítulos.. Las personas con discapacidades de aprendizaje que tienen problemas con la comunicación entre el pensamiento y el papel (esencialmente piensan en una idea pero se procesa incorrectamente, lo que hace que termine de manera diferente en el papel) posiblemente se beneficien del software, pero la tecnología no es a prueba de errores. [99] Además, la idea de hablar con texto puede ser difícil para las personas con discapacidad intelectual debido al hecho de que es raro que alguien intente aprender la tecnología para enseñarle a la persona con discapacidad. [100]

Este tipo de tecnología puede ayudar a las personas con dislexia, pero aún se cuestionan otras discapacidades. La efectividad del producto es el problema que dificulta su efectividad. Aunque un niño puede decir una palabra dependiendo de qué tan claro lo diga, la tecnología puede pensar que está diciendo otra palabra e ingresar la incorrecta. Dándoles más trabajo para corregir, lo que hace que tengan que tomarse más tiempo para corregir la palabra incorrecta. [101]

Otras aplicaciones [ editar ]

  • Aeroespacial (por ejemplo , exploración espacial , naves espaciales , etc.) El Mars Polar Lander de la NASA utilizó tecnología de reconocimiento de voz de Sensory, Inc. en el Mars Microphone en el Lander [102]
  • Subtitulado automático con reconocimiento de voz
  • Reconocimiento automático de emociones [103]
  • Traducción automática
  • Informes judiciales (redacción de discursos en tiempo real)
  • eDiscovery (descubrimiento legal)
  • Computación manos libres : interfaz de usuario de computadora de reconocimiento de voz
  • Automatización del hogar
  • Respuesta de Voz Interactiva
  • Telefonía móvil , incluido el correo electrónico móvil
  • Interacción multimodal [53]
  • Evaluación de la pronunciación en aplicaciones de aprendizaje de idiomas asistidas por computadora
  • Subtítulos en tiempo real [ cita requerida ]
  • Robótica
  • Seguridad, incluido el uso con otros escáneres biométricos para la autenticación multifactor [104]
  • Voz a texto (transcripción de voz a texto, subtítulos de video en tiempo real , informes judiciales)
  • Telemática (por ejemplo, sistemas de navegación de vehículos)
  • Transcripción (conversión de voz a texto digital)
  • Videojuegos , con Tom Clancy's EndWar y Lifeline como ejemplos prácticos
  • Asistente virtual (por ejemplo , Siri de Apple )

Rendimiento [ editar ]

El rendimiento de los sistemas de reconocimiento de voz generalmente se evalúa en términos de precisión y velocidad. [105] [106] La precisión generalmente se califica con la tasa de error de palabra (WER), mientras que la velocidad se mide con el factor de tiempo real . Otras medidas de precisión incluyen la tasa de error de palabra única (SWER) y la tasa de éxito de comando (CSR).

Sin embargo, el reconocimiento de voz por máquina es un problema muy complejo. Las vocalizaciones varían en términos de acento, pronunciación, articulación, aspereza, nasalidad, tono, volumen y velocidad. El habla está distorsionada por un ruido de fondo y ecos, características eléctricas. La precisión del reconocimiento de voz puede variar con lo siguiente: [107] [ cita requerida ]

  • Tamaño y confusión del vocabulario
  • Dependencia del hablante versus independencia
  • Habla aislada, discontinua o continua
  • Restricciones de tareas y lenguaje
  • Leer versus hablar espontáneo
  • Condiciones adversas

Precisión [ editar ]

Como se mencionó anteriormente en este artículo, la precisión del reconocimiento de voz puede variar según los siguientes factores:

  • Las tasas de error aumentan a medida que aumenta el tamaño del vocabulario:
por ejemplo, los 10 dígitos del "cero" al "nueve" pueden reconocerse esencialmente perfectamente, pero los tamaños de vocabulario de 200, 5000 o 100000 pueden tener tasas de error del 3%, 7% o 45% respectivamente.
  • El vocabulario es difícil de reconocer si contiene palabras confusas:
por ejemplo, las 26 letras del alfabeto inglés son difíciles de discriminar porque son palabras confusas (más notoriamente, el conjunto E: "B, C, D, E, G, P, T, V, Z"); una tasa de error del 8% se considera buena para este vocabulario. [ cita requerida ]
  • Dependencia del hablante frente a independencia:
Un sistema dependiente del altavoz está diseñado para que lo utilice un solo altavoz.
Un sistema independiente del altavoz está diseñado para ser utilizado por cualquier altavoz (más difícil).
  • Habla aislada, discontinua o continua
Con el habla aislada, se utilizan palabras sueltas, por lo que es más fácil reconocer el habla.

Con el habla discontinua se utilizan oraciones completas separadas por silencio, por lo que se hace más fácil reconocer el habla así como con el habla aislada.
Con el habla continua se utilizan oraciones habladas de forma natural, por lo que se hace más difícil reconocer el habla, a diferencia del habla aislada y discontinua.

  • Restricciones de tareas y lenguaje
    • Por ejemplo, la aplicación de consultas puede descartar la hipótesis "La manzana es roja".
    • por ejemplo, las restricciones pueden ser semánticas; rechazando "La manzana está enojada".
    • p. ej. sintáctico; rechazando "Red is apple the".

Las restricciones a menudo se representan mediante una gramática.

  • Lectura versus habla espontánea: cuando una persona lee suele ser en un contexto que se ha preparado previamente, pero cuando una persona utiliza el habla espontánea, es difícil reconocer el habla debido a las disfluencias (como "uh" y "um", comienzos en falso, oraciones incompletas, tartamudeo, tos y risa) y vocabulario limitado.
  • Condiciones adversas: ruido ambiental (por ejemplo, ruido en un automóvil o en una fábrica). Distorsiones acústicas (por ejemplo, ecos, acústica de la sala)

El reconocimiento de voz es una tarea de reconocimiento de patrones de varios niveles.

  • Las señales acústicas se estructuran en una jerarquía de unidades, por ejemplo , fonemas , palabras, frases y oraciones;
  • Cada nivel proporciona limitaciones adicionales;

por ejemplo, pronunciaciones de palabras conocidas o secuencias de palabras legales, que pueden compensar errores o incertidumbres en un nivel inferior;

  • Se explota esta jerarquía de limitaciones. Al combinar decisiones probabilísticamente en todos los niveles inferiores y tomar decisiones más deterministas solo en el nivel más alto, el reconocimiento de voz por una máquina es un proceso dividido en varias fases. Computacionalmente, es un problema en el que un patrón de sonido tiene que ser reconocido o clasificado en una categoría que representa un significado para un ser humano. Cada señal acústica se puede dividir en sub-señales más básicas más pequeñas. A medida que la señal de sonido más compleja se divide en sub-sonidos más pequeños, se crean diferentes niveles, donde en el nivel superior tenemos sonidos complejos, que están hechos de sonidos más simples en el nivel inferior, y yendo a niveles inferiores aún más, creamos Sonidos más básicos, cortos y sencillos. El nivel más bajo, donde los sonidos son los más fundamentales,una máquina verificaría reglas simples y más probabilísticas de lo que debería representar el sonido. Una vez que estos sonidos se combinan en un sonido más complejo en el nivel superior, un nuevo conjunto de reglas más deterministas debería predecir qué debería representar el nuevo sonido complejo. El nivel más alto de una regla determinista debería descubrir el significado de expresiones complejas. Para ampliar nuestro conocimiento sobre el reconocimiento de voz, debemos tener en cuenta las redes neuronales. Hay cuatro pasos de los enfoques de redes neuronales:Para ampliar nuestro conocimiento sobre el reconocimiento de voz, debemos tener en cuenta las redes neuronales. Hay cuatro pasos de los enfoques de redes neuronales:Para ampliar nuestro conocimiento sobre el reconocimiento de voz, debemos tener en cuenta las redes neuronales. Hay cuatro pasos de los enfoques de redes neuronales:
  • Digitalizar el discurso que queremos reconocer

Para el habla telefónica, la frecuencia de muestreo es de 8000 muestras por segundo;

  • Calcular características del dominio espectral del habla (con transformada de Fourier);

calculado cada 10 ms, con una sección de 10 ms llamada trama;

El análisis de los enfoques de redes neuronales de cuatro pasos se puede explicar con más información. El sonido es producido por la vibración del aire (o algún otro medio), que registramos por los oídos, pero las máquinas por los receptores. El sonido básico crea una onda que tiene dos descripciones: amplitud (qué tan fuerte es) y frecuencia (con qué frecuencia vibra por segundo). La precisión se puede calcular con la ayuda de la tasa de error de palabra (WER). La tasa de error de palabra se puede calcular alineando la palabra reconocida y la palabra referenciada mediante la alineación dinámica de cadenas. El problema puede ocurrir al calcular la tasa de error de palabra debido a la diferencia entre las longitudes de secuencia de la palabra reconocida y la palabra referenciada. Dejar

 S el número de sustituciones, D sea el número de eliminaciones, Yo seré el número de inserciones, N es el número de referencias de palabras.

La fórmula para calcular la tasa de error de palabras (WER) es

 WER = (S + D + I) ÷ N

Mientras se calcula la tasa de reconocimiento de palabras (WRR), se usa la tasa de error de palabras (WER) y la fórmula es

 WRR = 1- WER = (NSDI) ÷ N = (HI) ÷ N

Aquí H es el número de palabras reconocidas correctamente. H = N- (S + D).

Problemas de seguridad [ editar ]

El reconocimiento de voz puede convertirse en un medio de ataque, robo u operación accidental. Por ejemplo, las palabras de activación como "Alexa" pronunciadas en una transmisión de audio o video pueden hacer que los dispositivos en hogares y oficinas comiencen a escuchar la entrada de manera inapropiada, o posiblemente tomen una acción no deseada. [108] Los dispositivos controlados por voz también son accesibles para los visitantes del edificio, o incluso para aquellos que se encuentran fuera del edificio si pueden ser escuchados en el interior. Los atacantes pueden obtener acceso a información personal, como calendario, contenido de la libreta de direcciones, mensajes privados y documentos. También pueden hacerse pasar por el usuario para enviar mensajes o realizar compras en línea.

Se han demostrado dos ataques que utilizan sonidos artificiales. Uno transmite ultrasonido e intenta enviar comandos sin que las personas cercanas se den cuenta. [109] El otro agrega distorsiones pequeñas e inaudibles a otra voz o música que están especialmente diseñadas para confundir el sistema de reconocimiento de voz específico para que reconozca la música como voz, o para hacer que lo que suena como un comando para un humano suene como un comando diferente al sistema. [110]

Más información [ editar ]

Conferencias y revistas [ editar ]

Las conferencias de reconocimiento de voz más populares que se celebran cada año o dos incluyen SpeechTEK y SpeechTEK Europe, ICASSP , Interspeech / Eurospeech y IEEE ASRU. Las conferencias en el campo del procesamiento del lenguaje natural , como ACL , NAACL , EMNLP y HLT, están comenzando a incluir artículos sobre el procesamiento del habla . Las revistas importantes incluyen IEEE Transactions on Speech and Audio Processing (luego renombradas IEEE Transactions on Audio, Speech and Language Processing y desde septiembre de 2014 renombradas IEEE/ Transacciones de ACM sobre procesamiento de audio, habla y lenguaje (después de fusionarse con una publicación de ACM), habla y lenguaje por computadora y comunicación de voz.

Libros [ editar ]

Libros como "Fundamentals of Speech Recognition" de Lawrence Rabiner pueden ser útiles para adquirir conocimientos básicos, pero pueden no estar completamente actualizados (1993). Otra buena fuente puede ser "Métodos estadísticos para el reconocimiento del habla" de Frederick Jelinek y "Spoken Language Processing (2001)" de Xuedong Huang , etc., "Computer Speech", de Manfred R. Schroeder , segunda edición publicada en 2004, y "Speech Procesamiento: un enfoque dinámico y orientado a la optimización "publicado en 2003 por Li Deng y Doug O'Shaughnessey. El libro de texto actualizado Speech and Language Processing (2008) de Jurafsky y Martin presenta los conceptos básicos y el estado del arte de ASR.Reconocimiento de locutortambién utiliza las mismas características, la mayor parte del mismo procesamiento de front-end y técnicas de clasificación que se hace en el reconocimiento de voz. Un libro de texto completo, "Fundamentos del reconocimiento del hablante" es una fuente en profundidad de detalles actualizados sobre la teoría y la práctica. [111] Se puede obtener una buena idea de las técnicas utilizadas en los mejores sistemas modernos prestando atención a las evaluaciones patrocinadas por el gobierno, como las organizadas por DARPA (el mayor proyecto relacionado con el reconocimiento de voz en curso en 2007 es el proyecto GALE, que implica tanto el reconocimiento de voz como los componentes de traducción).

Una buena y accesible introducción a la tecnología de reconocimiento de voz y su historia es proporcionada por el libro para la audiencia general "La voz en la máquina. Construyendo computadoras que entienden el habla" de Roberto Pieraccini (2012).

El libro más reciente sobre reconocimiento de voz es Automatic Speech Recognition: A Deep Learning Approach (Editor: Springer) escrito por los investigadores de Microsoft D. Yu y L. Deng y publicado cerca de finales de 2014, con detalles técnicos altamente orientados a las matemáticas sobre cómo el aprendizaje profundo Los métodos se derivan e implementan en sistemas modernos de reconocimiento de voz basados ​​en DNN y métodos de aprendizaje profundo relacionados. [73]Un libro relacionado, publicado a principios de 2014, "Aprendizaje profundo: métodos y aplicaciones" de L. Deng y D. Yu proporciona una descripción general menos técnica pero más centrada en la metodología del reconocimiento de voz basado en DNN durante 2009-2014, ubicado dentro de la sección más contexto general de las aplicaciones de aprendizaje profundo, incluido no solo el reconocimiento de voz, sino también el reconocimiento de imágenes, el procesamiento del lenguaje natural, la recuperación de información, el procesamiento multimodal y el aprendizaje multitarea. [69]

Software [ editar ]

En cuanto a los recursos de libre disposición, Carnegie Mellon University 's Sphinx conjunto de herramientas es un lugar para empezar a aprender tanto sobre el reconocimiento de voz y empezar a experimentar. Otro recurso (gratuito pero protegido por derechos de autor) es el libro HTK (y el kit de herramientas HTK que lo acompaña). Para técnicas más recientes y de vanguardia, se puede utilizar el kit de herramientas de Kaldi . [ cita requerida ] En 2017, Mozilla lanzó el proyecto de código abierto llamado Common Voice [112] para recopilar una gran base de datos de voces que ayudaría a construir el proyecto de reconocimiento de voz libre DeepSpeech (disponible gratis en GitHub ) [113]utilizando la plataforma de código abierto de Google TensorFlow . [114]

Las API comerciales de reconocimiento de voz basadas en la nube están ampliamente disponibles en AWS, Azure, [115] IBM y GCP.

Una demostración de un reconocedor de voz en línea está disponible en la página web de Cobalt. [116]

Para obtener más recursos de software, consulte Lista de software de reconocimiento de voz .

Ver también [ editar ]

  • Efecto AI
  • ALPAC
  • Aplicaciones de la inteligencia artificial
  • Reconocimiento articulatorio de voz
  • Minería de audio
  • Reconocimiento de voz audiovisual
  • Traductor automático de idiomas
  • Unidad principal automotriz
  • Modelo de lenguaje de caché
  • Dragón Naturalmente Hablando
  • Tecnología de fluidez de voz
  • Búsqueda por voz de Google
  • IBM ViaVoice
  • Detección de palabras clave
  • Kinect
  • Mondegreen
  • Recuperación de información multimedia
  • Origen del habla
  • Tecnología de búsqueda fonética
  • Diaria del orador
  • Reconocimiento de locutor
  • Analítica de voz
  • Directriz de interfaz de voz
  • Software de reconocimiento de voz para Linux
  • Síntesis de voz
  • Verificación de voz
  • Subtítulo (subtítulos)
  • VoiceXML
  • VoxForge
  • Reconocimiento de voz de Windows
Liza
  • Lista de tecnologías emergentes
  • Esquema de la inteligencia artificial
  • Cronología del reconocimiento de voz y voz

Referencias [ editar ]

  1. ^ "Reconocimiento de voz conectado independiente del altavoz - Corporación informática de quinta generación" . Fifthgen.com. Archivado desde el original el 11 de noviembre de 2013 . Consultado el 15 de junio de 2013 .
  2. ^ P. Nguyen (2010). "Clasificación automática de las características de los altavoces". Congreso Internacional de Comunicaciones y Electrónica 2010 . págs. 147-152. doi : 10.1109 / ICCE.2010.5670700 . ISBN 978-1-4244-7055-6. S2CID  13482115 .
  3. ^ "Definición de reconocimiento de voz en inglés británico" . Macmillan Publishers Limited. Archivado desde el original el 16 de septiembre de 2011 . Consultado el 21 de febrero de 2012 .
  4. ^ "reconocimiento de voz, definición de" . WebFinance, Inc. Archivado desde el original el 3 de diciembre de 2011 . Consultado el 21 de febrero de 2012 .
  5. ^ "El Mailbag LG # 114" . Linuxgazette.net. Archivado desde el original el 19 de febrero de 2013 . Consultado el 15 de junio de 2013 .
  6. ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (septiembre de 2020). "Optimización del banco de filtros basado en datos para la verificación automática del hablante". Procesamiento de señales digitales . 104 : 102795. arXiv : 2007.10729 . doi : 10.1016 / j.dsp.2020.102795 . S2CID 220665533 . 
  7. ^ Reynolds, Douglas; Rose, Richard (enero de 1995). "Identificación robusta de locutor independiente del texto utilizando modelos de locutor de mezcla gaussiana" (PDF) . Transacciones IEEE sobre procesamiento de voz y audio . 3 (1): 72–83. doi : 10.1109 / 89.365379 . ISSN 1063-6676 . OCLC 26108901 . Archivado (PDF) desde el original el 8 de marzo de 2014 . Consultado el 21 de febrero de 2014 .   
  8. ^ "Identificación de altavoz (WhisperID)" . Investigación de Microsoft . Microsoft. Archivado desde el original el 25 de febrero de 2014 . Consultado el 21 de febrero de 2014 . Cuando hablas con alguien, ellos no solo reconocen lo que dices: reconocen quién eres. WhisperID también permitirá que las computadoras hagan eso, averiguando quién eres por la forma en que suenas.
  9. ^ "Obituarios: Stephen Balashek" . El Star-Ledger . 22 de julio de 2012.
  10. ^ "IBM-Shoebox-front.jpg" . androidauthority.net . Consultado el 4 de abril de 2019 .
  11. ^ Juang, BH; Rabiner, Lawrence R. "Reconocimiento automático de voz: una breve historia del desarrollo tecnológico" (PDF) : 6. Archivado (PDF) desde el original el 17 de agosto de 2014 . Consultado el 17 de enero de 2015 . Cite journal requiere |journal=( ayuda )
  12. ↑ a b Melanie Pinola (2 de noviembre de 2011). "Reconocimiento de voz a través de las décadas: cómo terminamos con Siri" . PC World . Consultado el 22 de octubre de 2018 .
  13. ^ Gray, Robert M. (2010). "Una historia del habla digital en tiempo real en redes de paquetes: parte II de codificación predictiva lineal y el protocolo de Internet" (PDF) . Encontró. Proceso de la señal de tendencias . 3 (4): 203–303. doi : 10.1561 / 2000000036 . ISSN 1932-8346 .  
  14. ^ John R. Pierce (1969). "¿Adónde va el reconocimiento de voz?". Revista de la Sociedad Americana de Acústica . 46 (48): 1049-1051. Código bibliográfico : 1969ASAJ ... 46.1049P . doi : 10.1121 / 1.1911801 .
  15. Benesty, Jacob; Sondhi, MM; Huang, Yiteng (2008). Springer Handbook of Speech Processing . Springer Science & Business Media. ISBN 978-3540491255.
  16. ^ John Makhoul. "Medallista ISCA: por su liderazgo y contribuciones extensas al procesamiento del habla y el lenguaje" . Archivado desde el original el 24 de enero de 2018 . Consultado el 23 de enero de 2018 .
  17. ^ Blechman, RO; Blechman, Nicholas (23 de junio de 2008). "Hola, Hal" . The New Yorker . Archivado desde el original el 20 de enero de 2015 . Consultado el 17 de enero de 2015 .
  18. ^ Klatt, Dennis H. (1977). "Revisión del proyecto de comprensión del habla ARPA". La Revista de la Sociedad Estadounidense de Acústica . 62 (6): 1345-1366. Código Bib : 1977ASAJ ... 62.1345K . doi : 10.1121 / 1.381666 .
  19. ^ Rabiner (1984). "La sociedad de procesamiento de señales, habla y acústica. Una perspectiva histórica" (PDF) . Archivado (PDF) desde el original el 9 de agosto de 2017 . Consultado el 23 de enero de 2018 . Cite journal requiere |journal=( ayuda )
  20. ^ "De primera mano: el modelo oculto de Markov - Wiki de historia de la ingeniería y la tecnología" . ethw.org . Archivado desde el original el 3 de abril de 2018 . Consultado el 1 de mayo de 2018 .
  21. ^ a b "Entrevista a James Baker" . Archivado desde el original el 28 de agosto de 2017 . Consultado el 9 de febrero de 2017 .
  22. ^ "Reconocimiento de voz pionero" . 7 de marzo de 2012. Archivado desde el original el 19 de febrero de 2015 . Consultado el 18 de enero de 2015 .
  23. ^ a b c Xuedong Huang; James Baker; Raj Reddy. "Una perspectiva histórica del reconocimiento de voz" . Comunicaciones de la ACM. Archivado desde el original el 20 de enero de 2015 . Consultado el 20 de enero de 2015 .
  24. ^ Juang, BH; Rabiner, Lawrence R. "Reconocimiento automático de voz: una breve historia del desarrollo de la tecnología" (PDF) : 10. Archivado (PDF) desde el original el 17 de agosto de 2014 . Consultado el 17 de enero de 2015 . Cite journal requiere |journal=( ayuda )
  25. ^ "Historia del reconocimiento de voz" . Transcripción médica del dragón . Archivado desde el original el 13 de agosto de 2015 . Consultado el 17 de enero de 2015 .
  26. ^ Kevin McKean (8 de abril de 1980). "Cuando Cole habla, las computadoras escuchan" . Diario de Sarasota. AP . Consultado el 23 de noviembre de 2015 .
  27. ^ Melanie Pinola (2 de noviembre de 2011). "Reconocimiento de voz a través de las décadas: cómo terminamos con Siri" . PC World . Archivado desde el original el 13 de enero de 2017 . Consultado el 28 de julio de 2017 .
  28. ^ "Biografía de Ray Kurzweil" . KurzweilAINetwork. Archivado desde el original el 5 de febrero de 2014 . Consultado el 25 de septiembre de 2014 .
  29. ^ Juang, BH; Rabiner, Lawrence. "Reconocimiento automático de voz: una breve historia del desarrollo tecnológico" (PDF) . Archivado (PDF) desde el original el 9 de agosto de 2017 . Consultado el 28 de julio de 2017 . Cite journal requiere |journal=( ayuda )
  30. ^ "Nuance Exec en iPhone 4S, Siri y el futuro del habla" . Opiniones tecnológicas. 10 de octubre de 2011. Archivado desde el original el 19 de noviembre de 2011 . Consultado el 23 de noviembre de 2011 .
  31. ^ "Switchboard-1 Release 2" . Archivado desde el original el 11 de julio de 2017 . Consultado el 26 de julio de 2017 .
  32. ^ Jason Kincaid. "El poder de la voz: una conversación con el director de tecnología de voz de Google" . Tech Crunch . Archivado desde el original el 21 de julio de 2015 . Consultado el 21 de julio de 2015 .
  33. ^ Froomkin, Dan (5 de mayo de 2015). "LAS COMPUTADORAS ESTÁN ESCUCHANDO" . La intercepción . Archivado desde el original el 27 de junio de 2015 . Consultado el 20 de junio de 2015 .
  34. ^ Herve Bourlard y Nelson Morgan , Reconocimiento del habla conexionista: un enfoque híbrido, Serie internacional de Kluwer en ingeniería e informática; v. 247, Boston: Kluwer Academic Publishers, 1994.
  35. ^ a b Sepp Hochreiter ; J. Schmidhuber (1997). "Memoria a corto plazo". Computación neuronal . 9 (8): 1735-1780. doi : 10.1162 / neco.1997.9.8.1735 . PMID 9377276 . S2CID 1915014 .  
  36. ^ Schmidhuber, Jürgen (2015). "Aprendizaje profundo en redes neuronales: una visión general". Redes neuronales . 61 : 85-117. arXiv : 1404,7828 . doi : 10.1016 / j.neunet.2014.09.003 . PMID 25462637 . S2CID 11715509 .  
  37. ^ Alex Graves, Santiago Fernandez, Faustino Gomez y Jürgen Schmidhuber (2006). Clasificación temporal conexionista: etiquetado de datos de secuencia no segmentados con redes neuronales recurrentes . Actas de ICML'06, págs. 369–376.
  38. ^ Santiago Fernandez, Alex Graves y Jürgen Schmidhuber (2007). Una aplicación de redes neuronales recurrentes para detectar palabras clave discriminativas . Actas de ICANN (2), págs. 220–229.
  39. ^ a b Haşim Sak, Andrew Senior, Kanishka Rao, Françoise Beaufays y Johan Schalkwyk (septiembre de 2015): " Búsqueda por voz de Google: más rápida y precisa ". Archivado el 9 de marzo de 2016 en la Wayback Machine.
  40. ^ "Li Deng" . Sitio de Li Deng.
  41. ^ Taller NIPS: Aprendizaje profundo para el reconocimiento de voz y aplicaciones relacionadas, Whistler, BC, Canadá, diciembre de 2009 (Organizadores: Li Deng, Geoff Hinton, D. Yu).
  42. ^ a b c Hinton, Geoffrey; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-Rahman; Jaitly, Navdeep; Mayor, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Redes neuronales profundas para el modelado acústico en el reconocimiento de voz: las opiniones compartidas de cuatro grupos de investigación". Revista de procesamiento de señales IEEE . 29 (6): 82–97. Código bibliográfico : 2012ISPM ... 29 ... 82H . doi : 10.1109 / MSP.2012.2205597 . S2CID 206485943 . 
  43. ^ a b Deng, L .; Hinton, G .; Kingsbury, B. (2013). "Nuevos tipos de aprendizaje de redes neuronales profundas para el reconocimiento de voz y aplicaciones relacionadas: una descripción general". 2013 IEEE International Conference on Acustics, Speech and Signal Processing: Nuevos tipos de aprendizaje de redes neuronales profundas para el reconocimiento de voz y aplicaciones relacionadas: una descripción general . pag. 8599. doi : 10.1109 / ICASSP.2013.6639344 . ISBN 978-1-4799-0356-6. S2CID  13953660 .
  44. ↑ a b Markoff, John (23 de noviembre de 2012). "Los científicos ven promesas en los programas de aprendizaje profundo" . New York Times . Archivado desde el original el 30 de noviembre de 2012 . Consultado el 20 de enero de 2015 .
  45. ^ Morgan, Bourlard, Renals, Cohen, Franco (1993) "Red neuronal híbrida / sistemas de modelo de Markov ocultos para el reconocimiento de voz continuo. ICASSP / IJPRAI"
  46. ^ T. Robinson (1992). "Un sistema de reconocimiento de palabras de red de propagación de errores recurrentes en tiempo real" . [Actas] ICASSP-92: 1992 IEEE International Conference on Acustics, Speech, and Signal Processing . págs. 617–620 vol.1. doi : 10.1109 / ICASSP.1992.225833 . ISBN 0-7803-0532-9. S2CID  62446313 .
  47. ^ Waibel , Hanazawa, Hinton, Shikano, Lang. (1989) " Reconocimiento de fonemas usando redes neuronales de retardo de tiempo . Transacciones IEEE sobre acústica, habla y procesamiento de señales".
  48. ^ Baker, J .; Li Deng; Glass, J .; Khudanpur, S .; Chin-Hui Lee; Morgan, N .; O'Shaughnessy, D. (2009). "Desarrollos y direcciones en el reconocimiento y la comprensión del habla, parte 1". Revista de procesamiento de señales IEEE . 26 (3): 75–80. Código Bibliográfico : 2009ISPM ... 26 ... 75B . doi : 10.1109 / MSP.2009.932166 . S2CID 357467 . 
  49. ^ Sepp Hochreiter (1991), Untersuchungen zu dynamischen neuronalen Netzen Archivado el 6 de marzo de 2015 en Wayback Machine , Tesis de diploma. Institut f. Informatik, Technische Univ. Munich. Asesor: J. Schmidhuber.
  50. ^ Bengio, Y. (1991). Redes neuronales artificiales y su aplicación al reconocimiento de voz / secuencia (Ph.D.). Universidad McGill.
  51. ^ Deng, L .; Hassanein, K .; Elmasry, M. (1994). "Análisis de la estructura de correlación de un modelo predictivo neuronal con aplicación al reconocimiento de voz". Redes neuronales . 7 (2): 331–339. doi : 10.1016 / 0893-6080 (94) 90027-2 .
  52. ^ Charla principal: Desarrollos recientes en redes neuronales profundas. ICASSP, 2013 (por Geoff Hinton).
  53. ^ a b Charla principal: " Logros y desafíos del aprendizaje profundo: desde el análisis y el reconocimiento del habla hasta el lenguaje y el procesamiento multimodal ", Interspeech, septiembre de 2014 (por Li Deng ).
  54. ^ "Aumentan las mejoras en el software de reconocimiento de voz" . TechRepublic.com . 27 de agosto de 2002. Maners dijo que IBM ha trabajado para promover el reconocimiento de voz ... o en el piso de una ruidosa feria comercial.
  55. ^ "Reconocimiento de voz para facilitar las reservas de viajes: noticias de viajes de negocios" . BusinessTravelNews.com . 3 de marzo de 1997. Las primeras aplicaciones del software de reconocimiento de voz fueron el dictado ... Hace cuatro meses, IBM presentó un 'producto de dictado continuo' diseñado para ... debutó en la feria comercial de la Asociación Nacional de Viajes de Negocios en 1994.
  56. ^ Ellis Booker (14 de marzo de 1994). "El reconocimiento de voz entra en la corriente principal". Computerworld . pag. 45. Hace solo unos años, el reconocimiento de voz se limitaba a ...
  57. ^ "Los investigadores de Microsoft logran un nuevo hito de reconocimiento de voz conversacional" . 21 de agosto de 2017.
  58. ^ Goel, Vaibhava; Byrne, William J. (2000). "Reconocimiento automático de voz con riesgo mínimo de Bayes" . Habla y lenguaje informático . 14 (2): 115-135. doi : 10.1006 / csla.2000.0138 . Archivado desde el original el 25 de julio de 2011 . Consultado el 28 de marzo de 2011 .
  59. ^ Mohri, M. (2002). "Distancia de edición de los autómatas ponderados: definiciones generales y algoritmos" (PDF) . Revista Internacional de Fundamentos de la Ciencia de la Computación . 14 (6): 957–982. doi : 10.1142 / S0129054103002114 . Archivado (PDF) desde el original el 18 de marzo de 2012 . Consultado el 28 de marzo de 2011 .
  60. ^ Waibel, A .; Hanazawa, T .; Hinton, G .; Shikano, K .; Lang, KJ (1989). "Reconocimiento de fonemas mediante redes neuronales de retardo de tiempo". Transacciones IEEE sobre acústica, habla y procesamiento de señales . 37 (3): 328–339. doi : 10.1109 / 29.21701 . hdl : 10338.dmlcz / 135496 .
  61. Bird, Jordan J .; Wanner, Elizabeth; Ekárt, Anikó; Faria, Diego R. (2020). "Optimización del reconocimiento de voz consciente fonético a través de algoritmos evolutivos multiobjetivo". Sistemas expertos con aplicaciones . Elsevier BV. 153 : 113402. doi : 10.1016 / j.eswa.2020.113402 . ISSN 0957-4174 . 
  62. ^ Wu, J .; Chan, C. (1993). "Reconocimiento de palabras aisladas por modelos de redes neuronales con coeficientes de correlación cruzada para la dinámica del habla". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 15 (11): 1174-1185. doi : 10.1109 / 34.244678 .
  63. ^ SA Zahorian, AM Zimmer y F. Meng, (2002) " Clasificación de vocales para retroalimentación visual basada en computadora para el entrenamiento del habla para personas con discapacidad auditiva ", en ICSLP 2002
  64. ^ Hu, Hongbing; Zahorian, Stephen A. (2010). "Métodos de reducción de dimensionalidad para el reconocimiento fonético HMM" (PDF) . ICASSP 2010 . Archivado (PDF) desde el original el 6 de julio de 2012.
  65. ^ Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Etiquetado de secuencias en dominios estructurados con redes neuronales recurrentes jerárquicas" (PDF) . Actas de IJCAI . Archivado (PDF) desde el original el 15 de agosto de 2017.
  66. ^ Tumbas, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey (2013). "Reconocimiento de voz con redes neuronales recurrentes profundas". arXiv : 1303,5778 [ cs.NE ]. ICASSP 2013.
  67. ^ Waibel, Alex (1989). "Construcción modular de redes neuronales de retardo de tiempo para el reconocimiento de voz" (PDF) . Computación neuronal . 1 (1): 39–46. doi : 10.1162 / neco.1989.1.1.39 . S2CID 236321 . Archivado (PDF) desde el original el 29 de junio de 2016.  
  68. ^ Maas, Andrew L .; Le, Quoc V .; O'Neil, Tyler M .; Vinyals, Oriol; Nguyen, Patrick; Ng, Andrew Y. (2012). "Redes neuronales recurrentes para reducción de ruido en ASR robusto". Actas de Interspeech 2012 .
  69. ^ a b Deng, Li; Yu, Dong (2014). "Aprendizaje profundo: métodos y aplicaciones" (PDF) . Fundamentos y tendencias en el procesamiento de señales . 7 (3–4): 197–387. CiteSeerX 10.1.1.691.3679 . doi : 10.1561 / 2000000039 . Archivado (PDF) desde el original el 22 de octubre de 2014.  
  70. ^ Yu, D .; Deng, L .; Dahl, G. (2010). "Funciones de la formación previa y el ajuste fino en DBN-HMM dependientes del contexto para el reconocimiento de voz en el mundo real" (PDF) . Taller de NIPS sobre aprendizaje profundo y aprendizaje de funciones no supervisado .
  71. ^ Dahl, George E .; Yu, Dong; Deng, Li; Acero, Alex (2012). "Redes neuronales profundas preentrenadas dependientes del contexto para el reconocimiento de voz de gran vocabulario". Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 20 (1): 30–42. doi : 10.1109 / TASL.2011.2134090 . S2CID 14862572 . 
  72. ^ Deng L., Li, J., Huang, J., Yao, K., Yu, D., Seide, F. et al. Avances recientes en el aprendizaje profundo para la investigación del habla en Microsoft . ICASSP, 2013.
  73. ^ a b Yu, D .; Deng, L. (2014). "Reconocimiento automático de voz: un enfoque de aprendizaje profundo (editor: Springer)". Cite journal requiere |journal=( ayuda )
  74. ^ Deng, L .; Li, Xiao (2013). "Paradigmas de aprendizaje automático para el reconocimiento de voz: una descripción general" (PDF) . Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 21 (5): 1060–1089. doi : 10.1109 / TASL.2013.2244083 . S2CID 16585863 .  
  75. ^ Schmidhuber, Jürgen (2015). "Aprendizaje profundo" . Scholarpedia . 10 (11): 32832. Código bibliográfico : 2015SchpJ..1032832S . doi : 10.4249 / scholarpedia.32832 .
  76. ^ L. Deng, M. Seltzer, D. Yu, A. Acero, A. Mohamed y G. Hinton (2010) Codificación binaria de espectrogramas del habla mediante un codificador automático profundo . Interspeech.
  77. ^ Tüske, Zoltán; Golik, Pavel; Schlüter, Ralf; Ney, Hermann (2014). "Modelado acústico con redes neuronales profundas utilizando señal de tiempo sin procesar para LVCSR" (PDF) . Interspeech 2014 . Archivado (PDF) desde el original el 21 de diciembre de 2016.
  78. ^ Jurafsky, Daniel (2016). Procesamiento del habla y el lenguaje .
  79. ^ Tumbas, Alex (2014). "Hacia el reconocimiento de voz de un extremo a otro con redes neuronales recurrentes" (PDF) . ICML .
  80. ^ Amodei, Dario (2016). "Deep Speech 2: reconocimiento de voz de extremo a extremo en inglés y mandarín". arXiv : 1512.02595 [ cs.CL ].
  81. ^ "LipNet: ¿Qué tan fácil crees que es la lectura de labios?" . YouTube . Archivado desde el original el 27 de abril de 2017 . Consultado el 5 de mayo de 2017 .
  82. ^ Assael, Yannis; Shillingford, Brendan; Whiteson, Shimon; de Freitas, Nando (5 de noviembre de 2016). "LipNet: lectura de labios a nivel de oración de extremo a extremo". arXiv : 1611.01599 [ cs.CV ].
  83. ^ Shillingford, Brendan; Assael, Yannis; Hoffman, Matthew W .; Paine, Thomas; Hughes, Cían; Prabhu, Utsav; Liao, Hank; Sak, Hasim; Rao, Kanishka (13 de julio de 2018). "Reconocimiento visual de voz a gran escala". arXiv : 1807.05162 [ cs.CV ].
  84. ^ Chan, William; Jaitly, Navdeep; Le, Quoc; Vinyals, Oriol (2016). "Escuchar, asistir y deletrear: una red neuronal para el reconocimiento de voz conversacional de gran vocabulario" (PDF) . ICASSP .
  85. ^ Bahdanau, Dzmitry (2016). "Reconocimiento de voz de gran vocabulario basado en la atención de extremo a extremo". arXiv : 1508.04395 [ cs.CL ].
  86. Chorowski, Jan; Jaitly, Navdeep (8 de diciembre de 2016). "Hacia una mejor decodificación e integración de modelos de lenguaje en secuencia a modelos de secuencia". arXiv : 1612.02695 [ cs.NE ].
  87. ^ Chan, William; Zhang, Yu; Le, Quoc; Jaitly, Navdeep (10 de octubre de 2016). "Descomposiciones de secuencia latente". arXiv : 1610.03035 [ stat.ML ].
  88. ^ Chung, Joon Son; Mayor, Andrew; Vinyals, Oriol; Zisserman, Andrew (16 de noviembre de 2016). "Frases de lectura de labios en la naturaleza". 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) . págs. 3444–3453. arXiv : 1611.05358 . doi : 10.1109 / CVPR.2017.367 . ISBN 978-1-5386-0457-1. S2CID  1662180 .
  89. ^ Englund, Christine (2004). Reconocimiento de voz en el avión JAS 39 Gripen: Adaptación a voz en diferentes cargas G (PDF) (Tesis de maestría). Real Instituto Tecnológico de Estocolmo . Archivado (PDF) desde el original el 2 de octubre de 2008.
  90. ^ "La cabina del piloto" . Eurofighter Typhoon . Archivado desde el original el 1 de marzo de 2017.
  91. ^ "Eurofighter Typhoon - avión de combate más avanzado del mundo" . www.eurofighter.com . Archivado desde el original el 11 de mayo de 2013 . Consultado el 1 de mayo de 2018 .
  92. ^ Schutte, John (15 de octubre de 2007). "Los investigadores afinan el sistema de voz del avión piloto F-35" . Fuerza Aérea de los Estados Unidos. Archivado desde el original el 20 de octubre de 2007.
  93. ^ Cerf, Vinton; Wrubel, Rob; Sherwood, Susan. "¿Puede el software de reconocimiento de voz derribar las barreras del idioma educativo?" . Curiosity.com . Comunicaciones de descubrimiento. Archivado desde el original el 7 de abril de 2014 . Consultado el 26 de marzo de 2014 .
  94. ^ a b "Reconocimiento de voz para el aprendizaje" . Centro Nacional de Innovación Tecnológica. 2010. Archivado desde el original el 13 de abril de 2014 . Consultado el 26 de marzo de 2014 .
  95. ^ Follensbee, Bob; McCloskey-Dale, Susan (2000). "Reconocimiento de voz en las escuelas: una actualización del campo" . Conferencia sobre tecnología y personas con discapacidad 2000 . Archivado desde el original el 21 de agosto de 2006 . Consultado el 26 de marzo de 2014 .
  96. ^ "Superar las barreras de comunicación en el aula" . MassMATCH. 18 de marzo de 2010. Archivado desde el original el 25 de julio de 2013 . Consultado el 15 de junio de 2013 .
  97. ^ "Reconocimiento de voz para personas con discapacidad" . Archivado desde el original el 4 de abril de 2008.
  98. ^ Grupo de apoyo internacional de amigos
  99. ^ Garrett, Jennifer Tumlin; et al. (2011). "Uso de software de reconocimiento de voz para aumentar la fluidez en la escritura para personas con discapacidades físicas" . Revista de tecnología de educación especial . 26 (1): 25–41. doi : 10.1177 / 016264341102600104 . S2CID 142730664 . 
  100. ^ Forgrave, Karen E. "Tecnología de asistencia: empoderar a los estudiantes con discapacidades". Clearing House 75.3 (2002): 122–6. Web.
  101. ^ Tang, KW; Kamoua, Ridha; Sutan, Victor (2004). "Tecnología de reconocimiento de voz para la educación de discapacidades". Revista de Sistemas de Tecnología Educativa . 33 (2): 173–84. CiteSeerX 10.1.1.631.3736 . doi : 10.2190 / K6K8-78K2-59Y7-R9R2 . S2CID 143159997 .  
  102. ^ "Proyectos: micrófonos planetarios" . La Sociedad Planetaria. Archivado desde el original el 27 de enero de 2012.
  103. ^ Caridakis, George; Castellano, Ginevra; Kessous, Loic; Raouzaiou, Amaryllis; Malatesta, Lori; Asteriadis, Stelios; Karpouzis, Kostas (19 de septiembre de 2007). Reconocimiento de emociones multimodal a partir de rostros expresivos, gestos corporales y habla . IFIP la Federación Internacional para el Procesamiento de la Información . 247 . Springer EE. UU. págs. 375–388. doi : 10.1007 / 978-0-387-74161-1_41 . ISBN 978-0-387-74160-4.
  104. ^ Zheng, Thomas Fang; Li, Lantian (2017). Problemas relacionados con la robustez en el reconocimiento de hablantes . SpringerBriefs en Ingeniería Eléctrica e Informática. Singapur: Springer Singapur. doi : 10.1007 / 978-981-10-3238-7 . ISBN 978-981-10-3237-0.
  105. ^ Ciaramella, Alberto. "Un prototipo de informe de evaluación del desempeño". Paquete de trabajo de reloj de sol 8000 (1993).
  106. Gerbino, E .; Baggia, P .; Ciaramella, A .; Rullent, C. (1993). "Prueba y evaluación de un sistema de diálogo hablado". IEEE International Conference on Acustics Speech and Signal Processing . págs. 135-138 vol.2. doi : 10.1109 / ICASSP.1993.319250 . ISBN 0-7803-0946-4. S2CID  57374050 .
  107. ^ Instituto Nacional de Estándares y Tecnología. " La historia de la evaluación de reconocimiento automático de voz en NIST Archivado el 8 de octubre de 2013 en Wayback Machine ".
  108. ^ "Escuche: su asistente de inteligencia artificial se vuelve loco por NPR también" . NPR . 6 de marzo de 2016. Archivado desde el original el 23 de julio de 2017.
  109. ^ Claburn, Thomas (25 de agosto de 2017). "¿Es posible controlar Amazon Alexa, Google Now usando comandos inaudibles? Absolutamente" . El registro . Archivado desde el original el 2 de septiembre de 2017.
  110. ^ "Ataque apunta a sistemas automáticos de reconocimiento de voz" . vice.com . 31 de enero de 2018. Archivado desde el original el 3 de marzo de 2018 . Consultado el 1 de mayo de 2018 .
  111. ^ Beigi, Homayoon (2011). Fundamentos del reconocimiento de hablantes . Nueva York: Springer. ISBN 978-0-387-77591-3. Archivado desde el original el 31 de enero de 2018.
  112. ^ "Common Voice de Mozilla" . voice.mozilla.org .
  113. ^ "Una implementación de TensorFlow de la arquitectura DeepSpeech de Baidu: mozilla / DeepSpeech" . 9 de noviembre de 2019 - a través de GitHub.
  114. ^ "GitHub - tensorflow / docs: documentación de TensorFlow" . 9 de noviembre de 2019 - a través de GitHub.
  115. ^ "Servicios cognitivos del habla | Microsoft Azure" . azure.microsoft.com .
  116. ^ "Cobalt Speech: demostración de reconocimiento de voz" . demo-cubic.cobaltspeech.com .

Lectura adicional [ editar ]

  • Pieraccini, Roberto (2012). La voz en la máquina. Construyendo computadoras que entienden el habla . La prensa del MIT. ISBN 978-0262016858.
  • Woelfel, Matthias; McDonough, John (26 de mayo de 2009). Reconocimiento de voz a distancia . Wiley. ISBN 978-0470517048.
  • Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007). "Tecnologías de interfaz conversacional". En Sears, Andrew ; Jacko, Julie A. (eds.). El manual de interacción persona-computadora: fundamentos, tecnologías en evolución y aplicaciones emergentes (factores humanos y ergonomía) . Lawrence Erlbaum Associates Inc. ISBN 978-0-8058-5870-9.
  • Cole, Ronald; Mariani, Joseph ; Uszkoreit, Hans; Varile, Giovanni Battista; Zaenen, Annie; Zampolli; Zue, Victor, eds. (1997). Estudio del estado del arte en tecnología del lenguaje humano . Estudios de Cambridge en Procesamiento del Lenguaje Natural. XII – XIII. Prensa de la Universidad de Cambridge. ISBN 978-0-521-59277-2.
  • Junqua, J.-C .; Haton, J.-P. (1995). Robustez en el reconocimiento automático de voz: fundamentos y aplicaciones . Editores académicos de Kluwer. ISBN 978-0-7923-9646-8.
  • Pirani, Giancarlo, ed. (2013). Arquitecturas y algoritmos avanzados para la comprensión del habla . Springer Science & Business Media. ISBN 978-3-642-84341-9.

Enlaces externos [ editar ]

  • Signer, Beat and Hoste, Lode: SpeeG2: A Speech- and Gesture-based Interface for Efficient Controller-Free Text Entry , In Proceedings of ICMI 2013, 15th International Conference on Multimodal Interaction, Sydney, Australia, diciembre de 2013
  • Tecnología del habla en Curlie