Reconocimiento de voz

El reconocimiento de voz es un subcampo interdisciplinario de la informática y la lingüística computacional que desarrolla metodologías y tecnologías que permiten el reconocimiento y traducción del lenguaje hablado a texto por computadoras. También se conoce como reconocimiento automático de voz ( ASR ), reconocimiento de voz por computadora o voz a texto ( STT ). Incorpora conocimientos e investigación en los campos de la informática , la lingüística y la ingeniería informática .

Algunos sistemas de reconocimiento de voz requieren "formación" (también denominada "inscripción") en la que un hablante individual lee texto o vocabulario aislado en el sistema. El sistema analiza la voz específica de la persona y la usa para ajustar el reconocimiento del habla de esa persona, lo que resulta en una mayor precisión. Los sistemas que no utilizan formación se denominan sistemas "independientes del hablante" ^[1] . Los sistemas que utilizan la formación se denominan "dependientes del hablante".

Las aplicaciones de reconocimiento de voz incluyen interfaces de usuario de voz , como marcación por voz (p. Ej., "Llamar a casa"), enrutamiento de llamadas (p. Ej., "Me gustaría hacer una llamada por cobrar"), control de aparatos domóticos , buscar palabras clave (p. Ej., Encontrar un podcast en el que haya palabras específicas fueron hablados), entrada simple de datos (p. ej., ingresar un número de tarjeta de crédito), preparación de documentos estructurados (p. ej., un informe de radiología), determinación de las características del hablante, ^[2] procesamiento de voz a texto (p. ej., procesadores de texto o correos electrónicos ), y aviones (normalmente denominada entrada de voz directa ).

El término reconocimiento de voz ^[3]^[4]^[5] o identificación del hablante ^[6]^[7]^{[8] se} refiere a identificar al hablante, en lugar de lo que está diciendo. Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados en la voz de una persona específica o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad.

Desde la perspectiva de la tecnología, el reconocimiento de voz tiene una larga historia con varias oleadas de innovaciones importantes. Más recientemente, el campo se ha beneficiado de los avances en el aprendizaje profundo y los macrodatos . Los avances se evidencian no solo por el aumento de artículos académicos publicados en el campo, sino, lo que es más importante, por la adopción de la industria mundial de una variedad de métodos de aprendizaje profundo en el diseño e implementación de sistemas de reconocimiento de voz.

Raj Reddy fue la primera persona en asumir el reconocimiento de voz continuo como estudiante graduado en la Universidad de Stanford a fines de la década de 1960. Los sistemas anteriores requerían que los usuarios hicieran una pausa después de cada palabra. El sistema de Reddy emitió comandos hablados para jugar al ajedrez .