Reconocimiento de voz

El reconocimiento de voz es un subcampo interdisciplinario de las ciencias de la computación y la lingüística computacional que desarrolla metodologías y tecnologías que permiten el reconocimiento y la traducción del lenguaje hablado a texto por parte de las computadoras con el principal beneficio de la capacidad de búsqueda . También se conoce como reconocimiento automático de voz ( ASR ), reconocimiento de voz por computadora o voz a texto ( STT ). Incorpora conocimientos e investigaciones en las áreas de informática , lingüística e ingeniería informática .campos. El proceso inverso es la síntesis de voz .

Algunos sistemas de reconocimiento de voz requieren "entrenamiento" (también llamado "inscripción") donde un hablante individual lee texto o vocabulario aislado en el sistema. El sistema analiza la voz específica de la persona y la usa para afinar el reconocimiento del habla de esa persona, lo que resulta en una mayor precisión. Los sistemas que no utilizan entrenamiento se denominan sistemas "independientes del hablante" ^[1] . Los sistemas que utilizan entrenamiento se denominan "dependientes del hablante".

Las aplicaciones de reconocimiento de voz incluyen interfaces de usuario de voz, como marcación por voz (p. ej., "llamar a casa"), enrutamiento de llamadas (p. ej., "Me gustaría hacer una llamada por cobrar"), control de dispositivos domóticos , búsqueda de palabras clave (p. ej., encontrar un podcast donde palabras específicas se hablaron), entrada de datos simple (p. ej., ingresar un número de tarjeta de crédito), preparación de documentos estructurados (p. ej., un informe de radiología), determinación de las características del hablante, ^[2] procesamiento de voz a texto (p. ej., procesadores de texto o correos electrónicos ), y aviones (generalmente denominados entrada de voz directa ).

El término reconocimiento de voz ^[3]^[4]^[5] o identificación del hablante ^[6]^[7]^[8] se refiere a identificar al hablante, en lugar de lo que está diciendo. Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados en la voz de una persona específica o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad.

Desde la perspectiva de la tecnología, el reconocimiento de voz tiene una larga historia con varias oleadas de importantes innovaciones. Más recientemente, el campo se ha beneficiado de los avances en aprendizaje profundo y big data . Los avances se evidencian no solo por el aumento de artículos académicos publicados en el campo, sino, lo que es más importante, por la adopción mundial de una variedad de métodos de aprendizaje profundo en el diseño e implementación de sistemas de reconocimiento de voz por parte de la industria.

Raj Reddy fue la primera persona en asumir el reconocimiento de voz continuo como estudiante de posgrado en la Universidad de Stanford a fines de la década de 1960. Los sistemas anteriores requerían que los usuarios hicieran una pausa después de cada palabra. El sistema de Reddy emitió comandos hablados para jugar al ajedrez .