Software de reconocimiento de voz para Linux

A principios de la década de 2000, existen varios paquetes de software de reconocimiento de voz (SR) para Linux . Algunos de ellos son software gratuito y de código abierto y otros son software propietario . El reconocimiento de voz generalmente se refiere a un software que intenta distinguir miles de palabras en un lenguaje humano. El control por voz puede referirse al software utilizado para comunicar comandos operativos a una computadora.

Reconocimiento de voz nativo de Linux

Historia

A fines de la década de 1990, se puso a disposición de los usuarios una versión Linux de ViaVoice , creada por IBM , sin cargo. En 2002, el desarrollador eliminó el kit de desarrollo de software gratuito (SDK).

Estado del desarrollo

A principios de la década de 2000, hubo un impulso para desarrollar un motor de reconocimiento de voz nativo de Linux de alta calidad. Como resultado, se iniciaron varios proyectos dedicados a la creación de programas de reconocimiento de voz de Linux, como Mycroft , que es similar a Microsoft Cortana , pero de código abierto.

Crowdsourcing de muestras de discursos

Es esencial compilar un corpus de voz para producir modelos acústicos para proyectos de reconocimiento de voz . VoxForge es un repositorio de modelos acústicos y corpus de libertad de expresión que se creó con el objetivo de recopilar voz transcrita para su uso en proyectos de reconocimiento de voz. VoxForge acepta crowdsourced muestras de voz y correcciones de secuencias vocales reconocidas. Tiene una licencia GNU General Public License (GPL).

Concepto de reconocimiento de voz

El primer paso es comenzar a grabar una transmisión de audio en una computadora. El usuario tiene dos opciones principales de procesamiento:

Reconocimiento de voz discreto (DSR): procesa la información en una máquina local por completo. Esto se refiere a sistemas autónomos en los que todos los aspectos de SR se realizan completamente dentro de la computadora del usuario. Esto se está volviendo crítico para proteger la propiedad intelectual (PI) y evitar la vigilancia no deseada (2018).
SR remoto o basado en servidor : transmite un archivo de voz de audio a un servidor remoto para convertir el archivo en un archivo de cadena de texto. Debido a los recientes esquemas de almacenamiento en la nube y a la minería de datos, este método permite más fácilmente la vigilancia, el robo de información y la inserción de malware.

Anteriormente, los teléfonos inteligentes usaban el reconocimiento remoto porque carecían de rendimiento, memoria de trabajo o almacenamiento suficientes para procesar el reconocimiento de voz dentro del teléfono. Estos límites se han superado en gran medida, aunque la SR basada en servidor en dispositivos móviles sigue siendo universal.

Reconocimiento de voz en el navegador

El reconocimiento de voz discreto se puede realizar dentro de un navegador web y funciona bien con navegadores compatibles. Remote SR no requiere la instalación de software en una computadora de escritorio o dispositivo móvil, ya que es principalmente un sistema basado en servidor con los problemas de seguridad inherentes mencionados anteriormente.

Remoto : el servicio de dictado graba una pista de audio del usuario a través de un navegador web.
DSR : existen soluciones que funcionan solo en un cliente, sin enviar datos a los servidores.

Motores de reconocimiento de voz libres

La siguiente es una lista de proyectos dedicados a implementar el reconocimiento de voz en Linux y las principales soluciones nativas. Estas no son aplicaciones de usuario final. Se trata de bibliotecas de programación que pueden utilizarse para desarrollar aplicaciones para el usuario final.

CMU Sphinx es un término general para describir un grupo de sistemas de reconocimiento de voz desarrollados en la Universidad Carnegie Mellon.
HTK es el software de reconocimiento de voz más famoso y utilizado antes de Kaldi.
Julius es un software decodificador de reconocimiento de voz continuo de vocabulario extenso (LVCSR) de alto rendimiento y dos pasadas para investigadores y desarrolladores relacionados con el habla.
Kaldi un kit de herramientas para el reconocimiento de voz proporcionado bajo la licencia de Apache.
Mozilla DeepSpeech está desarrollando un motor de voz a texto de código abierto basado en el trabajo de investigación de voz profunda de Baidu. ^[1]

Proyectos posiblemente activos:

Parlatype, reproductor de audio para transcripción manual de voz para el escritorio GNOME, proporciona desde la versión 1.6 reconocimiento de voz continuo con CMU Sphinx. ^[2]
Lera (reconocimiento de voz de vocabulario extenso) basado en Simon y CMU Sphinx para KDE. ^[3]
Speech ^[4] utiliza el motor de reconocimiento de voz de Google para admitir el dictado en muchos idiomas diferentes.
Speech Control: es una aplicación basada en Qt que utiliza las herramientas de CMU Sphinx como SphinxTrain y PocketSphinx para proporcionar utilidades de reconocimiento de voz como control de escritorio, dictado y transcripción al escritorio de Linux.
Platypus ^[5] es una corrección de código abierto que permitirá que Dragon NaturallySpeaking que se ejecuta bajo Wine funcione con cualquier aplicación Linux X11.
FreeSpeech, ^[6] del desarrollador de Platypus, es una aplicación de escritorio multiplataforma gratuita y de código abierto para GTK que utiliza las herramientas de CMU Sphinx para proporcionar dictado de voz, aprendizaje de idiomas y edición al estilo de Dragon NaturallySpeaking.
Vedics ^[7] (Sistema de control e interacción de escritorio habilitado por voz) es un asistente de voz para el entorno GNOME
NatI ^[8] es un sistema de control de voz en varios idiomas escrito en Python
SphinxKeys ^[9] permite al usuario escribir las teclas del teclado y hacer clic con el mouse hablando en su micrófono.
VoxForge es un repositorio de modelos acústicos y corpus de libre expresión para motores de reconocimiento de voz de código abierto.
Simon ^[10] apunta a ser extremadamente flexible para compensar dialectos o incluso alteraciones del habla. Utiliza HTK - Julius o CMU SPHINX, funciona en Windows y Linux y es compatible con la formación.
Proyecto Jasper ^[11] Jasper es una plataforma de código abierto para desarrollar aplicaciones siempre activas controladas por voz. Este es un front-end de Raspberry Pi integrado para CMU Sphinx o Julius

Los desarrolladores pueden crear software de reconocimiento de voz de Linux utilizando paquetes existentes derivados de proyectos de código abierto.

Proyectos inactivos:

CVoiceControl ^[12] es una versión independiente de KDE y X Window de su predecesor KVoiceControl. El propietario detuvo el desarrollo en la etapa alfa de desarrollo.
Open Mind Speech, ^[13] una parte de la Open Mind Initiative, ^[14] tiene como objetivo desarrollar herramientas y aplicaciones de reconocimiento de voz gratuitas (GPL) y recopilar datos de voz. La producción terminó en 2000.
PerlBox ^[15] es un control y salida de voz basado en Perl . El desarrollo terminó en las primeras etapas en 2004.
Xvoice ^[16] Una aplicación de usuario para proporcionar dictado y control de comandos a cualquier aplicación X. El desarrollo finalizó en 2009 durante las primeras pruebas del proyecto. (requiere ViaVoice patentada para funcionar)

Motores de reconocimiento de voz patentados

Janus Recognition Toolkit (JRTk) ^[17] es un kit de herramientas de reconocimiento de voz de código cerrado dirigido principalmente a Linux desarrollado por Interactive Systems Laboratories desarrollado en Carnegie Mellon University y Karlsruhe Institute of Technology para el que se encuentran disponibles licencias comerciales y de investigación.

Control por voz y atajos de teclado

El reconocimiento de voz generalmente se refiere a un software que intenta distinguir miles de palabras en un lenguaje humano. El control por voz puede referirse al software utilizado para enviar comandos operativos a una computadora o dispositivo. El control por voz generalmente requiere un vocabulario mucho más pequeño y, por lo tanto, es mucho más fácil de implementar.

El software simple combinado con atajos de teclado tiene el potencial más temprano para un control de voz prácticamente preciso en Linux.

Ejecución del software de reconocimiento de voz de Windows con Linux

A través de la capa de compatibilidad

Es posible utilizar programas como Dragon NaturallySpeaking en Linux, utilizando Wine , aunque pueden surgir algunos problemas, dependiendo de la versión que se utilice. ^[18]

A través de Windows virtualizado

También es posible utilizar el software de reconocimiento de voz de Windows en Linux. Usando software de virtualización sin costo , es posible ejecutar Windows y NaturallySpeaking bajo Linux. VMware Server o VirtualBox admiten copiar y pegar hacia / desde una máquina virtual, lo que hace que el texto dictado sea fácilmente transferible hacia / desde la máquina virtual.

Ver también

Directriz de interfaz de voz
Lista de software de reconocimiento de voz

Referencias

^ "Una implementación de TensorFlow de la arquitectura DeepSpeech de Baidu" . Mozilla. 2017-12-05 . Consultado el 5 de diciembre de 2017 .
^ Parlatype 1.6 publicado, 24 de abril de 2019, http://gkarsay.github.io/parlatype/2019/04/24/v1.6.html Consultado el 12 de mayo de 2019.
^ Repositorio de git de Lera KDE - (2015) - https://cgit.kde.org/scratch/grasch/lera.git/ Consultado el 25 de julio de 2017.
^ "andre-luiz-dos-santos / speech-app" . GitHub . 2018-07-12.
^ "El Show de Nerd - Ornitorrinco" . thenerdshow.com .
^ "Dictado y reconocimiento de voz en tiempo real FreeSpeech" . TheNerdShow.com .
^ "Védicos" .
^ "rcorcs / NatI" . GitHub . 2018-09-24.
^ "worden341 / sphinxkeys" . GitHub . 2016-07-11.
^ Simon KDE - Desarrollador principal hasta 2015 Peter Grasch - (consultado el 4 de septiembre de 2017) - [1]
^ "Jasper" . GitHub .
^ Kiecza, Daniel. "Linux" . Kiecza.net .
^ "Open Mind Speech - Reconocimiento de voz libre para Linux" . freespeech.sourceforge.net .
^ "Iniciativa de mente abierta" . Archivado desde el original el 5 de agosto de 2003 . Consultado el 16 de marzo de 2019 .
^ "Perlbox.org Linux Speech Control y Voice Recognition" . perlbox.sourceforge.net .
^ "Xvoice" . xvoice.sourceforge.net .
^ (IAR), Roedder, Margit (26 de enero de 2018). "KIT - Kit de herramientas de reconocimiento de Janus" . isl.ira.uka.de .
^ "WineHQ - Dragon naturalmente hablando" . appdb.winehq.org .

enlaces externos

Accesibilidad, reconocimiento de voz - Ayuda de Ubuntu

[1] "Una implementación de TensorFlow de la arquitectura DeepSpeech de Baidu" . Mozilla. 2017-12-05 . Consultado el 5 de diciembre de 2017 .

[2] Parlatype 1.6 publicado, 24 de abril de 2019, http://gkarsay.github.io/parlatype/2019/04/24/v1.6.html Consultado el 12 de mayo de 2019.

[3] Repositorio de git de Lera KDE - (2015) - https://cgit.kde.org/scratch/grasch/lera.git/ Consultado el 25 de julio de 2017.

[4] "andre-luiz-dos-santos / speech-app" . GitHub . 2018-07-12.

[5] "El Show de Nerd - Ornitorrinco" . thenerdshow.com .

[6] "Dictado y reconocimiento de voz en tiempo real FreeSpeech" . TheNerdShow.com .

[7] "Védicos" .

[8] "rcorcs / NatI" . GitHub . 2018-09-24.

[9] "worden341 / sphinxkeys" . GitHub . 2016-07-11.

[10] Simon KDE - Desarrollador principal hasta 2015 Peter Grasch - (consultado el 4 de septiembre de 2017) - [1]

[11] "Jasper" . GitHub .

[12] Kiecza, Daniel. "Linux" . Kiecza.net .

[13] "Open Mind Speech - Reconocimiento de voz libre para Linux" . freespeech.sourceforge.net .

[14] "Iniciativa de mente abierta" . Archivado desde el original el 5 de agosto de 2003 . Consultado el 16 de marzo de 2019 .

[15] "Perlbox.org Linux Speech Control y Voice Recognition" . perlbox.sourceforge.net .

[16] "Xvoice" . xvoice.sourceforge.net .

[17] (IAR), Roedder, Margit (26 de enero de 2018). "KIT - Kit de herramientas de reconocimiento de Janus" . isl.ira.uka.de .

[18] "WineHQ - Dragon naturalmente hablando" . appdb.winehq.org .

[1]