Reconocimiento de locutor

El reconocimiento del hablante es la identificación de una persona a partir de las características de las voces. ^[1] Se utiliza para responder a la pregunta "¿Quién habla?" El término reconocimiento de voz ^[2]^[3]^[4]^[5]^[6] puede referirse al reconocimiento del hablante o al reconocimiento de voz . La verificación del hablante (también llamada autenticación del hablante ) contrasta con la identificación, y el reconocimiento del hablante difiere del registro del hablante (reconocer cuando el mismo hablante está hablando).

Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados en voces específicas o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad. El reconocimiento de oradores tiene una historia que se remonta a unas cuatro décadas a partir de 2019 y utiliza las características acústicas del habla que se han encontrado que difieren entre individuos. Estos patrones acústicos reflejan tanto la anatomía como los patrones de comportamiento aprendidos.

Verificación versus identificación

Hay dos aplicaciones principales de las tecnologías y metodologías de reconocimiento de hablantes. Si el hablante afirma tener cierta identidad y la voz se utiliza para verificar esta afirmación, esto se denomina verificación o autenticación . Por otro lado, la identificación es la tarea de determinar la identidad de un hablante desconocido. En cierto sentido, la verificación del hablante es una coincidencia 1: 1 en la que la voz de un hablante coincide con una plantilla en particular, mientras que la identificación del hablante es una coincidencia 1: N en la que la voz se compara con varias plantillas.

Desde una perspectiva de seguridad, la identificación es diferente a la verificación. La verificación de locutor se emplea generalmente como un "guardián" para proporcionar acceso a un sistema seguro. Estos sistemas operan con el conocimiento de los usuarios y generalmente requieren su cooperación. Los sistemas de identificación de oradores también se pueden implementar de forma encubierta sin el conocimiento del usuario para identificar a los oradores en una discusión, alertar a los sistemas automatizados de cambios de oradores, verificar si un usuario ya está inscrito en un sistema, etc.

En aplicaciones forenses, es común realizar primero un proceso de identificación de locutor para crear una lista de "mejores coincidencias" y luego realizar una serie de procesos de verificación para determinar una coincidencia concluyente. Trabajar para hacer coincidir las muestras del hablante con la lista de las mejores coincidencias ayuda a determinar si son la misma persona en función de la cantidad de similitudes o diferencias. La fiscalía y la defensa utilizan esto como prueba para determinar si el sospechoso es realmente el delincuente. ^[7]

Capacitación

Una de las primeras tecnologías de entrenamiento que se comercializaron se implementó en la muñeca Julie de Worlds of Wonder de 1987. En ese momento, la independencia de los hablantes era un avance previsto y los sistemas requerían un período de formación. Un anuncio de 1987 para la muñeca llevaba el lema "Finalmente, la muñeca que te entiende". - a pesar de que se describió como un producto "que los niños podían entrenar para responder a su voz". ^[8] El término reconocimiento de voz, incluso una década después, se refería a la independencia del hablante. ^[9]^{[ aclaración necesaria ]}

Variantes de reconocimiento del hablante

Cada sistema de reconocimiento de locutores tiene dos fases: inscripción y verificación. Durante la inscripción, se graba la voz del hablante y, por lo general, se extraen varias funciones para formar una impresión, plantilla o modelo de voz. En la fase de verificación, una muestra de voz o "enunciado" se compara con una impresión de voz creada previamente. Para los sistemas de identificación, el enunciado se compara con múltiples impresiones de voz para determinar las mejores coincidencias, mientras que los sistemas de verificación comparan un enunciado con una única impresión de voz. Debido al proceso involucrado, la verificación es más rápida que la identificación.

Los sistemas de reconocimiento de oradores se dividen en dos categorías: dependientes del texto e independientes del texto. ^[10]

Dependiente del texto:

Si el texto debe ser el mismo para la inscripción y la verificación, esto se denomina reconocimiento dependiente del texto. ^[11] En un sistema dependiente del texto, las indicaciones pueden ser comunes a todos los hablantes (por ejemplo, una frase de contraseña común) o únicas. Además, se puede emplear el uso de secretos compartidos (por ejemplo: contraseñas y PIN) o información basada en el conocimiento para crear un escenario de autenticación de múltiples factores .

Independiente del texto:

Los sistemas independientes del texto se utilizan con mayor frecuencia para la identificación del hablante, ya que requieren muy poca o ninguna cooperación por parte del hablante. En este caso, el texto durante la inscripción y la prueba es diferente. De hecho, la inscripción puede ocurrir sin el conocimiento del usuario, como en el caso de muchas aplicaciones forenses. Dado que las tecnologías independientes del texto no comparan lo que se dijo en el momento de la inscripción y la verificación, las aplicaciones de verificación tienden a emplear también el reconocimiento de voz para determinar lo que dice el usuario en el punto de autenticación.

En los sistemas independientes del texto se utilizan técnicas de análisis acústico y de voz . ^[12]

Tecnología

El reconocimiento de los hablantes es un problema de reconocimiento de patrones . Las diversas tecnologías utilizadas para impresiones de proceso y almacenamiento de voz incluyen estimación de las frecuencias , los modelos ocultos de Markov , modelos de mezcla de Gauss , coincidencia de patrones algoritmos, redes neuronales , representación de la matriz , la cuantificación vectorial y árboles de decisión . Para comparar expresiones con impresiones de voz, se utilizan tradicionalmente métodos más básicos como la similitud de coseno por su simplicidad y rendimiento. Algunos sistemas también utilizan técnicas "antihablantes" como los modelos de cohorte y los modelos mundiales. Las características espectrales se utilizan predominantemente para representar las características del hablante. ^[13] La codificación predictiva lineal (LPC) es un método de codificación de voz que se utiliza en el reconocimiento y la verificación de voz del hablante . ^[14]

Los niveles de ruido ambiental pueden impedir la recopilación de muestras de voz iniciales y posteriores. Se pueden emplear algoritmos de reducción de ruido para mejorar la precisión, pero una aplicación incorrecta puede tener el efecto contrario. La degradación del rendimiento puede resultar de cambios en los atributos de comportamiento de la voz y de la inscripción usando un teléfono y la verificación en otro teléfono. Se espera que aumente la integración con productos de autenticación de dos factores . Los cambios de voz debido al envejecimiento pueden afectar el rendimiento del sistema a lo largo del tiempo. Algunos sistemas adaptan los modelos de locutor después de cada verificación exitosa para capturar esos cambios a largo plazo en la voz, aunque existe un debate sobre el impacto de seguridad general impuesto por la adaptación automatizada ^{[ cita requerida ]}

Implicaciones legales

Debido a la introducción de legislación como el Reglamento General de Protección de Datos en la Unión Europea y la Ley de Privacidad del Consumidor de California en los Estados Unidos, ha habido mucha discusión sobre el uso del reconocimiento de oradores en el lugar de trabajo. En septiembre de 2019, el desarrollador irlandés de reconocimiento de voz Soapbox Labs advirtió sobre las implicaciones legales que pueden estar involucradas. ^[15]

Aplicaciones

La primera patente internacional se presentó en 1983, procedente de la investigación de telecomunicaciones en CSELT ^[16] (Italia) por Michele Cavazza y Alberto Ciaramella como base para los futuros servicios de telecomunicaciones a los clientes finales y para mejorar las técnicas de reducción de ruido en toda la red. .

Entre 1996 y 1998, la tecnología de reconocimiento de altavoces se utilizó en el cruce fronterizo de Scobey-Coronach para permitir que los residentes locales inscritos sin nada que declarar pudieran cruzar la frontera entre Canadá y Estados Unidos cuando las estaciones de inspección estaban cerradas por la noche. ^[17] El sistema fue desarrollado para el Servicio de Inmigración y Naturalización de Estados Unidos por Voice Strategies de Warren, Michigan. ^{[ cita requerida ]}

En mayo de 2013, se anunció que Barclays Wealth utilizaría el reconocimiento pasivo de altavoces para verificar la identidad de los clientes telefónicos dentro de los 30 segundos de una conversación normal. ^[18] El sistema utilizado había sido desarrollado por la empresa de reconocimiento de voz Nuance (que en 2011 adquirió la empresa Loquendo , la escisión de la propia CSELT para la tecnología de voz), la empresa detrás de la tecnología Siri de Apple . Se iba a utilizar una huella de voz verificada para identificar a las personas que llamaban al sistema y, en el futuro, el sistema se implementaría en toda la empresa.

La división de banca privada de Barclays fue la primera empresa de servicios financieros en implementar la biometría de voz como medio principal para autenticar a los clientes en sus centros de llamadas . El 93% de los usuarios de los clientes calificaron el sistema como "9 sobre 10" por su velocidad, facilidad de uso y seguridad. ^[19]

El reconocimiento de oradores también se puede utilizar en investigaciones penales, como las de las ejecuciones de 2014 de, entre otros, James Foley y Steven Sotloff . ^[20]

En febrero de 2016, el banco HSBC del Reino Unido y su banco minorista basado en Internet First Direct anunciaron que ofrecería a 15 millones de clientes su software bancario biométrico para acceder a cuentas telefónicas y en línea utilizando su huella digital o voz. ^[21]

Ver también

Efecto AI
Aplicaciones de la inteligencia artificial
Diaria del orador
Reconocimiento de voz
Cambiador de voz

Liza

Lista de tecnologías emergentes
Esquema de la inteligencia artificial

Notas

^ Poddar, Arnab; Sahidullah, Md; Saha, Goutam (marzo de 2018). "Verificación de locutor con declaraciones breves: una revisión de desafíos, tendencias y oportunidades". IET Biometrics . 7 (2): 91–101. doi : 10.1049 / iet-bmt.2017.0065 .
^ Pollack, Pickett, Sumby (1974). Fonética experimental . Corporación de Información MSS. págs. 251-258. ISBN 978-0-8422-5149-5.CS1 maint: varios nombres: lista de autores ( enlace )
^ Van Lancker y Kreiman (3 de julio de 1984). "Reconocimiento de voces familiares: Patrones y parámetros. Parte I: Reconocimiento de voces al revés" (PDF) . Revista de Fonética. págs. 19–38 . Consultado el 21 de febrero de 2012 .
^ "Definición de reconocimiento de voz en inglés británico" . Macmillan Publishers Limited . Consultado el 21 de febrero de 2012 .
^ "reconocimiento de voz, definición de" . WebFinance, Inc . Consultado el 21 de febrero de 2012 .
^ "Gaceta de Linux 114" . Gaceta de Linux . Consultado el 21 de febrero de 2012 .
^ Rose, Phil; Osanai, Takashi; Kinoshita, Yuko (diciembre de 2003). "Fuerza de la evidencia de identificación de locutor forense: discriminación segmentaria basada en formantes y cepstrum de múltiples hablantes con una razón de verosimilitud bayesiana como umbral" . Revista internacional de habla, lenguaje y derecho - Lingüística forense . 10 (2): 179–202. doi : 10.1558 / sll.2003.10.2.179 . ISSN 1350-1771 .
^ Melanie Pinola (2 de noviembre de 2011). "Reconocimiento de voz a través de las décadas: cómo terminamos con Siri" . PC World .
^ "Reconocimiento de voz para facilitar las reservas de viajes: noticias de viajes de negocios" . BusinessTravelNews.com . 3 de marzo de 1997. Las primeras aplicaciones del software de reconocimiento de voz fueron el dictado ... Hace cuatro meses, IBM presentó un "producto de dictado continuo" diseñado para ... debutó en la feria comercial de la Asociación Nacional de Viajes de Negocios en 1994.
^ "Verificación del hablante: dependiente del texto frente a independiente del texto" . microsoft.com . 20 de agosto de 2006. Hablante dependiente e independiente del texto ... igual tasa de error y detección ...
^ M. Hebert (2008). "Reconocimiento de locutor dependiente del texto". Manual de procesamiento del habla de Springer . Manuales de Springer. págs. 743–762. doi : 10.1007 / 978-3-540-49127-9_37 . ISBN 978-3-540-49125-5. tarea .. verificación o identificación
^ Lisa Myers (19 de abril de 2004). "Una exploración de la biometría de voz" .
^ Sahidullah, Md .; Kinnunen, Tomi (marzo de 2016). "Características de variabilidad espectral local para la verificación del hablante" . Procesamiento de señales digitales . 50 : 1-11. doi : 10.1016 / j.dsp.2015.10.011 .
^ Gupta, Shipra (mayo de 2016). "Aplicación de MFCC en reconocimiento de oradores independientes de texto" (PDF) . Revista Internacional de Investigación Avanzada en Ciencias de la Computación e Ingeniería de Software . 6 (5): 805–810 (806). ISSN 2277-128X . Archivado desde el original (PDF) el 18 de octubre de 2019 . Consultado el 18 de octubre de 2019 .
^ "Experto en reconocimiento de voz plantea preocupaciones sobre la tecnología de voz en el lugar de trabajo" . Independiente, es decir . Consultado el 30 de septiembre de 2019 .
^ US4752958 A, Michele Cavazza, Alberto Ciaramella, "Dispositivo para la verificación del hablante" http://www.google.com/patents/US4752958?hl=it&cl=en
^ Meyer, Barb (12 de junio de 1996). "Cruce de fronteras automatizado". Informe de noticias de televisión . Noticias de Meyer Television.
^ Banca Internacional (27 de diciembre de 2013). "Tecnología biométrica de voz en la banca | Barclays" . Wealth.barclays.com . Consultado el 21 de febrero de 2016 .
^ Matt Warman (8 de mayo de 2013). "Diga adiós al pin: el reconocimiento de voz se hace cargo de Barclays Wealth" . Consultado el 5 de junio de 2013 .
^ Ewen MacAskill. "¿'Jihadista John' mató a Steven Sotloff? | Medios" . The Guardian . Consultado el 21 de febrero de 2016 .
^ Julia Kollewe (19 de febrero de 2016). "HSBC implementa seguridad de identificación táctil y de voz para clientes bancarios | Negocios" . The Guardian . Consultado el 21 de febrero de 2016 .

Referencias

Homayoon Beigi (2011), " Fundamentals of Speaker Recognition ", Springer-Verlag, Berlín, 2011, ISBN 978-0-387-77591-3 .
"Biometría de las películas" - Instituto Nacional de Estándares y Tecnología
Elisabeth Zetterholm (2003), Imitación de voz. Un estudio fonético de las ilusiones perceptivas y el éxito acústico , tesis doctoral, Universidad de Lund .
Md Sahidullah (2015), Mejora del rendimiento en el reconocimiento del hablante mediante el nivel de bloque, información relativa y temporal de energías de subbanda , tesis doctoral, Instituto Indio de Tecnología Kharagpur .

enlaces externos

Eludir la autenticación de voz El podcast de PLA Radio presentó recientemente una forma sencilla de engañar a los sistemas de autenticación de voz rudimentarios.
Reconocimiento de oradores - Scholarpedia
Beneficios y desafíos del reconocimiento de voz en el control de acceso

Software

bob.bio.spear
ALIZE

[1] Poddar, Arnab; Sahidullah, Md; Saha, Goutam (marzo de 2018). "Verificación de locutor con declaraciones breves: una revisión de desafíos, tendencias y oportunidades". IET Biometrics . 7 (2): 91–101. doi : 10.1049 / iet-bmt.2017.0065 .

[Experimental_phonetics-2] Pollack, Pickett, Sumby (1974). Fonética experimental . Corporación de Información MSS. págs. 251-258. ISBN 978-0-8422-5149-5.CS1 maint: varios nombres: lista de autores ( enlace )

[Familiar_voice_recognition:_Patterns_and_parameters._Part_I:_Recognition_of_backward_voices-3] Van Lancker y Kreiman (3 de julio de 1984). "Reconocimiento de voces familiares: Patrones y parámetros. Parte I: Reconocimiento de voces al revés" (PDF) . Revista de Fonética. págs. 19–38 . Consultado el 21 de febrero de 2012 .

[Macmillan_Brit._def_of_voice_recognition-4] "Definición de reconocimiento de voz en inglés británico" . Macmillan Publishers Limited . Consultado el 21 de febrero de 2012 .

[Voice_recognition,_definition-5] "reconocimiento de voz, definición de" . WebFinance, Inc . Consultado el 21 de febrero de 2012 .

[mail_bag,_gazette-6] "Gaceta de Linux 114" . Gaceta de Linux . Consultado el 21 de febrero de 2012 .

[7] Rose, Phil; Osanai, Takashi; Kinoshita, Yuko (diciembre de 2003). "Fuerza de la evidencia de identificación de locutor forense: discriminación segmentaria basada en formantes y cepstrum de múltiples hablantes con una razón de verosimilitud bayesiana como umbral" . Revista internacional de habla, lenguaje y derecho - Lingüística forense . 10 (2): 179–202. doi : 10.1558 / sll.2003.10.2.179 . ISSN 1350-1771 .

[PCW.Siri-8] Melanie Pinola (2 de noviembre de 2011). "Reconocimiento de voz a través de las décadas: cómo terminamos con Siri" . PC World .

[9] "Reconocimiento de voz para facilitar las reservas de viajes: noticias de viajes de negocios" . BusinessTravelNews.com . 3 de marzo de 1997. Las primeras aplicaciones del software de reconocimiento de voz fueron el dictado ... Hace cuatro meses, IBM presentó un "producto de dictado continuo" diseñado para ... debutó en la feria comercial de la Asociación Nacional de Viajes de Negocios en 1994.

[10] "Verificación del hablante: dependiente del texto frente a independiente del texto" . microsoft.com . 20 de agosto de 2006. Hablante dependiente e independiente del texto ... igual tasa de error y detección ...

[11] M. Hebert (2008). "Reconocimiento de locutor dependiente del texto". Manual de procesamiento del habla de Springer . Manuales de Springer. págs. 743–762. doi : 10.1007 / 978-3-540-49127-9_37 . ISBN 978-3-540-49125-5. tarea .. verificación o identificación

[12] Lisa Myers (19 de abril de 2004). "Una exploración de la biometría de voz" .

[13] Sahidullah, Md .; Kinnunen, Tomi (marzo de 2016). "Características de variabilidad espectral local para la verificación del hablante" . Procesamiento de señales digitales . 50 : 1-11. doi : 10.1016 / j.dsp.2015.10.011 .

[14] Gupta, Shipra (mayo de 2016). "Aplicación de MFCC en reconocimiento de oradores independientes de texto" (PDF) . Revista Internacional de Investigación Avanzada en Ciencias de la Computación e Ingeniería de Software . 6 (5): 805–810 (806). ISSN 2277-128X . Archivado desde el original (PDF) el 18 de octubre de 2019 . Consultado el 18 de octubre de 2019 .

[15] "Experto en reconocimiento de voz plantea preocupaciones sobre la tecnología de voz en el lugar de trabajo" . Independiente, es decir . Consultado el 30 de septiembre de 2019 .

[16] US4752958 A, Michele Cavazza, Alberto Ciaramella, "Dispositivo para la verificación del hablante" http://www.google.com/patents/US4752958?hl=it&cl=en

[17] Meyer, Barb (12 de junio de 1996). "Cruce de fronteras automatizado". Informe de noticias de televisión . Noticias de Meyer Television.

[18] Banca Internacional (27 de diciembre de 2013). "Tecnología biométrica de voz en la banca | Barclays" . Wealth.barclays.com . Consultado el 21 de febrero de 2016 .

[19] Matt Warman (8 de mayo de 2013). "Diga adiós al pin: el reconocimiento de voz se hace cargo de Barclays Wealth" . Consultado el 5 de junio de 2013 .

[20] Ewen MacAskill. "¿'Jihadista John' mató a Steven Sotloff? | Medios" . The Guardian . Consultado el 21 de febrero de 2016 .

[21] Julia Kollewe (19 de febrero de 2016). "HSBC implementa seguridad de identificación táctil y de voz para clientes bancarios | Negocios" . The Guardian . Consultado el 21 de febrero de 2016 .

[1]