Reconocimiento de orador

El reconocimiento de locutor es la identificación de una persona a partir de las características de las voces. ^[1] Se utiliza para responder a la pregunta "¿Quién habla?" El término reconocimiento de voz ^[2]^[3]^[4]^[5]^[6] puede referirse al reconocimiento del hablante o al reconocimiento de voz . La verificación del hablante (también llamada autenticación del hablante ) contrasta con la identificación, y el reconocimiento del hablante difiere de la diarización del hablante (reconocer cuando habla el mismo hablante).

Reconocer al hablante puede simplificar la tarea de traducir el habla en sistemas que han sido entrenados en voces específicas o puede usarse para autenticar o verificar la identidad de un hablante como parte de un proceso de seguridad. El reconocimiento de hablantes tiene una historia que se remonta a unas cuatro décadas a partir de 2019 y utiliza las características acústicas del habla que difieren entre individuos. Estos patrones acústicos reflejan tanto la anatomía como los patrones de comportamiento aprendidos.

Hay dos aplicaciones principales de las tecnologías y metodologías de reconocimiento de hablantes. Si el hablante afirma tener una determinada identidad y se utiliza la voz para verificar esta afirmación, esto se denomina verificación o autenticación . Por otro lado, la identificación es la tarea de determinar la identidad de un hablante desconocido. En cierto sentido, la verificación del hablante es una coincidencia 1:1 en la que la voz de un hablante se compara con una plantilla en particular, mientras que la identificación del hablante es una coincidencia 1:N en la que la voz se compara con varias plantillas.

Desde una perspectiva de seguridad, la identificación es diferente de la verificación. La verificación del hablante generalmente se emplea como un "guardián" para proporcionar acceso a un sistema seguro. Estos sistemas operan con el conocimiento de los usuarios y típicamente requieren su cooperación. Los sistemas de identificación de oradores también se pueden implementar de forma encubierta sin el conocimiento del usuario para identificar a los oradores en una discusión, alertar a los sistemas automatizados de cambios de oradores, verificar si un usuario ya está inscrito en un sistema, etc.

En las aplicaciones forenses, es común realizar primero un proceso de identificación de hablantes para crear una lista de "mejores coincidencias" y luego realizar una serie de procesos de verificación para determinar una coincidencia concluyente. Trabajar para hacer coincidir las muestras del orador con la lista de mejores coincidencias ayuda a determinar si son la misma persona en función de la cantidad de similitudes o diferencias. La acusación y la defensa usan esto como evidencia para determinar si el sospechoso es realmente el delincuente. ^[7]

Una de las primeras tecnologías de entrenamiento que se comercializó se implementó en la muñeca Julie de 1987 de Worlds of Wonder . En ese momento, la independencia de los hablantes era un avance intencionado y los sistemas requerían un período de entrenamiento. Un anuncio de 1987 de la muñeca tenía el lema "Finalmente, la muñeca que te entiende". - a pesar de que se describió como un producto "que los niños podrían entrenar para responder a su voz". ^[8] El término reconocimiento de voz, incluso una década después, se refería a la independencia del hablante. ^[9]^{[ aclaración necesaria ]}