Diaria del orador

La diarización ( o diarización ) del hablante es el proceso de dividir un flujo de audio de entrada en segmentos homogéneos de acuerdo con la identidad del hablante. Puede mejorar la legibilidad de una transcripción automática de voz al estructurar el flujo de audio en turnos de orador y, cuando se usa junto con sistemas de reconocimiento de orador , al proporcionar la verdadera identidad del orador. ^[1] Se utiliza para responder a la pregunta "¿quién habló cuándo?" ^{[2] La} clasificación de hablantes es una combinación de segmentación y agrupación de hablantes. El primero tiene como objetivo encontrar puntos de cambio de altavoz en una transmisión de audio. El segundo tiene como objetivo agrupar segmentos de voz sobre la base de las características del hablante.

Con el creciente número de transmisiones, grabaciones de reuniones y mensajes de voz recopilados cada año, la agenda de los oradores ha recibido mucha atención por parte de la comunidad del habla, como se manifiesta en las evaluaciones específicas que se le dedican bajo los auspicios del Instituto Nacional de Estándares y Tecnología para la telefonía. discurso, difusión de noticias y reuniones. ^[3]

En la diarización del hablante, uno de los métodos más populares es utilizar un modelo de mezcla gaussiana para modelar cada uno de los hablantes y asignar los marcos correspondientes a cada hablante con la ayuda de un modelo de Markov oculto . Hay dos tipos principales de escenarios de agrupamiento. El primero es, con mucho, el más popular y se llama Bottom-Up. El algoritmo comienza dividiendo el contenido de audio completo en una sucesión de grupos y progresivamente intenta fusionar los grupos redundantes para llegar a una situación en la que cada grupo corresponda a un hablante real. La segunda estrategia de agrupamiento se llama de arriba hacia abajoy comienza con un solo grupo para todos los datos de audio e intenta dividirlo iterativamente hasta llegar a un número de grupos igual al número de hablantes. Se puede encontrar una revisión de 2010 en [1]