La diarización ( o diarización ) del hablante es el proceso de dividir un flujo de audio de entrada en segmentos homogéneos de acuerdo con la identidad del hablante. Puede mejorar la legibilidad de una transcripción automática de voz al estructurar el flujo de audio en turnos de orador y, cuando se usa junto con sistemas de reconocimiento de orador , al proporcionar la verdadera identidad del orador. [1] Se utiliza para responder a la pregunta "¿quién habló cuándo?" [2] La clasificación de hablantes es una combinación de segmentación y agrupación de hablantes. El primero tiene como objetivo encontrar puntos de cambio de altavoz en un flujo de audio. El segundo tiene como objetivo agrupar segmentos de voz sobre la base de las características del hablante.
Con el creciente número de transmisiones, grabaciones de reuniones y mensajes de voz recopilados cada año, la agenda de los oradores ha recibido mucha atención por parte de la comunidad del habla, como se manifiesta en las evaluaciones específicas que se le dedican bajo los auspicios del Instituto Nacional de Estándares y Tecnología para la telefonía. discurso, difusión de noticias y reuniones. [3]
Principales tipos de sistemas de diarrea
En la diarización del hablante, uno de los métodos más populares es utilizar un modelo de mezcla gaussiana para modelar cada uno de los hablantes y asignar los marcos correspondientes para cada hablante con la ayuda de un modelo de Markov oculto . Hay dos tipos principales de escenarios de agrupamiento. El primero es, con mucho, el más popular y se llama Bottom-Up. El algoritmo comienza dividiendo el contenido de audio completo en una sucesión de grupos e intenta fusionar progresivamente los grupos redundantes para llegar a una situación en la que cada grupo corresponda a un hablante real. La segunda estrategia de agrupamiento se llama de arriba hacia abajo y comienza con un solo grupo para todos los datos de audio e intenta dividirlo iterativamente hasta llegar a un número de grupos igual al número de hablantes. Se puede encontrar una revisión de 2010 en [1].
Software de programación de oradores de código abierto
Existen algunas iniciativas de código abierto para la diarización de los oradores:
- ALIZE Speaker Diarization (última actualización del repositorio: julio de 2016; última versión: febrero de 2013, versión: 3.0): ALIZE Diarization System, desarrollado en la Universidad de Avignon, está disponible una versión 2.0 [2] .
- SpkDiarization (última versión: septiembre de 2013, versión: 8.4.1): herramienta LIUM_SpkDiarization [3] .
- Audioseg (última actualización del repositorio: mayo de 2014; última versión: enero de 2010, versión: 1.2): AudioSeg es un conjunto de herramientas dedicado a la segmentación y clasificación de audio de transmisiones de audio. [4] .
- SHoUT (última actualización: diciembre de 2010; versión: 0.3): SHoUT es un paquete de software desarrollado en la Universidad de Twente para ayudar en la investigación del reconocimiento de voz. SHoUT es un acrónimo holandés de Speech Recognition Research en la Universidad de Twente . [5]
- pyAudioAnalysis (última actualización del repositorio: agosto de 2018): Biblioteca de análisis de audio de Python: extracción de características, clasificación, segmentación y aplicaciones [6]
Referencias
- ^ Zhu, Xuan; Barras, Claude; Meignier, Sylvain; Gauvain, Jean-Luc. "Mejora del altavoz diarización mediante la identificación del hablante" . Consultado el 25 de enero de 2012 .
- ^ Kotti, Margarita; Moschou, Vassiliki; Kotropoulos, Constantine. "Agrupación y segmentación de altavoces" (PDF) . Consultado el 25 de enero de 2012 .
- ^ "Proyecto de evaluación de transcripciones enriquecidas" . NIST . Consultado el 25 de enero de 2012 .
Bibliografía
- Anguera, Xavier (2012). "La diarización del orador: una revisión de la investigación reciente" . Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . Transacciones IEEE / ACM sobre procesamiento de audio, habla y lenguaje. 20 (2): 356–370. CiteSeerX 10.1.1.470.6149 . doi : 10.1109 / TASL.2011.2125954 . ISSN 1558-7916 .
- Beigi, Homayoon (2011). Fundamentos del reconocimiento de hablantes . Nueva York: Springer. ISBN 978-0-387-77591-3.