Detección de actividad de voz

La detección de actividad de voz ( VAD ), también conocida como detección de actividad de voz o detección de voz , es la detección de la presencia o ausencia de voz humana, utilizada en el procesamiento de voz . ^[1] Los principales usos de VAD son la codificación y el reconocimiento de voz . Puede facilitar el procesamiento de voz y también se puede utilizar para desactivar algunos procesos durante la sección que no es de voz de una sesión de audio: puede evitar la codificación / transmisión innecesaria de paquetes de silencio en aplicaciones de Voz sobre Protocolo de Internet (VoIP), ahorrando en computación y ancho de banda de la red .

VAD es una tecnología habilitadora importante para una variedad de aplicaciones basadas en voz. Por lo tanto, se han desarrollado varios algoritmos VAD que brindan características variables y compromisos entre latencia , sensibilidad , precisión y costo computacional. Algunos algoritmos VAD también proporcionan un análisis adicional, por ejemplo, si el habla es sonora , sorda o sostenida . La detección de actividad de voz suele ser independiente del idioma.

Primero se investigó para su uso en sistemas de interpolación de voz por asignación de tiempo (TASI). ^[2]

Descripción general del algoritmo

El diseño típico de un algoritmo VAD es el siguiente: ^{[ cita requerida ]}

En primer lugar, puede haber una etapa de reducción de ruido, por ejemplo, mediante sustracción espectral .
Luego, algunas características o cantidades se calculan a partir de una sección de la señal de entrada.
Se aplica una regla de clasificación para clasificar la sección como hablada o no hablada; a menudo, esta regla de clasificación detecta cuando un valor supera un umbral.

Puede haber alguna retroalimentación en esta secuencia, en la que la decisión de VAD se usa para mejorar la estimación de ruido en la etapa de reducción de ruido, o para variar adaptativamente el umbral o los umbrales. Estas operaciones de retroalimentación mejoran el rendimiento del VAD en ruido no estacionario (es decir, cuando el ruido varía mucho). ^{[ cita requerida ]}

Un conjunto representativo de métodos VAD publicados recientemente formula la regla de decisión cuadro por cuadro utilizando medidas instantáneas de la distancia de divergencia entre el habla y el ruido. ^{[ cita requerida ]} Las diferentes medidas que se utilizan en los métodos VAD incluyen la pendiente espectral , los coeficientes de correlación, la razón de probabilidad logarítmica, cepstral, cepstral ponderado y medidas de distancia modificadas. ^{[ cita requerida ]}

Independientemente de la elección del algoritmo VAD, se debe hacer un compromiso entre que la voz se detecte como ruido o el ruido se detecte como voz (entre falso positivo y falso negativo ). Un VAD que funcione en un teléfono móvil debe poder detectar el habla en presencia de una gama de muy diversos tipos de ruido de fondo acústico. En estas difíciles condiciones de detección, a menudo es preferible que un VAD sea a prueba de fallos , lo que indica la detección de voz cuando la decisión está en duda, para reducir la posibilidad de perder segmentos de voz. La mayor dificultad en la detección del habla en este entorno son las relaciones señal-ruido (SNR) muy bajas que se encuentran. Puede resultar imposible distinguir entre el habla y el ruido utilizando técnicas simples de detección de nivel cuando partes del enunciado del habla están enterradas debajo del ruido.

Aplicaciones

VAD es una parte integral de los diferentes sistemas de comunicación de voz, tales como conferencias de audio , cancelación de eco , reconocimiento de voz , codificación de voz , reconocimiento del hablante y manos libres de telefonía .
En el campo de las aplicaciones multimedia, VAD permite aplicaciones simultáneas de voz y datos.
De manera similar, en los sistemas de telecomunicaciones móviles universales (UMTS), controla y reduce la tasa de bits promedio y mejora la calidad de codificación general de la voz.
En los sistemas de radio celular (por ejemplo, los sistemas GSM y CDMA ) basados en el modo de transmisión discontinua (DTX), VAD es esencial para mejorar la capacidad del sistema al reducir la interferencia cocanal y el consumo de energía en dispositivos digitales portátiles.
En las aplicaciones de procesamiento de voz, la detección de la actividad de la voz juega un papel importante ya que a menudo se descartan las tramas que no son de voz.

Para una amplia gama de aplicaciones tales como radio móvil digital, voz y datos simultáneos digitales (DSVD) o almacenamiento de voz, es deseable proporcionar una transmisión discontinua de parámetros de codificación de voz. Las ventajas pueden incluir un menor consumo de energía promedio en teléfonos móviles, una tasa de bits promedio más alta para servicios simultáneos como transmisión de datos o una mayor capacidad en chips de almacenamiento . Sin embargo, la mejora depende principalmente del porcentaje de pausas durante el habla y la fiabilidad del VAD utilizado para detectar estos intervalos. Por un lado, es ventajoso tener un porcentaje bajo de actividad del habla. Por otro lado, el recorte, es decir, la pérdida de milisegundos de voz activa, debe minimizarse para preservar la calidad. Este es el problema crucial para un algoritmo VAD en condiciones de mucho ruido.

Uso en telemarketing

Una aplicación controvertida de VAD es junto con los marcadores predictivos utilizados por las empresas de telemercadeo. Para maximizar la productividad de los agentes, las empresas de telemercadeo configuran marcadores predictivos para llamar a más números de los que tienen agentes disponibles, sabiendo que la mayoría de las llamadas terminarán en "Ring - No Answer" o en contestadores automáticos. Cuando una persona responde, normalmente habla brevemente (" Hola ", " Buenas noches ", etc.) y luego hay un breve período de silencio. Los mensajes del contestador automático suelen ser de 3 a 15 segundos de habla continua. Al configurar los parámetros de VAD correctamente, los marcadores pueden determinar si una persona o una máquina respondió la llamada y, si es una persona, transferir la llamada a un agente disponible. Si detecta un mensaje en el contestador automático, el marcador cuelga. A menudo, incluso cuando el sistema detecta correctamente a una persona que responde a la llamada, es posible que no haya ningún agente disponible, lo que resulta en una " llamada silenciosa ". El filtrado de llamadas con un mensaje de varios segundos como "por favor, diga quién es y puedo descolgar el teléfono" frustrará esas llamadas automatizadas. ^{[ cita requerida ]}

Evaluación del desempeño

Para evaluar un VAD, su salida mediante grabaciones de prueba se compara con las de un VAD "ideal", creado mediante la anotación manual de la presencia o ausencia de voz en las grabaciones. El rendimiento de un VAD se evalúa comúnmente sobre la base de los siguientes cuatro parámetros: ^[3]

FEC (Front End Clipping): recorte introducido al pasar del ruido a la actividad del habla;
MSC (Mid Speech Clipping): recorte debido a que el habla está mal clasificada como ruido;
OVER: ruido interpretado como habla debido a que la bandera VAD permanece activa al pasar de la actividad del habla al ruido;
NDS (ruido detectado como habla): ruido interpretado como habla dentro de un período de silencio.

Aunque el método descrito anteriormente proporciona información objetiva útil sobre el rendimiento de un VAD, es solo una medida aproximada del efecto subjetivo. Por ejemplo, los efectos del recorte de la señal de voz a veces pueden ocultarse por la presencia de ruido de fondo, dependiendo del modelo elegido para la síntesis de ruido de confort, por lo que parte del recorte medido con pruebas objetivas en realidad no es audible. Por tanto, es importante realizar pruebas subjetivas en los DAV, cuyo principal objetivo es asegurar que el recorte percibido sea aceptable. Este tipo de prueba requiere que un cierto número de oyentes juzguen las grabaciones que contienen los resultados de procesamiento de los VAD que se están probando, dando puntos a varias secuencias de voz en las siguientes características:

Calidad;
Dificultad de comprensión;
Audibilidad de recorte.

Luego, estas marcas se utilizan para calcular los resultados promedio para cada una de las características enumeradas anteriormente, proporcionando así una estimación global del comportamiento del VAD que se está probando.

Para concluir, mientras que los métodos objetivos son muy útiles en una etapa inicial para evaluar la calidad de un VAD, los métodos subjetivos son más significativos. Como requieren la participación de varias personas durante unos días, lo que aumenta el costo, generalmente solo se utilizan cuando una propuesta está a punto de ser estandarizada.

Implementaciones

Uno de los primeros VAD estándar es el desarrollado por British Telecom para su uso en el servicio paneuropeo de telefonía móvil celular digital en 1991. Utiliza filtrado inverso entrenado en segmentos que no son de voz para filtrar el ruido de fondo, de modo que pueda utilizar un umbral de potencia simple para decidir si hay una voz presente. ^[4]
El estándar G.729 calcula las siguientes características para su VAD: frecuencias espectrales de línea , energía de banda completa, energía de banda baja (<1 kHz) y tasa de cruce por cero . Aplica una clasificación simple usando un límite de decisión fijo en el espacio definido por estas características y luego aplica suavizado y corrección adaptativa para mejorar la estimación. ^[5]
El estándar GSM incluye dos opciones de VAD desarrolladas por ETSI . ^{[6] La} opción 1 calcula la SNR en nueve bandas y aplica un umbral a estos valores. La opción 2 calcula diferentes parámetros: potencia del canal, métricas de voz y potencia de ruido. Luego establece el umbral de las métricas de voz utilizando un umbral que varía según la SNR estimada.
La biblioteca de compresión de audio de Speex utiliza un procedimiento denominado Promedio recursivo controlado de mínimos mejorados , que utiliza una representación suavizada de la potencia espectral y luego observa los mínimos de un periodograma suavizado . ^[7] Desde la versión 1.2 fue reemplazado por lo que el autor llamó un kludge . ^[8]

Ver también

Charla
Ruido de confort

Referencias

^ Manoj Bhatia; Jonathan Davidson; Satish Kalidindi; Sudipto Mukherjee; James Peters (20 de octubre de 2006). "VoIP: un análisis en profundidad - detección de actividad de voz" . Cisco .
^ Ravi Ramachandran; Richard Mammone (6 de diciembre de 2012). Métodos modernos de procesamiento del habla . Springer Science & Business Media. págs. 102–. ISBN 978-1-4615-2281-2.
^ Beritelli, F .; Casale, S .; Ruggeri, G .; Serrano, S. (marzo de 2002). "Evaluación de rendimiento y comparación de detectores de actividad de voz G.729 / AMR / fuzzy". Cartas de procesamiento de señales IEEE . 9 (3): 85–88. Código bibliográfico : 2002ISPL .... 9 ... 85B . doi : 10.1109 / 97.995824 . S2CID 16724847 .
^ Freeman, DK (mayo de 1989). "El detector de actividad de voz para el servicio paneuropeo de telefonía móvil celular digital". Proc. Conferencia internacional sobre acústica, habla y procesamiento de señales (ICASSP-89) . 1 . págs. 369–372. doi : 10.1109 / ICASSP.1989.266442 .
^ Benyassine, A .; Shlomot, E .; Huan-yu Su; Massaloux, D .; Lamblin, C .; Petit, J.-P. (Septiembre de 1997). "Recomendación UIT-T G.729, anexo B: esquema de compresión de silencio para su uso con G.729 optimizado para aplicaciones digitales de voz y datos simultáneos V.70". Revista de comunicaciones IEEE . 35 (9): 64–73. doi : 10.1109 / 35.620527 .
^ ETSI (1999). "GSM 06.42, sistema de telecomunicaciones celulares digitales (fase 2+); voz de media velocidad; detector de actividad de voz (VAD) para canales de tráfico de voz de media velocidad". 8.0.1. ETSI. Cite journal requiere |journal=( ayuda )
^ Cohen, I. (septiembre de 2003). "Estimación del espectro de ruido en entornos adversos: promedios recursivos controlados de mínimos mejorados". Transacciones IEEE sobre procesamiento de voz y audio . 11 (5): 466–475. CiteSeerX 10.1.1.620.8768 . doi : 10.1109 / TSA.2003.811544 .
^ "Algoritmo Speex VAD" .

Estándares mínimos de rendimiento de DMA para la operación de transmisión discontinua de estaciones móviles TIA doc. y base de datos IS-727, junio de 1998.
MY Appiah, M. Sasikath, R. Makrickaite, M. Gusaite, "Mecanismo robusto de detección de actividad de voz y reducción de ruido ( PDF )", Instituto de Sistemas Electrónicos, Universidad de Aalborg
XL Liu, Y. Liang, YH Lou, H. Li, BS Shan, Detector de actividad de voz resistente al ruido basado en modelos ocultos de Semi-Markov , Proc. ICPR'10 , 81–84.

[1] Manoj Bhatia; Jonathan Davidson; Satish Kalidindi; Sudipto Mukherjee; James Peters (20 de octubre de 2006). "VoIP: un análisis en profundidad - detección de actividad de voz" . Cisco .

[RamachandranMammone2012-2] Ravi Ramachandran; Richard Mammone (6 de diciembre de 2012). Métodos modernos de procesamiento del habla . Springer Science & Business Media. págs. 102–. ISBN 978-1-4615-2281-2.

[beritellietal-3] Beritelli, F .; Casale, S .; Ruggeri, G .; Serrano, S. (marzo de 2002). "Evaluación de rendimiento y comparación de detectores de actividad de voz G.729 / AMR / fuzzy". Cartas de procesamiento de señales IEEE . 9 (3): 85–88. Código bibliográfico : 2002ISPL .... 9 ... 85B . doi : 10.1109 / 97.995824 . S2CID 16724847 .

[bt91-4] Freeman, DK (mayo de 1989). "El detector de actividad de voz para el servicio paneuropeo de telefonía móvil celular digital". Proc. Conferencia internacional sobre acústica, habla y procesamiento de señales (ICASSP-89) . 1 . págs. 369–372. doi : 10.1109 / ICASSP.1989.266442 .

[g279b-5] Benyassine, A .; Shlomot, E .; Huan-yu Su; Massaloux, D .; Lamblin, C .; Petit, J.-P. (Septiembre de 1997). "Recomendación UIT-T G.729, anexo B: esquema de compresión de silencio para su uso con G.729 optimizado para aplicaciones digitales de voz y datos simultáneos V.70". Revista de comunicaciones IEEE . 35 (9): 64–73. doi : 10.1109 / 35.620527 .

[gsmvad-6] ETSI (1999). "GSM 06.42, sistema de telecomunicaciones celulares digitales (fase 2+); voz de media velocidad; detector de actividad de voz (VAD) para canales de tráfico de voz de media velocidad". 8.0.1. ETSI. Cite journal requiere |journal=( ayuda )

[speex-imcra-7] Cohen, I. (septiembre de 2003). "Estimación del espectro de ruido en entornos adversos: promedios recursivos controlados de mínimos mejorados". Transacciones IEEE sobre procesamiento de voz y audio . 11 (5): 466–475. CiteSeerX 10.1.1.620.8768 . doi : 10.1109 / TSA.2003.811544 .

[speexvad-8] "Algoritmo Speex VAD" .

[1]