El índice de calidad del habla de los audífonos ( HASQI ) es una medida de la calidad del audio diseñada originalmente para evaluar la calidad del habla de las personas con audífonos . [1] [2] También se ha demostrado que es capaz de medir la calidad del audio para los sonidos que no son del habla y para los oyentes sin pérdida auditiva . [3]
Fondo
Si bien la percepción de la calidad del audio se puede medir mediante mediciones perceptivas, la prueba requiere mucho tiempo. En consecuencia, se han desarrollado una serie de métricas para permitir la evaluación de la calidad del audio sin la necesidad de una escucha humana. Los ejemplos estandarizados de telefonía incluyen PESQ , POLQA , PEVQ y PEAQ . HASQI fue desarrollado originalmente por Kates y Arehart para evaluar cómo las distorsiones introducidas por los audífonos degradan la calidad. [1] También produjeron una nueva versión en 2014. [2]
Kressner y col. [3] probó un corpus de habla diferente del conjunto de datos utilizado para desarrollar HASQI y mostró que el índice se generaliza bien para los oyentes sin pérdida auditiva con un rendimiento comparable al PESQ. Kendrick y col. [4] demostró que HASQI puede calificar la calidad de audio de la música y los sonidos cotidianos geofónicos, biofónicos y anrofónicos, aunque su estudio utilizó un conjunto más limitado de degradaciones.
Método
HASQI y su revisión de 2014 son métodos de doble final que requieren tanto una referencia limpia como la señal degradada para permitir la evaluación. El índice intenta capturar los efectos del ruido, la distorsión no lineal, el filtrado lineal y los cambios espectrales, calculando la diferencia o correlación entre las características de audio clave. Esto se hace examinando las envolventes de señales de corta duración para cuantificar la degradación causada por el ruido y el filtrado no lineal, y las envolventes de señales de larga duración para cuantificar los efectos del filtrado lineal. La versión 2 de HASQI incluye un modelo para capturar algunos aspectos del sistema auditivo periférico para oyentes tanto normales como con discapacidad auditiva.
Kendrick y col. desarrolló un método ciego (de un solo extremo), bHASQI, utilizando aprendizaje automático. Esto permite evaluar la calidad del audio solo a partir de la señal degradada sin necesidad de una referencia limpia. [4]
Ver también
Referencias
- ^ a b Kates, James; Arehart, Kathryn (2010). "El índice de calidad del habla de los audífonos (HASQI)". Revista de la Sociedad de Ingeniería de Audio . 58 (5): 363–381.
- ^ a b Kates, James; Arehart, Kathryn (2014). "El índice de calidad del habla de los audífonos (HASQI) versión 2". Revista de la Sociedad de Ingeniería de Audio . 62 (3): 99-117. doi : 10.17743 / jaes.2014.0006 .
- ^ a b Kressner, Abigail A .; Anderson, David V .; Rozell, Christopher J. (2013). "Evaluación de la generalización del índice de calidad del habla de los audífonos (HASQI)". Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 21 (2): 407. doi : 10.1109 / TASL.2012.2217132 .
- ^ a b Kendrick, Paul; Li, Francis; Fazenda, Bruno; Jackson, Iain; Cox, Trevor (2015). "Calidad de audio percibida de sonidos degradados por distorsiones no lineales y evaluación de un solo extremo mediante HASQI" . Revista de la Sociedad de Ingeniería de Audio . 63 (9): 698–712. doi : 10.17743 / jaes.2015.0068 .
enlaces externos
- Código para evaluar bHASQI Código fuente para detección ciega y medición de distorsión y recorte