Medida de la calidad del habla perceptual

La medida de calidad de la voz perceptual ( PSQM ) es un algoritmo computacional y de modelado definido en la Recomendación UIT-T P.861 que evalúa y cuantifica objetivamente la calidad de voz de los códecs de voz en banda de voz (300 - 3400 Hz) . Puede usarse para clasificar el rendimiento de estos códecs de voz con diferentes niveles de entrada de voz, hablantes, velocidades de bits y transcodificaciones. La P.861 fue retirada y reemplazada por la Recomendación UIT-T P.862 ( PESQ ), que contiene un algoritmo de evaluación de la voz mejorado.

El uso del estándar PSQM permite que las metodologías de prueba automatizadas, basadas en simulación, califiquen objetivamente tanto la claridad del habla como la calidad de la voz transmitida. Se han desarrollado varios productos de software y / o hardware para facilitar esta prueba. Esto se traduce en ahorros considerables en costos y tiempo en comparación con la práctica tradicional de utilizar grandes grupos de personas para evaluar subjetivamente las señales de voz y evaluar la calidad de la voz. Además, produce resultados objetivos que son fiables y reproducibles. Esto es muy importante para los proveedores de telefonía que tienen el mandato de mantener altos estándares de calidad de servicio .

PSQM utiliza un algoritmo de modelado matemático psicoacústico (tanto perceptivo como cognitivo) para analizar las señales de voz pre y post transmitidas, obteniendo un valor de PSQM que es una medida de la degradación de la calidad de la señal y varía de 0 (sin degradación) a 6,5 (mayor degradación). A su vez, este resultado puede traducirse en una puntuación de opinión media (MOS), que es una medida aceptada de la calidad percibida de los medios recibidos en una escala numérica que va del 1 al 5. Un valor de 1 indica una voz inaceptable y de mala calidad, mientras que un valor de 5 indica una alta calidad de voz sin problemas perceptibles.

El algoritmo PSQM convierte la (s) señal (es) del dominio físico en el dominio psicoacústico perceptualmente significativo a través de una serie de procesos no lineales tales como mapeo de frecuencia de tiempo, deformación de frecuencia y deformación de intensidad.

La calidad del discurso codificado se juzga en función de las diferencias en la representación interna. La diferencia se utiliza para calcular la perturbación del ruido en función del tiempo y la frecuencia. Además del modelado perceptual, el algoritmo PSQM utiliza modelado cognitivo como escalado de sonoridad y enmascaramiento asimétrico para obtener altas correlaciones entre medidas subjetivas y objetivas.

El PSQM, tal como se concibió originalmente, no se desarrolló para tener en cuenta las perturbaciones de la calidad de servicio de la red comunes en las aplicaciones de voz sobre IP , elementos como la pérdida de paquetes, la variación de retardo (jitter) o los paquetes no secuenciales. Estas condiciones generalmente dan resultados inapropiados bajo simulaciones de carga de red pesada, sin tener en cuenta una pérdida de calidad de voz percibida muy real. Los intentos de duplicar las condiciones de falla de la red mediante la introducción de una pérdida significativa de paquetes dan como resultado valores de PSQM que corresponden a valores de MOS inflados falsamente .