Tasa de error de palabra

La tasa de error de palabras ( WER ) es una métrica común del rendimiento de un sistema de reconocimiento de voz o traducción automática.

La dificultad general de medir el rendimiento radica en el hecho de que la secuencia de palabras reconocida puede tener una longitud diferente a la secuencia de palabras de referencia (supuestamente la correcta). El WER se deriva de la distancia de Levenshtein , trabajando a nivel de palabra en lugar del nivel de fonema . El WER es una herramienta valiosa para comparar diferentes sistemas, así como para evaluar mejoras dentro de un sistema. Sin embargo, este tipo de medición no proporciona detalles sobre la naturaleza de los errores de traducción y, por lo tanto, se requiere más trabajo para identificar las principales fuentes de error y enfocar cualquier esfuerzo de investigación.

Este problema se resuelve alineando primero la secuencia de palabras reconocidas con la secuencia de palabras de referencia (habladas) utilizando la alineación dinámica de cadenas. El examen de este tema se ve a través de una teoría llamada ley de potencia que establece la correlación entre la perplejidad y la tasa de error de palabras. ^[1]

La tasa de error de palabra se puede calcular como:

{\ Displaystyle {\ mathit {WER}} = {\ frac {S + D + I} {N}} = {\ frac {S + D + I} {S + D + C}}}

dónde

S es el número de sustituciones,
D es el número de eliminaciones,
Yo es el número de inserciones,
C es el número de palabras correctas,
N es el número de palabras en la referencia (N = S + D + C)

La intuición detrás de 'eliminación' e 'inserción' es cómo pasar de la referencia a la hipótesis. Entonces, si tenemos la referencia "Esto es wikipedia" y la hipótesis "Esto _ wikipedia", lo llamamos eliminación.

Al informar sobre el rendimiento de un sistema de reconocimiento de voz, a veces se utiliza la precisión de palabras (WAcc) en su lugar:

{\ Displaystyle {\ mathit {WAcc}} = 1 - {\ mathit {WER}} = {\ frac {NSDI} {N}} = {\ frac {CI} {N}}}

Tenga en cuenta que, dado que N es el número de palabras de la referencia, la tasa de error de palabra puede ser mayor que 1.0 y, por lo tanto, la precisión de la palabra puede ser menor que 0.0.

Experimentos

Se cree comúnmente que una tasa de error de palabra más baja muestra una precisión superior en el reconocimiento de voz, en comparación con una tasa de error de palabra más alta. Sin embargo, al menos un estudio ha demostrado que esto puede no ser cierto. En un experimento de Microsoft Research , se demostró que, si las personas fueran capacitadas bajo "que coincida con el objetivo de optimización para la comprensión", (Wang, Acero y Chelba, 2003) mostrarían una mayor precisión en la comprensión del lenguaje que otras personas que demostraron una tasa de error de palabras más baja, lo que demuestra que la verdadera comprensión del lenguaje hablado se basa en algo más que una alta precisión en el reconocimiento de palabras. ^[2]

Otras métricas

Sin embargo, un problema con el uso de una fórmula genérica como la anterior es que no se tiene en cuenta el efecto que los diferentes tipos de error pueden tener sobre la probabilidad de un resultado exitoso, por ejemplo, algunos errores pueden ser más perjudiciales que otros y otros pueden ser corregido más fácilmente que otros. Es probable que estos factores sean específicos de la sintaxis que se está probando. Otro problema es que, incluso con la mejor alineación, la fórmula no puede distinguir un error de sustitución de un error combinado de eliminación más inserción.

Hunt (1990) ha propuesto el uso de una medida ponderada de la precisión del rendimiento en la que los errores de sustitución se ponderan en la unidad, pero los errores de eliminación y de inserción se ponderan solo en 0,5, por lo que:

{\ Displaystyle {\ mathit {WER}} = {\ frac {S + 0.5D + 0.5I} {N}}}

Sin embargo, existe cierto debate sobre si la fórmula de Hunt puede usarse correctamente para evaluar el desempeño de un solo sistema, ya que se desarrolló como un medio para comparar sistemas candidatos que compiten de manera más justa. Se agrega una complicación adicional por si una sintaxis dada permite la corrección de errores y, si lo hace, qué tan fácil es ese proceso para el usuario. Por lo tanto, hay algo de mérito en el argumento de que las métricas de desempeño deben desarrollarse para adaptarse al sistema particular que se está midiendo.

Sin embargo, cualquiera que sea la métrica que se utilice, un problema teórico importante al evaluar el rendimiento de un sistema es decidir si una palabra ha sido "mal pronunciada", es decir, si la falla es del usuario o del reconocedor. Esto puede ser particularmente relevante en un sistema que está diseñado para hacer frente a hablantes no nativos de un idioma determinado o con fuertes acentos regionales.

El ritmo al que se deben pronunciar las palabras durante el proceso de medición también es una fuente de variabilidad entre sujetos, al igual que la necesidad de que los sujetos descansen o respiren. Es posible que sea necesario controlar todos estos factores de alguna manera.

Para el dictado de texto, generalmente se acepta que la precisión del rendimiento a una tasa inferior al 95% no es aceptable, pero esto nuevamente puede ser específico de la sintaxis y / o del dominio, por ejemplo, si hay presión de tiempo para que los usuarios completen la tarea, si existen métodos alternativos de finalización, etc.

El término "Tasa de errores de una sola palabra" a veces se denomina el porcentaje de reconocimientos incorrectos para cada palabra diferente en el vocabulario del sistema.

Editar distancia

La tasa de error de palabra también puede denominarse distancia de edición normalizada por longitud . ^[3] La distancia de edición normalizada entre X e Y, d (X, Y) se define como el mínimo de W (P) / L (P), donde P es una ruta de edición entre X e Y, W (P) es la suma de los pesos de las operaciones de edición elementales de P, y L (P) es el número de estas operaciones (longitud de P). ^[4]

Ver también

Referencias

Notas

^ Klakow, Dietrich; Jochen Peters (septiembre de 2002). "Prueba de la correlación de la tasa de error de palabras y la perplejidad". Comunicación de voz . 38 (1-2): 19-28. doi : 10.1016 / S0167-6393 (01) 00041-3 . ISSN 0167-6393 .
^ Wang, Y .; Acero, A .; Chelba, C. (2003). ¿Es la tasa de error de palabras un buen indicador de la precisión en la comprensión del lenguaje hablado ? Taller IEEE sobre reconocimiento y comprensión automáticos de voz. St. Thomas, Islas Vírgenes de los Estados Unidos. CiteSeerX 10.1.1.89.424 .
^ Nießen y col. (2000)
^ Cálculo de distancia de edición normalizada y aplicación: AndrCs Marzal y Enrique Vidal

Otras fuentes

McCowan y col. 2005: sobre el uso de medidas de recuperación de información para la evaluación del reconocimiento de voz
Hunt, MJ, 1990: Figuras de mérito para evaluar los reconocedores de palabras conectados (Speech Communication, 9, 1990, págs. 239-336)
Zechner, K., Waibel, A. Minimizar la tasa de errores de palabras en los resúmenes textuales del lenguaje hablado

[1] Klakow, Dietrich; Jochen Peters (septiembre de 2002). "Prueba de la correlación de la tasa de error de palabras y la perplejidad". Comunicación de voz . 38 (1-2): 19-28. doi : 10.1016 / S0167-6393 (01) 00041-3 . ISSN 0167-6393 .

[2] Wang, Y .; Acero, A .; Chelba, C. (2003). ¿Es la tasa de error de palabras un buen indicador de la precisión en la comprensión del lenguaje hablado ? Taller IEEE sobre reconocimiento y comprensión automáticos de voz. St. Thomas, Islas Vírgenes de los Estados Unidos. CiteSeerX 10.1.1.89.424 .

[3] Nießen y col. (2000)

[4] Cálculo de distancia de edición normalizada y aplicación: AndrCs Marzal y Enrique Vidal

[1]