Modelo de canal ruidoso

El modelo de canal ruidoso es un marco utilizado en correctores ortográficos , respuesta a preguntas , reconocimiento de voz y traducción automática . En este modelo, el objetivo es encontrar la palabra deseada dada una palabra donde las letras se han mezclado de alguna manera.

Definición

Dado un alfabeto ${\ Displaystyle \ Sigma}$ , dejar ${\ Displaystyle \ Sigma ^ {*}}$ ser el conjunto de todas las cadenas finitas sobre ${\ Displaystyle \ Sigma}$ . Deja que el diccionario ${\ Displaystyle D}$ de palabras válidas ser un subconjunto de ${\ Displaystyle \ Sigma ^ {*}}$ , es decir, ${\ Displaystyle D \ subseteq \ Sigma ^ {*}}$ .

El canal ruidoso es la matriz

{\ Displaystyle \ Gamma _ {ws} = \ Pr (s | w)}

,

dónde ${\ Displaystyle w \ in D}$ es la palabra deseada y ${\ Displaystyle s \ in \ Sigma ^ {*}}$ es la palabra codificada que se recibió realmente.

Ejemplo

Considere el alfabeto inglés ${\ Displaystyle \ Sigma = \ {a, b, c, ..., y, z, A, B, ..., Z, ... \}}$ . Algún subconjunto ${\ Displaystyle D \ subseteq \ Sigma ^ {*}}$ compone el diccionario de palabras válidas en inglés.

Hay varios errores que pueden ocurrir al escribir, que incluyen:

Letras que faltan, por ejemplo, leter en lugar de letra
Adiciones de letras accidentales, por ejemplo, error en lugar de error
Intercambio de letras, p. Ej., Recibidas en lugar de recibidas
Reemplazo de letras, por ejemplo, fimite en lugar de finite

Para construir la matriz de canales ruidosos ${\ Displaystyle \ Gamma}$ , debemos considerar la probabilidad de cada error, dada la palabra deseada ( ${\ Displaystyle \ Pr (s | w)}$ for all Failed to parse (MathML with SVG o PNG fallback (recomendado para navegadores modernos y herramientas de accesibilidad): respuesta no válida ("La extensión Math no se puede conectar a Restbase.") desde el servidor "/ mathoid / local / v1 /" :): { \ displaystyle w \ in D} y ${\ Displaystyle s \ in \ Sigma ^ {*}}$ ). Estas probabilidades se pueden recopilar, por ejemplo, considerando la distancia de Levenshtein entre ${\ Displaystyle s}$ y ${\ Displaystyle w}$ o comparando el borrador de un ensayo con uno que ha sido editado manualmente para su ortografía.

Error de corrección

El objetivo del modelo de canal ruidoso es encontrar la palabra deseada dada la palabra codificada que se recibió. La función de decisión ${\ Displaystyle \ sigma: \ Sigma ^ {*} \ to D}$ es una función que, dada una palabra codificada, devuelve la palabra deseada.

Los métodos para construir una función de decisión incluyen la regla de máxima verosimilitud , la regla máxima a posteriori y la regla de distancia mínima .

En algunos casos, puede ser mejor aceptar la palabra codificada como la palabra deseada en lugar de intentar encontrar una palabra deseada en el diccionario. Por ejemplo, es posible que la palabra schönfinkeling no esté en el diccionario, pero de hecho podría ser la palabra deseada.

Ver también

Teoría de la codificación

Referencias

Brill, Eric; Moore, Robert C. (enero de 2000). "Un modelo de error mejorado para la corrección ortográfica de canales ruidosos" . Actas de ACL 2000 : 286–293. doi : 10.3115 / 1075218.1075255 .