El modelo de canal ruidoso es un marco utilizado en correctores ortográficos , respuesta a preguntas , reconocimiento de voz y traducción automática . En este modelo, el objetivo es encontrar la palabra deseada dada una palabra donde las letras se han mezclado de alguna manera.
Definición
Dado un alfabeto , dejar ser el conjunto de todas las cadenas finitas sobre . Deja que el diccionario de palabras válidas ser un subconjunto de , es decir, .
El canal ruidoso es la matriz
- ,
dónde es la palabra deseada y es la palabra codificada que se recibió realmente.
Ejemplo
Considere el alfabeto inglés . Algún subconjunto compone el diccionario de palabras válidas en inglés.
Hay varios errores que pueden ocurrir al escribir, que incluyen:
- Letras que faltan, por ejemplo, leter en lugar de letra
- Adiciones de letras accidentales, por ejemplo, error en lugar de error
- Intercambio de letras, p. Ej., Recibidas en lugar de recibidas
- Reemplazo de letras, por ejemplo, fimite en lugar de finite
Para construir la matriz de canales ruidosos , debemos considerar la probabilidad de cada error, dada la palabra deseada (for all Failed to parse (MathML with SVG o PNG fallback (recomendado para navegadores modernos y herramientas de accesibilidad): respuesta no válida ("La extensión Math no se puede conectar a Restbase.") desde el servidor "/ mathoid / local / v1 /" :): { \ displaystyle w \ in D} y). Estas probabilidades se pueden recopilar, por ejemplo, considerando la distancia de Levenshtein entre y o comparando el borrador de un ensayo con uno que ha sido editado manualmente para su ortografía.
Error de corrección
El objetivo del modelo de canal ruidoso es encontrar la palabra deseada dada la palabra codificada que se recibió. La función de decisión es una función que, dada una palabra codificada, devuelve la palabra deseada.
Los métodos para construir una función de decisión incluyen la regla de máxima verosimilitud , la regla máxima a posteriori y la regla de distancia mínima .
En algunos casos, puede ser mejor aceptar la palabra codificada como la palabra deseada en lugar de intentar encontrar una palabra deseada en el diccionario. Por ejemplo, es posible que la palabra schönfinkeling no esté en el diccionario, pero de hecho podría ser la palabra deseada.
Ver también
Referencias
- Brill, Eric; Moore, Robert C. (enero de 2000). "Un modelo de error mejorado para la corrección ortográfica de canales ruidosos" . Actas de ACL 2000 : 286–293. doi : 10.3115 / 1075218.1075255 .