modelo de lenguaje

Un modelo de lenguaje estadístico es una distribución de probabilidad sobre secuencias de palabras. Dada tal secuencia, digamos de longitud $m$ , asigna una probabilidad a toda la secuencia. $P(w_{1},\ldots,w_{m})$

El modelo de lenguaje proporciona contexto para distinguir entre palabras y frases que suenan fonéticamente similares. Por ejemplo, en inglés americano , las frases "recognize speech" y "wreck a nice beach" suenan similares, pero significan cosas diferentes.

La escasez de datos es un problema importante en la construcción de modelos de lenguaje. La mayoría de las secuencias de palabras posibles no se observan en el entrenamiento. Una solución es suponer que la probabilidad de una palabra solo depende de las n palabras anteriores. Esto se conoce como modelo de n -grama o modelo de unigrama cuando n = 1.

Estimar la probabilidad relativa de diferentes frases es útil en muchas aplicaciones de procesamiento de lenguaje natural , especialmente aquellas que generan texto como salida. El modelado del lenguaje se utiliza en el reconocimiento de voz , ^[1] traducción automática , ^[2] etiquetado de parte del discurso , análisis , ^[2] reconocimiento óptico de caracteres , reconocimiento de escritura a mano , ^[3] inducción gramatical , ^[4] recuperación de información y otros aplicaciones

En el reconocimiento de voz, los sonidos se combinan con secuencias de palabras. Las ambigüedades son más fáciles de resolver cuando la evidencia del modelo de lenguaje se integra con un modelo de pronunciación y un modelo acústico .

Los modelos de lenguaje se utilizan en la recuperación de información en el modelo de probabilidad de consulta . Allí, un modelo de idioma separado está asociado con cada documento en una colección. Los documentos se clasifican en función de la probabilidad de la consulta Q en el modelo de lenguaje del documento : . Comúnmente, el modelo de lenguaje unigrama se usa para este propósito. $M_{d}$ $P(Q\mid M_{d})$