Etiquetado de parte del discurso basado en ventana deslizante

El etiquetado de parte del discurso basado en ventana deslizante se utiliza para etiquetar un texto como parte del discurso .

Un alto porcentaje de palabras en un lenguaje natural son palabras a las que fuera de contexto se les puede asignar más de una parte del discurso. El porcentaje de estas palabras ambiguas suele rondar el 30%, aunque depende en gran medida del idioma. Resolver este problema es muy importante en muchas áreas del procesamiento del lenguaje natural . Por ejemplo, en la traducción automática, cambiar la parte gramatical de una palabra puede cambiar drásticamente su traducción.

Los etiquetadores de parte del discurso basados en ventanas deslizantes son programas que asignan una sola parte del discurso a una forma léxica determinada de una palabra, mirando una "ventana" de palabras de tamaño fijo alrededor de la palabra que se va a eliminar .

Las dos principales ventajas de este enfoque son:

Es posible entrenar automáticamente al etiquetador, eliminando la necesidad de etiquetar manualmente un corpus.
El etiquetador se puede implementar como un autómata de estado finito ( máquina Mealy )

Definicion formal

Dejar

{\ Displaystyle \ Gamma = \ {\ gamma _ {1}, \ gamma _ {2}, \ ldots, \ gamma _ {| \ Gamma |} \}}

ser el conjunto de etiquetas gramaticales de la aplicación, es decir, el conjunto de todas las etiquetas posibles que pueden asignarse a una palabra, y dejar

{\ Displaystyle W = \ {w1, w2, \ ldots \}}

sea el vocabulario de la aplicación. Dejar

{\ Displaystyle T: W \ rightarrow P (\ Gamma)}

ser una función para el análisis morfológico que asigna a cada ${\ Displaystyle w}$ su conjunto de posibles etiquetas, ${\ Displaystyle T (w) \ subseteq \ Gamma}$ , que puede implementarse mediante un léxico completo o un analizador morfológico. Dejar

{\ Displaystyle \ Sigma = \ {\ sigma _ {1}, \ sigma _ {2}, \ ldots, \ sigma _ {| \ Sigma |} \}}

ser el conjunto de clases de palabras, que en general será una partición de ${\ Displaystyle W}$ con la restricción de que para cada ${\ Displaystyle \ sigma \ in \ Sigma}$ todas las palabras ${\ Displaystyle w, \ Sigma, \ sigma}$ recibirá el mismo conjunto de etiquetas, es decir, todas las palabras de cada clase de palabra ${\ Displaystyle \ sigma}$ pertenecen a la misma clase de ambigüedad.

Normalmente, ${\ Displaystyle \ Sigma}$ está construido de manera que para palabras de alta frecuencia, cada clase de palabra contiene una sola palabra, mientras que para palabras de baja frecuencia, cada clase de palabra corresponde a una única clase de ambigüedad. Esto permite un buen rendimiento para palabras ambiguas de alta frecuencia y no requiere demasiados parámetros para el etiquetador.

Con estas definiciones es posible plantear el problema de la siguiente manera: Dado un texto ${\ Displaystyle w [1] w [2] \ ldots w [L] \ in W ^ {*}}$ cada palabra ${\ Displaystyle w [t]}$ se le asigna una clase de palabra ${\ Displaystyle T (w [t]) \ in \ Sigma}$ (ya sea utilizando el léxico o el analizador morfológico) para obtener un texto etiquetado ambiguamente ${\ Displaystyle \ sigma [1] \ sigma [2] \ ldots \ sigma [L] \ in W ^ {*}}$ . El trabajo del etiquetador es obtener un texto etiquetado ${\ Displaystyle \ gamma [1] \ gamma [2] \ ldots \ gamma [L]}$ (con ${\ Displaystyle \ gamma [t] \ in T (\ sigma [t])}$ ) lo más correcto posible.

Un etiquetador estadístico busca la etiqueta más probable para un texto etiquetado ambiguamente ${\ Displaystyle \ sigma [1] \ sigma [2] \ ldots \ sigma [L]}$ :

{\ Displaystyle \ gamma ^ {*} [1] \ ldots \ gamma ^ {*} [L] = \ operatorname {\ arg \, max} _ {\ gamma [t] \ in T (\ sigma [t]) } p (\ gamma [1] \ ldots \ gamma [L] \ sigma [1] \ ldots \ sigma [L])}

Usando la fórmula de Bayes , esto se convierte en:

{\ Displaystyle \ gamma ^ {*} [1] \ ldots \ gamma ^ {*} [L] = \ operatorname {\ arg \, max} _ {\ gamma [t] \ in T (\ sigma [t]) } p (\ gamma [1] \ ldots \ gamma [L]) p (\ sigma [1] \ ldots \ sigma [L] \ gamma [1] \ ldots \ gamma [L])}

dónde ${\ Displaystyle p (\ gamma [1] \ gamma [2] \ ldots \ gamma [L])}$ es la probabilidad de que una etiqueta particular (probabilidad sintáctica) y ${\ Displaystyle p (\ sigma [1] \ dots \ sigma [L] \ gamma [1] \ ldots \ gamma [L])}$ es la probabilidad de que esta etiqueta corresponda al texto ${\ Displaystyle \ sigma [1] \ ldots \ sigma [L]}$ (probabilidad léxica).

En un modelo de Markov , estas probabilidades se aproximan como productos. Las probabilidades sintácticas se modelan mediante un proceso de Markov de primer orden:

{\ Displaystyle p (\ gamma [1] \ gamma [2] \ ldots \ gamma [L]) = \ prod _ {t = 1} ^ {t = L} p (\ gamma [t + 1] \ gamma [ t])}

dónde ${\ Displaystyle \ gamma [0]}$ y ${\ Displaystyle \ gamma [L + 1]}$ son símbolos delimitadores.

Las probabilidades léxicas son independientes del contexto:

{\ Displaystyle p (\ sigma [1] \ sigma [2] \ ldots \ sigma [L] \ gamma [1] \ gamma [2] \ ldots \ gamma [L]) = \ prod _ {t = 1} ^ {t = L} p (\ sigma [t] \ gamma [t])}

Una forma de etiquetado es aproximar la primera fórmula de probabilidad:

{\ Displaystyle p (\ sigma [1] \ sigma [2] \ ldots \ sigma [L] \ gamma [1] \ gamma [2] \ ldots \ gamma [L]) = \ prod _ {t = 1} ^ {t = L} p (\ gamma [t] C _ {(-)} [t] \ sigma [t] C _ {(+)} [t])}

dónde ${\ Displaystyle C _ {(-)} [t] = \ sigma [t-N _ {(-)}] \ sigma [t-N _ {(-)}] \ ldots \ sigma [t-1]}$ es el contexto correcto del tamaño ${\ Displaystyle N _ {(+)}}$ .

De esta forma el algoritmo de la ventana deslizante solo tiene que tener en cuenta un contexto de tamaño ${\ Displaystyle N _ {(-)} + N _ {(+)} + 1}$ . Para la mayoría de aplicaciones ${\ Displaystyle N _ {(-)} = N _ {(+)} = 1}$ . Por ejemplo, para etiquetar la palabra ambigua "correr" en la oración "Huye del peligro", solo se deben tener en cuenta las etiquetas de las palabras "Él" y "de".

Otras lecturas

Sánchez-Villamil, E., Forcada, ML y Carrasco, RC (2005). " Entrenamiento no supervisado de un etiquetador de parte del discurso de ventana deslizante de estado finito ". Notas de clase en Ciencias de la Computación / Notas de clase en Inteligencia Artificial , vol. 3230, pág. 454-463