En el campo de la lingüística computacional , un diccionario morfológico es un recurso lingüístico que contiene correspondencias entre la forma superficial y las formas léxicas de las palabras. Las formas superficiales de las palabras son las que se encuentran en cualquier texto. La forma léxica correspondiente de una forma superficial es el lema seguido de información gramatical (por ejemplo, la parte gramatical , el género y el número ). En inglés dar , dar , dar , dar y dar son formas superficiales del verbo dar.. La forma léxica sería "dar", verbo. Hay dos tipos de diccionarios morfológicos: alineados y no alineados.
Diccionarios morfológicos alineados
En un diccionario morfológico alineado, la correspondencia entre la forma superficial y la forma léxica de una palabra se alinea a nivel de carácter, por ejemplo:
- (h, h) (o, o) (u, u) (s, s) (e, e) (s, ⟨n⟩), (θ, ⟨pl⟩)
Donde θ es el símbolo vacío y ⟨n⟩ significa "sustantivo", y ⟨pl⟩ significa "plural".
En el ejemplo, el lado izquierdo es la forma superficial (entrada) y el lado derecho es la forma léxica (salida). Este orden se utiliza en el análisis morfológico donde se genera una forma léxica a partir de una forma superficial. En la generación morfológica este orden se invertiría.
Formalmente, si Σ es el alfabeto de los símbolos de entrada, y es el alfabeto de los símbolos de salida, un diccionario morfológico alineado es un subconjunto , dónde:
es el alfabeto de todas las posibles alineaciones, incluido el símbolo vacío. Es decir, un diccionario morfológico alineado es un conjunto de cadenas en.
Diccionario morfológico no alineado
Un diccionario morfológico no alineado es simplemente un conjunto de pares de cadenas de entrada y salida. Un diccionario morfológico no alineado representaría el ejemplo anterior como:
- (casas, house⟨n⟩⟨pl⟩)
Es posible convertir un diccionario no alineado en un diccionario alineado. Además de las alineaciones triviales hacia la izquierda o hacia la derecha, son posibles alineaciones motivadas lingüísticamente que alinean los caracteres con sus morfemas correspondientes.
Ambigüedades léxicas
Con frecuencia existe más de una forma léxica asociada con una forma superficial de una palabra. Por ejemplo, "casa" puede ser un sustantivo en singular, / haʊs / , o puede ser un verbo en tiempo presente, / haʊz / . Como resultado de esto, es necesario tener una función que relacione las cadenas de entrada con sus cadenas de salida correspondientes.
Si definimos el conjunto de palabras de entrada tales que , la función de correspondencia sería definido como .