Lematización

La lematización ( o lematización ) en lingüística es el proceso de agrupar las formas flexionadas de una palabra para que puedan analizarse como un solo elemento, identificado por el lema de la palabra o la forma del diccionario. ^[1]

En lingüística computacional , la lematización es el proceso algorítmico de determinar el lema de una palabra en función de su significado pretendido. A diferencia de la derivación , la lematización depende de identificar correctamente la parte deseada del discurso y el significado de una palabra en una oración, así como dentro del contexto más amplio que rodea esa oración, como las oraciones vecinas o incluso un documento completo. Como resultado, el desarrollo de algoritmos de lematización eficientes es un área de investigación abierta. ^[2]^[3]^[4]

Descripción

En muchos idiomas, las palabras aparecen en varias formas flexionadas . Por ejemplo, en inglés, el verbo 'caminar' puede aparecer como 'caminar', 'caminar', 'caminar' o 'caminar'. La forma básica, 'caminar', que uno podría buscar en un diccionario, se llama lema de la palabra. La asociación de la forma básica con una parte del discurso a menudo se denomina lexema de la palabra.

La lematización está estrechamente relacionada con la derivación . La diferencia es que un lematizador opera con una sola palabra sin conocimiento del contexto y, por lo tanto, no puede discriminar entre palabras que tienen diferentes significados según la parte del discurso. Sin embargo, las levas son típicamente más fáciles de implementar y funcionan más rápido. La "precisión" reducida puede no ser importante para algunas aplicaciones. De hecho, cuando se utiliza en los sistemas de recuperación de información, la derivación mejora la precisión de la recuperación de consultas , o la tasa de verdaderos positivos, en comparación con la lematización. No obstante, la derivación reduce la precisión , o la proporción de instancias etiquetadas positivamente que son realmente positivas, para tales sistemas. ^[5]

Por ejemplo:

La palabra "mejor" tiene como lema "bueno". Este enlace se pierde al derivar, ya que requiere una búsqueda en el diccionario.
La palabra "caminar" es la forma básica de la palabra "caminar" y, por lo tanto, se corresponde tanto en la derivación como en la lematización.
La palabra "encuentro" puede ser la forma básica de un sustantivo o la forma de un verbo ("encontrarse") dependiendo del contexto; por ejemplo, "en nuestra última reunión" o "Nos reuniremos de nuevo mañana". A diferencia de la derivación, la lematización intenta seleccionar el lema correcto según el contexto.

El software de indexación de documentos como Lucene ^[6] puede almacenar el formato básico de la palabra sin el conocimiento del significado, pero solo considerando las reglas gramaticales de formación de palabras. La palabra derivada en sí misma podría no ser una palabra válida: 'lazy', como se ve en el ejemplo a continuación, es derivada por muchas derivaciones de 'lazi'. Esto se debe a que el propósito de la derivación no es producir el lema apropiado; esa es una tarea más desafiante que requiere conocimiento del contexto. El propósito principal de la derivación es asignar diferentes formas de una palabra a una sola forma. ^[7] Como algoritmo basado en reglas, que depende únicamente de la ortografía de una palabra, sacrifica la precisión para garantizar que, por ejemplo, cuando 'laziness' se deriva a 'lazi', tenga la misma raíz que 'lazy'.

Algoritmos

Una forma trivial de lematización es mediante una simple búsqueda en el diccionario. Esto funciona bien para formas sencillas con declive, pero se necesitará un sistema basado en reglas para otros casos, como en lenguajes con palabras largas compuestas . Estas reglas se pueden elaborar a mano o se pueden aprender automáticamente a partir de un corpus anotado.

Uso en biomedicina

El análisis morfológico de la literatura biomédica publicada puede producir resultados útiles. El procesamiento morfológico de texto biomédico puede ser más eficaz mediante un programa de lematización especializado para biomedicina y puede mejorar la precisión de las tareas prácticas de extracción de información . ^[8]

Ver también

Canonicalización

Referencias

^ Diccionario inglés Collins , entrada para "lematise"
^ "WebBANC: creación de corpora anotados semánticamente ricos a partir de anotaciones de usuarios web de idiomas minoritarios" (PDF) .
^ Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich (2015). Lematización articular y marcado morfológico con LEMMING (PDF) . 2015 Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural. Lisboa: Asociación de Lingüística Computacional. págs. 2268–2274. doi : 10.18653 / v1 / D15-1272 .
^ Bergmanis, Toms; Goldwater, Sharon. "Lematización neuronal sensible al contexto con Lematus" (PDF) .
^ Manning, Christopher D .; Raghavan, Prabhakar; Schütze, Hinrich. "Introducción a la recuperación de información" . Prensa de la Universidad de Cambridge.
^ "Bola de nieve de Lucene" . Proyecto Apache.
^ Martin Porter. "Porter Stemmer" .
^ Liu, H .; Christiansen, T .; Baumgartner, WA; Verspoor, K. (2012). "BioLemmatizer: una herramienta de lematización para el procesamiento morfológico de texto biomédico" . Revista de semántica biomédica . 3 : 3. doi : 10.1186 / 2041-1480-3-3 . PMC 3359276 . PMID 22464129 .

enlaces externos

[1] Diccionario inglés Collins , entrada para "lematise"

[Semantic_Annotation_Research-2] "WebBANC: creación de corpora anotados semánticamente ricos a partir de anotaciones de usuarios web de idiomas minoritarios" (PDF) .

[Muller,_University_of_Munich-3] Müller, Thomas; Cotterell, Ryan; Fraser, Alexander; Schütze, Hinrich (2015). Lematización articular y marcado morfológico con LEMMING (PDF) . 2015 Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural. Lisboa: Asociación de Lingüística Computacional. págs. 2268–2274. doi : 10.18653 / v1 / D15-1272 .

[4] Bergmanis, Toms; Goldwater, Sharon. "Lematización neuronal sensible al contexto con Lematus" (PDF) .

[Stanford_Information_Retrieval_Book-5] Manning, Christopher D .; Raghavan, Prabhakar; Schütze, Hinrich. "Introducción a la recuperación de información" . Prensa de la Universidad de Cambridge.

[Lucene_Snowball-6] "Bola de nieve de Lucene" . Proyecto Apache.

[Porter_Stemmer-7] Martin Porter. "Porter Stemmer" .

[8] Liu, H .; Christiansen, T .; Baumgartner, WA; Verspoor, K. (2012). "BioLemmatizer: una herramienta de lematización para el procesamiento morfológico de texto biomédico" . Revista de semántica biomédica . 3 : 3. doi : 10.1186 / 2041-1480-3-3 . PMC 3359276 . PMID 22464129 .

[1]