Derivado


En morfología lingüística y recuperación de información , la derivación es el proceso de reducir las palabras flexionadas (o en ocasiones derivadas) a su forma de raíz , base o raíz , generalmente una forma de palabra escrita. No es necesario que la raíz sea idéntica a la raíz morfológica de la palabra; Por lo general, es suficiente que las palabras relacionadas se asignen a la misma raíz, incluso si esta raíz no es en sí misma una raíz válida. Los algoritmos para derivar se han estudiado en informática desde la década de 1960. Muchos motores de búsqueda tratan las palabras con la misma raíz como sinónimos como una especie de expansión de la consulta., un proceso llamado fusión.

Un programa o subrutina de computadora que deriva una palabra puede denominarse programa de derivación, algoritmo de derivación o derivación .

Un lematizador para inglés que opere en el tallo gato debe identificar cadenas como gatos , felinos y maliciosos . Un algoritmo de derivación también podría reducir las palabras pesca , pescado y pescador al pez tallo . La raíz no necesita ser una palabra, por ejemplo, el algoritmo de Porter reduce, argumenta , argumenta , argumenta , argumenta y argumenta a la raíz argu .

El primer lematizador publicado fue escrito por Julie Beth Lovins en 1968. [1] Este artículo fue notable por su fecha temprana y tuvo una gran influencia en el trabajo posterior en esta área. [ cita requerida ] Su artículo se refiere a tres intentos principales anteriores de derivar algoritmos, por el profesor John W. Tukey de la Universidad de Princeton , el algoritmo desarrollado en la Universidad de Harvard por Michael Lesk , bajo la dirección del profesor Gerard Salton , y un tercer algoritmo desarrollado por James L. Dolby de R and D Consultants, Los Altos, California.

Martin Porter escribió un lematizador posterior y se publicó en la edición de julio de 1980 de la revista Program . Este lematizador fue muy utilizado y se convirtió en el algoritmo estándar de facto utilizado para la lematización en inglés. El Dr. Porter recibió el premio Tony Kent Strix en 2000 por su trabajo en derivación y recuperación de información.

Muchas implementaciones del algoritmo de derivación de Porter se escribieron y distribuyeron libremente; sin embargo, muchas de estas implementaciones contenían fallas sutiles. Como resultado, estos lematizadores no coincidieron con su potencial. Para eliminar esta fuente de error, Martin Porter lanzó una implementación oficial de software libre (en su mayoría con licencia BSD ) del algoritmo alrededor del año 2000. Extendió este trabajo durante los próximos años construyendo Snowball , un marco para escribir derivaciones algoritmos, e implementó un lematizador en inglés mejorado junto con lematizadores para varios otros idiomas.