El algoritmo de Lesk es un algoritmo clásico para la desambiguación del sentido de las palabras introducido por Michael E. Lesk en 1986. [1]
Descripción general
El algoritmo de Lesk se basa en la suposición de que las palabras en un "vecindario" dado (sección de texto) tenderán a compartir un tema común. Una versión simplificada del algoritmo de Lesk consiste en comparar la definición de diccionario de una palabra ambigua con los términos contenidos en su vecindad. Se han adaptado versiones para usar WordNet . [2] Una implementación podría verse así:
- Para cada sentido de la palabra que se desambigua, se debe contar la cantidad de palabras que se encuentran tanto en el vecindario de esa palabra como en la definición de diccionario de ese sentido.
- el sentido que se va a elegir es el sentido que tiene el mayor número de este recuento
Un ejemplo de uso frecuente que ilustra este algoritmo es para el contexto "piña de pino". Se utilizan las siguientes definiciones de diccionario:
PINO 1. tipos de árboles de hoja perenne con hojas en forma de aguja2. consumirse por el dolor o la enfermedad
CONO 1. cuerpo sólido que se estrecha hasta un punto2. algo de esta forma, ya sea sólido o hueco3. fruto de ciertos árboles de hoja perenne
Como puede verse, la mejor intersección es Pino # 1 ⋂ Cono # 3 = 2.
Algoritmo de Lesk simplificado
En el algoritmo de Lesk simplificado, [3] el significado correcto de cada palabra en un contexto dado se determina individualmente localizando el sentido que más se superpone entre su definición de diccionario y el contexto dado. En lugar de determinar simultáneamente los significados de todas las palabras en un contexto dado, este enfoque aborda cada palabra individualmente, independientemente del significado de las otras palabras que aparecen en el mismo contexto.
"Una evaluación comparativa realizada por Vasilescu et al. (2004) [4] ha demostrado que el algoritmo de Lesk simplificado puede superar significativamente la definición original del algoritmo, tanto en términos de precisión como de eficiencia. Al evaluar los algoritmos de desambiguación en el Senseval- 2 En inglés, todos los datos de palabras, miden una precisión del 58% utilizando el algoritmo simplificado de Lesk en comparación con el único 42% del algoritmo original.
Nota: Vasilescu et al. La implementación considera una estrategia de retroceso para palabras no cubiertas por el algoritmo, que consiste en el sentido más frecuente definido en WordNet. Esto significa que las palabras para las que todos sus posibles significados conducen a una superposición cero con el contexto actual o con otras definiciones de palabras se asignan de forma predeterminada al sentido número uno en WordNet ". [5]
Algoritmo LESK simplificado con sentido inteligente de palabras por defecto (Vasilescu et al., 2004) [6]
función LESK SIMPLIFICADO ( palabra, oración ) devuelve el mejor sentido de la palabra
end return ( mejor sentido ) |
La función COMPUTEOVERLAP devuelve el número de palabras en común entre dos conjuntos, ignorando las palabras de función u otras palabras en una lista de detención. El algoritmo de Lesk original define el contexto de una manera más compleja.
Críticas y otros métodos basados en Lesk
Desafortunadamente, el enfoque de Lesk es muy sensible a la redacción exacta de las definiciones, por lo que la ausencia de una determinada palabra puede cambiar radicalmente los resultados. Además, el algoritmo determina superposiciones solo entre las glosas de los sentidos que se están considerando. Esta es una limitación significativa en el sentido de que las glosas de los diccionarios tienden a ser bastante breves y no proporcionan suficiente vocabulario para relacionar distinciones de sentido detalladas.
Ha aparecido mucho trabajo ofreciendo diferentes modificaciones de este algoritmo. Estas obras utilizan otros recursos para el análisis (tesauros, diccionarios de sinónimos o modelos morfológicos y sintácticos): por ejemplo, puede utilizar dicha información como sinónimos, diferentes derivados o palabras de definiciones de palabras de definiciones. [7]
Hay muchos estudios sobre Lesk y sus extensiones: [8]
- Wilks y Stevenson, 1998, 1999;
- Mahesh y col., 1997;
- Cowie y col., 1992;
- Yarowsky, 1992;
- Pook y Catlett, 1988;
- Kilgarriff y Rosensweig, 2000;
- Kwong, 2001;
- Nastase y Szpakowicz, 2001;
- Gelbukh y Sidorov, 2004.
Variantes de Lesk
- Lesk original (Lesk, 1986)
- Lesk adaptado / extendido (Banerjee y Pederson, 2002/2003): en el algoritmo de lesk adaptativo, se crea un vector de palabras que corresponde a cada palabra de contenido en la glosa de wordnet. Se pueden utilizar glosas de concatenación de conceptos relacionados en WordNet para aumentar este vector. El vector contiene los recuentos de co-ocurrencia de palabras que co-ocurren con w en un corpus grande. Al agregar todos los vectores de palabras para todas las palabras de contenido en su brillo, se crea el vector de brillo g para un concepto. La relación se determina comparando el vector de brillo usando la medida de similitud del coseno . [9]
Ver también
Referencias
- ^ Lesk, M. (1986). Desambiguación automática de los sentidos usando diccionarios legibles por máquina: cómo distinguir una piña de un cono de helado . En SIGDOC '86: Actas de la 5ª conferencia internacional anual sobre documentación de sistemas, páginas 24-26, Nueva York, NY, EE. UU. ACM.
- ^ Satanjeev Banerjee y Ted Pedersen. Un algoritmo de Lesk adaptado para la desambiguación del sentido de la palabra usando WordNet , notas de clase en ciencias de la computación; Vol. 2276, páginas: 136 - 145, 2002. ISBN 3-540-43219-1
- ^ Kilgarriff y J. Rosenzweig. 2000. Inglés SENSEVAL: Informe y Resultados . En Actas de la 2da Conferencia Internacional sobre Recursos y Evaluación del Lenguaje, LREC, Atenas, Grecia.
- ^ Florentina Vasilescu, Philippe Langlais y Guy Lapalme. 2004. Evaluating Variants of the Lesk Approach for Disambiguating Words . LREC, Portugal.
- ^ Agirre, Eneko y Philip Edmonds (eds.). 2006. Desambiguación del sentido de la palabra: algoritmos y aplicaciones . Dordrecht: Springer. www.wsdbook.org
- ^ Florentina Vasilescu, Philippe Langlais y Guy Lapalme. 2004. Evaluating Variants of the Lesk Approach for Disambiguating Words . LREC, Portugal.
- ^ Alexander Gelbukh, Grigori Sidorov. Resolución automática de la ambigüedad de los sentidos de las palabras en las definiciones del diccionario (en ruso). J. Nauchno-Tehnicheskaya Informaciya (NTI), ISSN 0548-0027, ser. 2, N 3, 2004, págs. 10-15.
- ^ Roberto Navigli. Desambiguación del sentido de las palabras: una encuesta , Encuestas de computación de ACM, 41 (2), 2009, págs. 1-69.
- ^ Banerjee, Satanjeev; Pedersen, Ted (17 de febrero de 2002). Un algoritmo de Lesk adaptado para la desambiguación del sentido de palabras usando WordNet . Lingüística computacional y procesamiento inteligente de textos . Apuntes de conferencias en Ciencias de la Computación. Springer, Berlín, Heidelberg. págs. 136-145. CiteSeerX 10.1.1.118.8359 . doi : 10.1007 / 3-540-45715-1_11 . ISBN 978-3540457152.