La desambiguación del sentido de la palabra ( WSD ) es un problema abierto en la lingüística computacional que se ocupa de identificar qué sentido de una palabra se usa en una oración . La solución a este problema afecta a otros escritos relacionados con la computadora, como el discurso , la mejora de la relevancia de los motores de búsqueda , la resolución de la anáfora , la coherencia y la inferencia .
Debido al hecho de que el lenguaje natural requiere el reflejo de la realidad neurológica, tal como la moldean las habilidades proporcionadas por las redes neuronales del cerebro , la informática ha tenido un desafío a largo plazo en el desarrollo de la capacidad de las computadoras para realizar el procesamiento del lenguaje natural y el aprendizaje automático .
Se han investigado muchas técnicas, incluidos métodos basados en diccionarios que utilizan el conocimiento codificado en recursos léxicos, métodos de aprendizaje automático supervisados en los que se entrena un clasificador para cada palabra distinta en un corpus de ejemplos anotados manualmente por sentido, métodos completamente no supervisados que agrupa las apariciones de palabras, lo que induce los sentidos de las palabras. Entre estos, los enfoques de aprendizaje supervisado han sido los algoritmos más exitosos hasta la fecha.
Es difícil establecer la precisión de los algoritmos actuales sin una serie de salvedades. En inglés, la precisión en el nivel de grano grueso ( homógrafo ) es habitualmente superior al 90%, y algunos métodos en homógrafos particulares alcanzan más del 96%. En las distinciones de sentido más detalladas, se han informado precisiones máximas del 59,1% al 69,0% en ejercicios de evaluación (SemEval-2007, Senseval-2), donde la precisión de referencia del algoritmo más simple posible de elegir siempre el sentido más frecuente fue del 51,4% y 57%, respectivamente.
Acerca de la desambiguación del sentido de las palabras
La desambiguación requiere dos entradas estrictas: un diccionario para especificar los sentidos que se deben desambiguar y un corpus de datos del lenguaje que se debe eliminar la ambigüedad (en algunos métodos, también se requiere un corpus de entrenamiento de ejemplos de lenguaje). La tarea WSD tiene dos variantes: "muestra léxica" (elimina la ambigüedad de las ocurrencias de una pequeña muestra de palabras objetivo que fueron seleccionadas previamente) y la tarea "todas las palabras" (desambiguación de todas las palabras en un texto en ejecución). La tarea "Todas las palabras" generalmente se considera una forma más realista de evaluación, pero el corpus es más costoso de producir porque los anotadores humanos tienen que leer las definiciones de cada palabra en la secuencia cada vez que necesitan hacer un juicio de etiquetado, en lugar de una vez. para un bloque de instancias para la misma palabra de destino.
Historia
WSD se formuló por primera vez como una tarea computacional distinta durante los primeros días de la traducción automática en la década de 1940, lo que lo convirtió en uno de los problemas más antiguos de la lingüística computacional. Warren Weaver introdujo por primera vez el problema en un contexto computacional en su memorando de traducción de 1949. [1] Más tarde, Bar-Hillel (1960) argumentó [2] que el WSD no podía ser resuelto por una "computadora electrónica" debido a la necesidad en general de modelar todo el conocimiento del mundo.
En la década de 1970, WSD era una subtarea de los sistemas de interpretación semántica desarrollados dentro del campo de la inteligencia artificial, comenzando con la semántica de preferencias de Wilks . Sin embargo, dado que los sistemas WSD en ese momento se basaban en gran medida en reglas y estaban codificados a mano, eran propensos a un cuello de botella en la adquisición de conocimientos.
En la década de 1980, los recursos léxicos a gran escala, como el Oxford Advanced Learner's Dictionary of Current English (OALD), estuvieron disponibles: la codificación manual se reemplazó con el conocimiento extraído automáticamente de estos recursos, pero la desambiguación aún se basaba en el conocimiento o en el diccionario. .
En la década de 1990, la revolución estadística hizo avanzar la lingüística computacional y el WSD se convirtió en un problema paradigmático sobre el que aplicar técnicas de aprendizaje automático supervisado.
En la década de 2000, las técnicas supervisadas alcanzaron una meseta en la precisión, por lo que la atención se ha desplazado a los sentidos más generales, la adaptación de dominio, los sistemas basados en corpus semisupervisados y no supervisados, las combinaciones de diferentes métodos y el regreso de los sistemas basados en el conocimiento a través de gráficos. -Métodos basados en. Aún así, los sistemas supervisados continúan funcionando mejor.
Dificultades
Diferencias entre diccionarios
Un problema con la desambiguación del sentido de las palabras es decidir qué son los sentidos, ya que diferentes diccionarios y tesauros proporcionarán diferentes divisiones de palabras en sentidos. Algunos investigadores han sugerido elegir un diccionario en particular y usar su conjunto de sentidos para lidiar con este problema de uso. Sin embargo, en general, los resultados de las investigaciones que utilizan distinciones amplias en los sentidos han sido mucho mejores que las que utilizan las más estrictas. [3] [4] La mayoría de los investigadores continúan trabajando en WSD de grano fino .
La mayor parte de la investigación en el campo de WSD se realiza utilizando WordNet como un inventario de sentido de referencia para el inglés. WordNet es un léxico computacional que codifica conceptos como conjuntos de sinónimos (por ejemplo, el concepto de automóvil se codifica como {automóvil, automóvil, automóvil, máquina, automóvil}). Otros recursos utilizados con fines de desambiguación incluyen el Tesauro de Roget [5] y Wikipedia . [6] Más recientemente, BabelNet , un diccionario enciclopédico multilingüe, se ha utilizado para WSD multilingüe. [7]
Etiquetado de parte de la voz
En cualquier prueba real, se ha demostrado que el etiquetado de parte de la voz y el etiquetado de sentido están muy estrechamente relacionados con cada uno de los cuales potencialmente imponen limitaciones al otro. La cuestión de si estas tareas deben mantenerse juntas o desacopladas aún no se ha resuelto por unanimidad, pero recientemente los científicos se inclinan a probar estas cosas por separado (por ejemplo, en los concursos Senseval / SemEval las partes del discurso se proporcionan como entrada para que el texto elimine la ambigüedad ).
El etiquetado de parte del discurso de WSM implica la eliminación de ambigüedades o el etiquetado con palabras. Sin embargo, los algoritmos que se usan para uno no suelen funcionar bien para el otro, principalmente porque la parte del habla de una palabra está determinada principalmente por las palabras inmediatamente adyacentes, mientras que el sentido de una palabra puede estar determinado por palabras más lejanas. . La tasa de éxito para los algoritmos de marcado parte-de-voz es en la actualidad mucho más alta que para WSD, el estado de la técnica estar alrededor de 96% [8] exactitud o mejor, en comparación con menos del 75% [ citación necesaria ] precisión en el sentido de la palabra desambiguación con el aprendizaje supervisado . Estas cifras son típicas del inglés y pueden ser muy diferentes de las de otros idiomas.
Varianza entre jueces
Otro problema es la variación entre jueces . Los sistemas WSD normalmente se prueban comparando los resultados de una tarea con los de un ser humano. Sin embargo, si bien es relativamente fácil asignar partes de la oración a un texto, se ha demostrado que entrenar a las personas para etiquetar los sentidos es mucho más difícil. [9] Si bien los usuarios pueden memorizar todas las partes posibles del discurso que puede tomar una palabra, a menudo es imposible que las personas memoricen todos los sentidos que puede tomar una palabra. Además, los humanos no están de acuerdo con la tarea que tienen entre manos: proporcione una lista de sentidos y oraciones, y los humanos no siempre estarán de acuerdo en qué palabra pertenece en qué sentido. [10]
Como el desempeño humano sirve como estándar, es un límite superior para el desempeño de la computadora. El desempeño humano, sin embargo, es mucho mejor en las distinciones de grano grueso que en las de grano fino , por lo que nuevamente esta es la razón por la que la investigación sobre las distinciones de grano grueso [11] [12] se ha puesto a prueba en ejercicios de evaluación de WSD recientes. [3] [4]
Pragmática
Algunos investigadores de IA como Douglas Lenat sostienen que no se pueden analizar los significados de las palabras sin alguna forma de ontología de sentido común . Esta cuestión lingüística se llama pragmática . Según lo acordado por los investigadores, para identificar adecuadamente los sentidos de las palabras, uno debe conocer hechos de sentido común. [13] Además, a veces se necesita el sentido común para eliminar la ambigüedad de palabras como los pronombres en caso de tener anáforas o cataforas en el texto.
Detectar la dependencia de tareas de los algoritmos y el inventario
Un inventario de sentidos independiente de la tarea no es un concepto coherente: [14] cada tarea requiere su propia división del significado de la palabra en sentidos relevantes para la tarea. Además, diferentes aplicaciones pueden requerir algoritmos completamente diferentes. En la traducción automática, el problema se manifiesta en la selección de la palabra objetivo. Los "sentidos" son palabras en el idioma de destino, que a menudo corresponden a distinciones significativas de significado en el idioma de origen ("banco" podría traducirse al francés "banque", es decir, "banco financiero" o "rive", es decir, 'borde del río'). En la recuperación de información, no se requiere necesariamente un inventario de sentidos, porque es suficiente saber que una palabra se usa en el mismo sentido en la consulta y en un documento recuperado; qué sentido es, no es importante.
Discreción de los sentidos
Finalmente, la misma noción de " sentido de la palabra " es resbaladiza y controvertida. La mayoría de las personas pueden estar de acuerdo en las distinciones al nivel del homógrafo de grano grueso (p. Ej., El bolígrafo como instrumento de escritura o recinto), pero bajan un nivel a la polisemia de grano fino y surgen desacuerdos. Por ejemplo, en Senseval-2, que utilizó distinciones de sentido detalladas, los anotadores humanos estuvieron de acuerdo en solo el 85% de las ocurrencias de palabras. [15] El significado de las palabras es, en principio, infinitamente variable y sensible al contexto. No se divide fácilmente en sub-significados distintos o discretos. [16] Los lexicógrafos frecuentemente descubren en corpus significados de palabras sueltos y superpuestos, y significados estándar o convencionales extendidos, modulados y explotados de una desconcertante variedad de formas. El arte de la lexicografía es generalizar desde el corpus a definiciones que evocan y explican la gama completa de significados de una palabra, haciendo que parezca que las palabras se comportan bien semánticamente. Sin embargo, no está del todo claro si estas mismas distinciones de significado son aplicables en aplicaciones computacionales , ya que las decisiones de los lexicógrafos suelen estar impulsadas por otras consideraciones. En 2009, se propuso una tarea, denominada sustitución léxica , como posible solución al problema de la discreción de los sentidos. [17] La tarea consiste en proporcionar un sustituto de una palabra en contexto que conserve el significado de la palabra original (potencialmente, se pueden elegir sustitutos del léxico completo del idioma de destino, superando así la discreción).
Enfoques y métodos
Hay dos enfoques principales para el WSD: enfoques profundos y enfoques superficiales.
Los enfoques profundos presuponen el acceso a un cuerpo completo de conocimiento mundial . Estos enfoques generalmente no se consideran muy exitosos en la práctica, principalmente porque tal cuerpo de conocimiento no existe en un formato legible por computadora, fuera de dominios muy limitados. [18] Además, debido a la larga tradición en lingüística computacional , de probar tales enfoques en términos de conocimiento codificado y, en algunos casos, puede ser difícil distinguir entre el conocimiento involucrado en el conocimiento lingüístico o del mundo. El primer intento fue el de Margaret Masterman y sus colegas, en la Unidad de Investigación de Idiomas de Cambridge en Inglaterra, en la década de 1950. Este intento utilizó como dato una versión en tarjeta perforada del Tesauro de Roget y sus "cabezas" numeradas, como indicador de temas y buscó repeticiones en el texto, utilizando un algoritmo de intersección establecido. No tuvo mucho éxito, [19] pero tuvo fuertes relaciones con trabajos posteriores, especialmente la optimización del aprendizaje automático de Yarowsky de un método de tesauro en la década de 1990.
Los enfoques superficiales no intentan comprender el texto, sino que consideran las palabras que lo rodean. Estas reglas pueden ser derivadas automáticamente por la computadora, usando un corpus de entrenamiento de palabras etiquetadas con sus sentidos de palabras. Este enfoque, aunque teóricamente no es tan poderoso como los enfoques profundos, da resultados superiores en la práctica, debido al conocimiento limitado del mundo de la computadora.
Hay cuatro enfoques convencionales para WSD:
- Métodos basados en diccionarios y conocimientos: se basan principalmente en diccionarios, tesauros y bases de conocimientos léxicos , sin utilizar pruebas de corpus.
- Métodos semi-supervisados o mínimamente supervisados : estos hacen uso de una fuente secundaria de conocimiento, como un pequeño corpus anotado como información inicial en un proceso de arranque, o un corpus bilingüe alineado con palabras.
- Métodos supervisados : utilizan corpus con anotaciones de sentido para entrenar.
- Métodos no supervisados : estos evitan (casi) completamente la información externa y funcionan directamente a partir de corpus sin anotar. Estos métodos también se conocen con el nombre de discriminación del sentido de las palabras .
Casi todos estos enfoques funcionan definiendo una ventana de n palabras de contenido alrededor de cada palabra para eliminar la ambigüedad en el corpus, y analizando estadísticamente esas n palabras circundantes. Dos enfoques poco profundos que se utilizan para entrenar y luego eliminar la ambigüedad son los clasificadores y árboles de decisión de Naïve Bayes . En investigaciones recientes, los métodos basados en kernel , como las máquinas de vectores de soporte, han demostrado un rendimiento superior en el aprendizaje supervisado . Los enfoques basados en gráficos también han ganado mucha atención por parte de la comunidad de investigadores y actualmente logran un rendimiento cercano al estado del arte.
Métodos basados en diccionarios y conocimientos
El algoritmo de Lesk [20] es el método fundamental basado en el diccionario. Se basa en la hipótesis de que las palabras utilizadas juntas en el texto están relacionadas entre sí y que la relación se puede observar en las definiciones de las palabras y sus sentidos. Dos (o más) palabras se eliminan de la ambigüedad al encontrar el par de sentidos del diccionario con la mayor superposición de palabras en sus definiciones de diccionario. Por ejemplo, al eliminar la ambigüedad de las palabras en "piña de pino", las definiciones de los sentidos apropiados incluyen las palabras perenne y árbol (al menos en un diccionario). Un enfoque similar [21] busca la ruta más corta entre dos palabras: la segunda palabra se busca iterativamente entre las definiciones de cada variante semántica de la primera palabra, luego entre las definiciones de cada variante semántica de cada palabra en las definiciones anteriores y así en. Finalmente, la primera palabra se desambigua seleccionando la variante semántica que minimiza la distancia de la primera a la segunda palabra.
Una alternativa a la utilización de las definiciones es considerar en general palabra-sentido de relación y para calcular la similitud semántica de cada par de sentidos de palabras en base a una base de conocimiento léxico dada, tal como WordNet . Se han aplicado con cierto éxito métodos basados en gráficos que recuerdan la difusión de la investigación de activación de los primeros días de la investigación de la IA. Se ha demostrado que los enfoques basados en gráficos más complejos funcionan casi tan bien como los métodos supervisados [22] o incluso los superan en dominios específicos. [3] [23] Recientemente, se ha informado que las medidas de conectividad de gráficos simples , como el grado , realizan WSD de última generación en presencia de una base de conocimiento léxico suficientemente rica. [24] Además, se ha demostrado que la transferencia automática de conocimiento en forma de relaciones semánticas de Wikipedia a WordNet impulsa los métodos simples basados en el conocimiento, permitiéndoles competir con los mejores sistemas supervisados e incluso superarlos en un entorno específico de dominio. [25]
El uso de preferencias de selección (o restricciones de selección) también es útil, por ejemplo, sabiendo que uno normalmente cocina la comida, se puede eliminar la ambigüedad de la palabra bajo en "Estoy cocinando bajos" (es decir, no es un instrumento musical).
Métodos supervisados
Los métodos supervisados se basan en el supuesto de que el contexto puede proporcionar suficiente evidencia por sí solo para eliminar la ambigüedad de las palabras (por lo tanto, el sentido común y el razonamiento se consideran innecesarios). Probablemente todos los algoritmos de aprendizaje automático que se están aplicando se han aplicado a WSD, incluidas las técnicas asociadas, como la selección de funciones , la optimización de parámetros y el aprendizaje por conjuntos . Se ha demostrado que las máquinas vectoriales de soporte y el aprendizaje basado en la memoria son los enfoques más exitosos, hasta la fecha, probablemente porque pueden hacer frente a la alta dimensionalidad del espacio de características. Sin embargo, estos métodos supervisados están sujetos a un nuevo cuello de botella en la adquisición de conocimientos, ya que dependen de cantidades sustanciales de corpus con etiquetas sensoriales manuales para la capacitación, que son laboriosos y costosos de crear.
Métodos semi-supervisados
Debido a la falta de datos de entrenamiento, muchos algoritmos de desambiguación del sentido de las palabras utilizan el aprendizaje semi-supervisado , que permite tanto datos etiquetados como no etiquetados. El algoritmo de Yarowsky fue un ejemplo temprano de tal algoritmo. [26] Utiliza las propiedades "Un sentido por colocación" y "Un sentido por discurso" de los lenguajes humanos para la desambiguación del sentido de las palabras. A partir de la observación, las palabras tienden a exhibir solo un sentido en la mayoría de los discursos dados y en una colocación determinada. [ cita requerida ]
El enfoque de bootstrapping comienza con una pequeña cantidad de datos semilla para cada palabra: ya sea ejemplos de entrenamiento etiquetados manualmente o un pequeño número de reglas de decisión infalibles (por ejemplo, 'tocar' en el contexto de 'bajo' casi siempre indica el instrumento musical). Las semillas se utilizan para entrenar a un clasificador inicial , utilizando cualquier método supervisado. Luego, este clasificador se usa en la parte sin etiquetar del corpus para extraer un conjunto de entrenamiento más grande, en el que solo se incluyen las clasificaciones más confiables. El proceso se repite, cada nuevo clasificador se entrena en un corpus de entrenamiento sucesivamente más grande, hasta que se consume todo el corpus, o hasta que se alcanza un número máximo dado de iteraciones.
Otras técnicas semi-supervisadas utilizan grandes cantidades de corpus sin etiquetar para proporcionar información de co-ocurrencia que complementa los corpus etiquetados. Estas técnicas tienen el potencial de ayudar en la adaptación de modelos supervisados a diferentes dominios.
Además, una palabra ambigua en un idioma a menudo se traduce a diferentes palabras en un segundo idioma, según el sentido de la palabra. Se han utilizado corpus bilingües alineados con palabras [¿ por quién? ] para inferir distinciones de sentido entre lenguas, una especie de sistema semi-supervisado.
Métodos no supervisados
El aprendizaje no supervisado es el mayor desafío para los investigadores de WSD. El supuesto subyacente es que sentidos similares ocurren en contextos similares y, por lo tanto, los sentidos pueden ser inducidos a partir del texto agrupando las ocurrencias de palabras usando alguna medida de similitud de contexto, [27] una tarea conocida como inducción o discriminación del sentido de las palabras . Entonces, las nuevas apariciones de la palabra se pueden clasificar en los grupos / sentidos inducidos más cercanos. El rendimiento ha sido menor que el de los otros métodos descritos anteriormente, pero las comparaciones son difíciles ya que los sentidos inducidos deben mapearse en un diccionario conocido de sentidos de palabras. Si no se desea un mapeo a un conjunto de sentidos de diccionario, se pueden realizar evaluaciones basadas en grupos (incluidas medidas de entropía y pureza). Alternativamente, los métodos de inducción del sentido de las palabras se pueden probar y comparar dentro de una aplicación. Por ejemplo, se ha demostrado que la inducción del sentido de las palabras mejora la agrupación de resultados de búsqueda en la Web al aumentar la calidad de las agrupaciones de resultados y el grado de diversificación de las listas de resultados. [28] [29] Se espera que el aprendizaje no supervisado supere el cuello de botella en la adquisición de conocimientos porque no dependen del esfuerzo manual.
Representar palabras considerando su contexto a través de vectores densos de tamaño fijo ( incrustaciones de palabras ) se ha convertido en uno de los bloques más fundamentales en varios sistemas de PNL. [30] [31] [32] Aunque la mayoría de las técnicas tradicionales de incrustación de palabras combinan palabras con múltiples significados en una única representación vectorial, aún se pueden usar para mejorar la WSD. [33] Además de las técnicas de inserción de palabras, las bases de datos léxicas (por ejemplo, WordNet , ConceptNet , BabelNet ) también pueden ayudar a los sistemas no supervisados a mapear palabras y sus sentidos como diccionarios. Algunas técnicas que combinan bases de datos léxicas e incrustaciones de palabras se presentan en AutoExtend [34] [35] y la Anotación de sentido más adecuada (MSSA). [36] En AutoExtend, [35] presentan un método que desacopla una representación de entrada de objeto en sus propiedades, como palabras y sus sentidos de palabra. AutoExtend utiliza una estructura gráfica para mapear palabras (por ejemplo, texto) y objetos que no son palabras (por ejemplo, sintetizadores en WordNet ) como nodos y la relación entre nodos como bordes. Las relaciones (bordes) en AutoExtend pueden expresar la adición o similitud entre sus nodos. El primero captura la intuición detrás del cálculo de compensación, [30] mientras que el segundo define la similitud entre dos nodos. En MSSA, [36] un sistema de desambiguación no supervisado utiliza la similitud entre los sentidos de las palabras en una ventana de contexto fija para seleccionar el sentido de las palabras más adecuado utilizando un modelo de incrustación de palabras previamente entrenado y WordNet . Para cada ventana de contexto, MSSA calcula el centroide de cada definición de sentido de palabra promediando los vectores de palabras de sus palabras en las glosas de WordNet (es decir, glosa de definición corta y uno o más ejemplos de uso) utilizando un modelo de incrustaciones de palabras previamente entrenado. Estos centroides se utilizan posteriormente para seleccionar el sentido de la palabra con la mayor similitud de una palabra objetivo con sus vecinas inmediatamente adyacentes (es decir, palabras predecesoras y sucesoras). Una vez que se anotan y eliminan la ambigüedad de todas las palabras, se pueden utilizar como un corpus de formación en cualquier técnica estándar de inserción de palabras. En su versión mejorada, MSSA puede hacer uso de incrustaciones de sentido de palabras para repetir su proceso de desambiguación de forma iterativa.
Otros enfoques
Otros enfoques pueden variar de manera diferente en sus métodos:
- Desambiguación impulsada por el dominio; [37] [38]
- Identificación de los sentidos dominantes de la palabra; [39] [40] [41]
- WSD usando evidencia interlingüística. [42] [43]
- Solución WSD en NLU independiente del lenguaje de John Ball que combina la teoría de Patom [1] y RRG (gramática de roles y referencias)
- Inferencia de tipos en gramáticas basadas en restricciones [44]
Otros idiomas
- Hindi : la falta de recursos léxicos en hindi ha obstaculizado el rendimiento de los modelos supervisados de WSD, mientras que los modelos no supervisados sufren debido a una morfología extensa. Una posible solución a este problema es el diseño de un modelo WSD mediante corpus paralelos . [45] [46] La creación de WordNet en hindi ha allanado el camino para varios métodos supervisados que han demostrado producir una mayor precisión en la desambiguación de sustantivos. [47]
Impedimentos locales y resumen
El cuello de botella en la adquisición de conocimientos es quizás el mayor impedimento para resolver el problema de WSD. Los métodos no supervisados se basan en el conocimiento sobre los sentidos de las palabras, que se formula escasamente en diccionarios y bases de datos léxicas. Los métodos supervisados dependen fundamentalmente de la existencia de ejemplos anotados manualmente para cada sentido de la palabra, un requisito que hasta ahora puede [ ¿cuándo? ] se cumple sólo con un puñado de palabras con fines de prueba, como se hace en los ejercicios de Senseval .
Una de las tendencias más prometedoras en la investigación de WSD es utilizar el corpus más grande jamás accesible, la World Wide Web , para adquirir información léxica automáticamente. [48] WSD se ha entendido tradicionalmente como una tecnología de ingeniería del lenguaje intermedio que podría mejorar aplicaciones como la recuperación de información (IR). En este caso, sin embargo, lo contrario también es cierto: los motores de búsqueda web implementan técnicas de IR simples y robustas que pueden minar con éxito la web en busca de información para usar en WSD. La histórica falta de datos de entrenamiento ha provocado la aparición de algunos algoritmos y técnicas nuevos, como se describe en Adquisición automática de corpus con etiquetas sensoriales .
Fuentes de conocimiento externas
El conocimiento es un componente fundamental de WSD. Las fuentes de conocimiento proporcionan datos que son esenciales para asociar los sentidos con las palabras. Pueden variar desde corpus de textos, sin etiquetar o anotados con el sentido de las palabras, hasta diccionarios, tesauros, glosarios, ontologías legibles por máquina, etc. Pueden clasificarse [49] [50] de la siguiente manera:
Estructurado:
- Diccionarios legibles por máquina (MRD)
- Ontologías
- Tesauros
No estructurado:
- Recursos de colocación
- Otros recursos (como listas de frecuencia de palabras , listas de palabras irrelevantes , etiquetas de dominio, [51], etc.)
- Corpora : corpora en bruto y corpora con anotaciones de sentido
Evaluación
Comparar y evaluar diferentes sistemas WSD es extremadamente difícil, debido a los diferentes conjuntos de pruebas, inventarios de sentidos y recursos de conocimiento adoptados. Antes de la organización de campañas de evaluación específicas, la mayoría de los sistemas se evaluaban en base a conjuntos de datos internos, a menudo a pequeña escala . Para probar el algoritmo de uno, los desarrolladores deben dedicar su tiempo a anotar todas las ocurrencias de palabras. Y comparar métodos incluso en el mismo corpus no es elegible si hay diferentes inventarios de sentido.
Para definir conjuntos de datos y procedimientos de evaluación comunes, se han organizado campañas públicas de evaluación. Senseval (ahora rebautizado como SemEval ) es un concurso internacional de desambiguación del sentido de las palabras, que se celebra cada tres años desde 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) y su sucesor, SemEval (2007) . El objetivo del concurso es organizar diferentes conferencias, preparar y anotar manualmente corpus para sistemas de prueba, realizar una evaluación comparativa de sistemas WSD en varios tipos de tareas, incluyendo WSD de muestra léxica y de todas las palabras para diferentes idiomas y, más recientemente , nuevas tareas como etiquetado de roles semánticos , brillo WSD, sustitución léxica , etc. Los sistemas presentados para evaluación a estos concursos suelen integrar diferentes técnicas y a menudo combinan métodos supervisados y basados en el conocimiento (especialmente para evitar un mal desempeño en falta de ejemplos de capacitación) .
En los últimos años 2007-2012 , las opciones de tareas de evaluación de WSD habían aumentado y el criterio para evaluar WSD ha cambiado drásticamente dependiendo de la variante de la tarea de evaluación de WSD. A continuación se enumeran las distintas tareas de WSD:
Opciones de diseño de tareas
A medida que la tecnología evoluciona, las tareas de Word Sense Disambiguation (WSD) crecen en diferentes sabores hacia varias direcciones de investigación y para más idiomas:
- Las tareas clásicas de evaluación de WSD monolingües utilizan WordNet como el inventario de sentidos y se basan en gran medida en la clasificación supervisada / semi-supervisada con los corpus anotados de sentido manual: [52]
- Classic English WSD usa Princeton WordNet ya que detecta el inventario y la entrada de clasificación primaria normalmente se basa en el corpus SemCor .
- WSD clásico para otros idiomas utiliza sus respectivos WordNet como inventarios de sentidos y corpus con anotaciones de sentido etiquetados en sus respectivos idiomas. A menudo, los investigadores también harán tapping en el corpus SemCor y alinearán bitexts con el inglés como idioma de origen.
- La tarea de evaluación de WSD en varios idiomas también se centra en WSD en 2 o más idiomas simultáneamente. A diferencia de las tareas de WSD multilingües, en lugar de proporcionar ejemplos anotados de sentido manualmente para cada sentido de un sustantivo polisémico, el inventario de sentido se construye sobre la base de corpus paralelos, por ejemplo, el corpus Europarl. [53]
- Las tareas de evaluación de WSD multilingües se centraron en WSD en 2 o más idiomas simultáneamente, utilizando sus respectivas WordNets como sus inventarios de sentidos o BabelNet como inventario de sentidos multilingüe. [54] Se desarrolló a partir de las tareas de evaluación de Translation WSD que se llevaron a cabo en Senseval-2. Un enfoque popular es realizar WSD monolingüe y luego mapear los sentidos del idioma de origen en las correspondientes traducciones de la palabra de destino. [55]
- La tarea de inducción y desambiguación de sentido de palabra es una evaluación de tarea combinada en la que el inventario de sentido se induce primero a partir de un conjunto de datos de entrenamiento fijo , que consta de palabras polisémicas y la oración en la que ocurrieron, luego WSD se realiza en un conjunto de datos de prueba diferente . [56]
Software
- Babelfy, [57] un sistema unificado de vanguardia para la desambiguación del sentido de palabras y la vinculación de entidades en varios idiomas
- API de BabelNet, [58] una API de Java para la desambiguación de sentido de palabras multilingüe basada en el conocimiento en 6 idiomas diferentes utilizando la red semántica de BabelNet
- WordNet :: SenseRelate, [59] un proyecto que incluye sistemas gratuitos de código abierto para la desambiguación del sentido de las palabras y la desambiguación del sentido de la muestra léxica.
- UKB: Graph Base WSD, [60] una colección de programas para realizar desambiguación de sentido de palabras basada en gráficos y similitud / relación léxica utilizando una base de conocimientos léxica preexistente [61]
- pyWSD, [62] implementaciones de Python de las tecnologías Word Sense Disambiguation (WSD)
Ver también
- Ambigüedad
- Lenguaje natural controlado
- Vinculación de entidades
- Algoritmo de Lesk
- Sustitución léxica
- Etiquetado de parte de la voz
- Polisemia
- Semeval
- Unificación semántica
- Interpretación judicial
- Desambiguación del límite de la oración
- Ambigüedad sintáctica
- Sentido de la palabra
- Inducción del sentido de la palabra
Notas
- ^ Weaver, 1949 .
- ^ Bar-Hillel 1964 , págs. 174-179.
- ^ a b Pradhan y col. 2007 , págs. 87–92.
- ^ Yarowsky 1992 , págs. 454–460.
- ^ Mihalcea 2007 .
- ^ A. Moro, A. Raganato, R. Navigli. La vinculación de entidades se encuentra con la desambiguación del sentido de la palabra: un enfoque unificado Archivado el 8 de agosto de 2014 en Wayback Machine . Transacciones de la Asociación de Lingüística Computacional (TACL), 2, págs. 231-244, 2014.
- ^ Martínez, Angel R. (enero de 2012). "Etiquetado de parte del discurso: etiquetado de parte del discurso" . Revisiones interdisciplinarias de Wiley: Estadística computacional . 4 (1): 107-113. doi : 10.1002 / wics.195 .
- ^ Fellbaum 1997 .
- ^ Snyder y Palmer 2004 , págs. 41–43.
- ^ Snow y col. 2007 , págs. 1005–1014.
- ^ Lenat .
- ^ Palmer, Babko-Malaya y Dang 2004 , págs. 49–56.
- ^ Edmonds 2000 .
- ^ Kilgarrif 1997 , págs. 91-113.
- ^ Lenat y Guha 1989 .
- ^ Wilks, Slator y Guthrie 1996 .
- ^ Lesk 1986 , págs. 24-26.
- ^ Diamantini, C .; Mircoli, A .; Potena, D .; Storti, E. (1 de junio de 2015). "Desambiguación semántica en un sistema de descubrimiento de información social". Conferencia internacional de 2015 sobre tecnologías y sistemas de colaboración (CTS) : 326–333. doi : 10.1109 / CTS.2015.7210442 . ISBN 978-1-4673-7647-1. S2CID 13260353 .
- ^ Agirre, Lopez de Lacalle y Soroa 2009 , págs. 1501-1506.
- ^ Yarowsky 1995 , págs. 189-196.
- ^ Schütze 1998 , págs. 97-123.
- ^ a b Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (16 de enero de 2013). "Estimación eficiente de representaciones de palabras en el espacio vectorial". arXiv : 1301.3781 [ cs.CL ].
- ^ Pennington, Jeffrey; Socher, Richard; Manning, Christopher (2014). "Glove: Vectores globales para representación de palabras". Actas de la Conferencia de 2014 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP) . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 1532-1543. doi : 10.3115 / v1 / d14-1162 . S2CID 1957433 .
- ^ Bojanowski, Piotr; Grave, Edouard; Joulin, Armand; Mikolov, Tomas (diciembre de 2017). "Enriquecimiento de vectores de palabras con información de subpalabras" . Transacciones de la Asociación de Lingüística Computacional . 5 : 135-146. doi : 10.1162 / tacl_a_00051 . ISSN 2307-387X .
- ^ Iacobacci, Ignacio; Pilehvar, Mohammad Taher; Navigli, Roberto (2016). "Incrustaciones para desambiguación del sentido de la palabra: un estudio de evaluación" . Actas de la 54ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 1: Artículos extensos) . Berlín, Alemania: Asociación de Lingüística Computacional: 897–907. doi : 10.18653 / v1 / P16-1085 .
- ^ Rothe, Sascha; Schütze, Hinrich (2015). "AutoExtend: extensión de incrustaciones de Word a incrustaciones para Synsets y Lexemes". Actas de la 53ª Reunión Anual de la Asociación de Lingüística Computacional y la 7ª Conferencia Internacional Conjunta sobre Procesamiento del Lenguaje Natural (Volumen 1: Artículos extensos) . Stroudsburg, PA, EE.UU .: Asociación de Lingüística Computacional: 1793–1803. arXiv : 1507.01127 . Código bibliográfico : 2015arXiv150701127R . doi : 10.3115 / v1 / p15-1173 . S2CID 15687295 .
- ^ a b Rothe, Sascha; Schütze, Hinrich (septiembre de 2017). "Autoextender: combinación de incrustaciones de Word con recursos semánticos" . Lingüística computacional . 43 (3): 593–617. doi : 10.1162 / coli_a_00294 . ISSN 0891-2017 .
- ^ a b Ruas, Terry; Grosky, William; Aizawa, Akiko (diciembre de 2019). "Incrustaciones de sentido múltiple a través de un proceso de desambiguación de sentido de palabras". Sistemas expertos con aplicaciones . 136 : 288-303. doi : 10.1016 / j.eswa.2019.06.026 . hdl : 2027,42 / 145475 .
- ^ Gliozzo, Magnini y Strapparava 2004 , págs. 380–387.
- ^ Buitelaar y col. 2006 , págs. 275-298.
- ^ McCarthy y col. 2007 , págs. 553–590.
- ^ Mohammad y Hirst , 2006 , págs. 121-128.
- ^ Lapata y Keller 2007 , págs. 348–355.
- ^ Ide, Erjavec y Tufis 2002 , págs. 54–60.
- ^ Chan y Ng 2005 , págs. 1037-1042.
- ^ Stuart M. Shieber (1992). Formalismos gramaticales basados en restricciones: análisis e inferencia de tipos para lenguajes naturales y de computadora . MIT Press. ISBN 978-0-262-19324-5.
- ^ Bhattacharya, Indrajit, Lise Getoor y Yoshua Bengio. Desambiguación de sentido no supervisado utilizando modelos probabilísticos bilingües . Actas de la 42ª Reunión Anual de la Asociación de Lingüística Computacional. Asociación de Lingüística Computacional, 2004.
- ^ Diab, Mona y Philip Resnik. Un método no supervisado para etiquetar el sentido de las palabras utilizando corpus paralelos . Actas de la 40ª Reunión Anual de la Asociación de Lingüística Computacional. Asociación de Lingüística Computacional, 2002.
- ^ Manish Sinha, Mahesh Kumar, Prabhakar Pande, Laxmi Kashyap y Pushpak Bhattacharyya. Desambiguación del sentido de la palabra hindi . En el Simposio internacional sobre traducción automática, procesamiento del lenguaje natural y sistemas de apoyo a la traducción, Delhi, India, 2004.
- ^ Kilgarrif y Grefenstette 2003 , págs. 333–347.
- ^ Litkowski 2005 , págs. 753–761.
- ^ Agirre y Stevenson , 2006 , págs. 217-251.
- ^ Magnini y Cavaglià 2000 , págs. 1413-1418.
- ^ Lucia Specia, Maria das Gracas Volpe Nunes, Gabriela Castelo Branco Ribeiro y Mark Stevenson. WSD multilingüe versus monolingüe Archivado el 10 de abril de 2012 en Wayback Machine . En EACL-2006 Workshop on Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, páginas 33–40, Trento, Italia, abril de 2006.
- ^ Els Lefever y Veronique Hoste. Tarea 3 de SemEval-2010: desambiguación del sentido de las palabras en varios idiomas . Actas del taller sobre evaluaciones semánticas: logros recientes y direcciones futuras. 4 y 4 de junio de 2009, Boulder, Colorado
- ^ R. Navigli, DA Jurgens, D. Vannella. SemEval-2013 Tarea 12: Desambiguación de sentido de palabras multilingües . Proc. del 7mo Taller Internacional sobre Evaluación Semántica (SemEval), en la Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional (* SEM 2013), Atlanta, USA, 14-15 de junio de 2013, pp. 222-231.
- ^ Lucia Specia, Maria das Gracas Volpe Nunes, Gabriela Castelo Branco Ribeiro y Mark Stevenson. WSD multilingüe versus monolingüe Archivado el 10 de abril de 2012 en Wayback Machine . En EACL-2006 Workshop on Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, páginas 33–40, Trento, Italia, abril de 2006
- ^ Eneko Agirre y Aitor Soroa. Tarea 02 de Semeval-2007: Evaluación de sistemas de discriminación e inducción del sentido de las palabras . Actas del IV Taller Internacional sobre Evaluaciones Semánticas, p. 7-12, 23-24 de junio de 2007, Praga, República Checa
- ^ "Babelfy" . Babelfy . Consultado el 22 de marzo de 2018 .
- ^ "API de BabelNet" . Babelnet.org . Consultado el 22 de marzo de 2018 .
- ^ "WordNet :: SenseRelate" . Senserelate.sourceforge.net . Consultado el 22 de marzo de 2018 .
- ^ "UKB: Gráfico base WSD" . Ixa2.si.ehu.es . Consultado el 22 de marzo de 2018 .
- ^ "Base de conocimientos léxicos (LKB)" . Moin.delph-in.net. 2018-02-05 . Consultado el 22 de marzo de 2018 .
- ^ elevaciones. "pyWSD" . Github.com . Consultado el 22 de marzo de 2018 .
Trabajos citados
- Agirre, E .; López de Lacalle, A .; Soroa, A. (2009). "WSD basado en conocimientos en dominios específicos: rendimiento mejor que WSD genérico supervisado" (PDF) . Proc. de IJCAI .
- Agirre, E .; M. Stevenson. 2006. Fuentes de conocimiento para WSD. En Word Sense Disambiguation: Algoritmos y aplicaciones , E. Agirre y P. Edmonds, Eds. Springer, Nueva York, NY.
- Bar-Hillel, Y. (1964). Idioma e información . Reading, MA: Addison-Wesley.
- Buitelaar, P .; B. Magnini, C. Strapparava y P. Vossen. 2006. WSD de dominio específico. En Word Sense Disambiguation: Algoritmos y aplicaciones, E. Agirre y P. Edmonds, Eds. Springer, Nueva York, NY.
- Chan, YS; HT Ng. 2005. Ampliación de la desambiguación del sentido de las palabras a través de textos paralelos. En Actas de la 20ª Conferencia Nacional sobre Inteligencia Artificial (AAAI, Pittsburgh, PA).
- Edmonds, P. 2000. Diseñando una tarea para SENSEVAL-2 . Tech. Nota. Universidad de Brighton, Brighton. Reino Unido
- Fellbaum, Christiane (1997). "Análisis de una tarea de escritura a mano". Proc. del taller ANLP-97 sobre etiquetado de texto con semántica léxica: ¿por qué, qué y cómo? Washington DC, Estados Unidos .
- Gliozzo, A .; B. Magnini y C. Strapparava. 2004. Estimación no supervisada de la relevancia del dominio para la desambiguación del sentido de las palabras . En Actas de la Conferencia de 2004 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP, Barcelona, España).
- Ide, N .; T. Erjavec, D. Tufis. 2002. Discriminación de sentidos con corpus paralelos . En Actas del taller de ACL sobre desambiguación del sentido de la palabra: éxitos recientes y direcciones futuras (Filadelfia, PA).
- Kilgarriff, A. 1997. No creo en los sentidos de las palabras . Computación. Humano. 31 (2), págs. 91-113.
- Kilgarriff, A .; G. Grefenstette. 2003. Introducción al número especial en la Web como corpus . Lingüística computacional 29 (3), págs. 333–347
- Kilgarriff, Adam; Joseph Rosenzweig, English Senseval: Informe y resultados de mayo a junio de 2000, Universidad de Brighton
- Lapata, M .; y F. Keller. 2007. Un enfoque de recuperación de información para la clasificación de sentidos . En Actas de la Conferencia de Tecnología del Lenguaje Humano del Capítulo Norteamericano de la Asociación de Lingüística Computacional (HLT-NAACL, Rochester, NY).
- Lenat, D. "Computadoras versus sentido común" . Consultado el 10 de diciembre de 2008 . (GoogleTachTalks en YouTube)
- Lenat, D .; RV Guha. 1989. Building Large Knowledge-Based Systems, Addison-Wesley.
- Lesk; M. 1986. Desambiguación de sentido automático usando diccionarios legibles por máquina: Cómo distinguir una piña de un cono de helado . En Proc. de SIGDOC-86: 5ª Conferencia Internacional sobre Documentación de Sistemas, Toronto, Canadá.
- Litkowski, KC 2005. Léxicos y diccionarios computacionales. En Enciclopedia de Lengua y Lingüística (2ª ed.), KR Brown, Ed. Editores Elsevier, Oxford, Reino Unido
- Magnini, B; G. Cavaglià. 2000. Integración de códigos de campo de materia en WordNet. En Actas de la 2ª Conferencia sobre Evaluación y Recursos Lingüísticos (LREC, Atenas, Grecia).
- McCarthy, D .; R. Koeling, J. Weeds, J. Carroll. 2007. Adquisición no supervisada de los sentidos predominantes de las palabras . Lingüística computacional 33 (4): 553–590.
- McCarthy, D .; R. Navigli. 2009. Tarea de sustitución léxica en inglés , evaluación y recursos lingüísticos, 43 (2), Springer.
- Mihalcea, R. 2007. Uso de Wikipedia para la desambiguación automática del sentido de palabras . En Proc. del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL 2007), Rochester, abril de 2007.
- Mohammad, S; G. Hirst. 2006. Determinación del dominio del sentido de las palabras mediante un diccionario de sinónimos . En Actas de la 11ª Conferencia sobre el capítulo europeo de la Asociación de Lingüística Computacional (EACL, Trento, Italia).
- Navigli, R. 2006. La agrupación significativa de sentidos ayuda a mejorar el rendimiento de la desambiguación del sentido de la palabra . Proc. de la 44ª Reunión Anual de la Asociación de Lingüística Computacional en conjunto con la 21ª Conferencia Internacional de Lingüística Computacional (COLING-ACL 2006), Sydney, Australia.
- Navigli, R .; A. Di Marco. Agrupación y diversificación de resultados de búsqueda web con inducción de sentido de palabras basada en gráficos . Lingüística computacional, 39 (3), MIT Press, 2013, págs. 709–754.
- Navigli, R .; G. Crisafulli. Inducir los sentidos de las palabras para mejorar la agrupación de resultados de búsqueda web . Proc. de la Conferencia de 2010 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP 2010), MIT Stata Center, Massachusetts, EE. UU.
- Navigli, R .; M. Lapata. Un estudio experimental de conectividad de gráficos para desambiguación de sentido de palabras sin supervisión . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas (TPAMI), 32 (4), IEEE Press, 2010.
- Navigli, R .; K. Litkowski, O. Hargraves. 2007. SemEval-2007 Tarea 07: Tarea de palabras completas en inglés de grano grueso . Proc. del Taller Semeval-2007 ( SemEval ), en la 45ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2007), Praga, República Checa.
- Navigli, R.; P. Velardi. 2005. Interconexiones semánticas estructurales: un enfoque basado en el conocimiento para la desambiguación del sentido de las palabras . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas (TPAMI), 27 (7).
- Palmer, M .; O. Babko-Malaya y HT Dang. 2004. Diferentes granularidades de sentido para diferentes aplicaciones . En las actas del segundo taller sobre sistemas escalables de comprensión del lenguaje natural en HLT / NAACL (Boston, MA).
- Ponzetto, SP; R. Navigli. La desambiguación del sentido de las palabras, rica en conocimientos, rivaliza con los sistemas supervisados . En Proc. de la 48a Reunión Anual de la Asociación de Lingüística Computacional (ACL), 2010.
- Pradhan, S .; E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Tarea 17: Muestra léxica en inglés, SRL y todas las palabras . Proc. del Taller Semeval-2007 (SEMEVAL), en la 45ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2007), Praga, República Checa.
- Schütze, H. 1998. Discriminación automática del sentido de las palabras . Lingüística computacional, 24 (1): 97-123.
- Snow, R .; S. Prakash, D. Jurafsky, AY Ng. 2007. Aprendiendo a fusionar los sentidos de las palabras , Actas de la Conferencia conjunta de 2007 sobre métodos empíricos en el procesamiento del lenguaje natural y el aprendizaje computacional del lenguaje natural (EMNLP-CoNLL).
- Snyder, B .; M. Palmer. 2004. La tarea de todas las palabras en inglés . En Proc. del 3er Taller Internacional de Evaluación de Sistemas para el Análisis Semántico de Texto (Senseval-3), Barcelona, España.
- Weaver, Warren (1949). "Traducción" (PDF) . En Locke, WN; Booth, AD (eds.). Traducción automática de idiomas: catorce ensayos . Cambridge, MA: MIT Press.
- Wilks, Y .; B. Slator, L. Guthrie. 1996. Palabras eléctricas: diccionarios, computadoras y significados. Cambridge, MA: MIT Press.
- Yarowsky, D. Desambiguación del sentido de las palabras utilizando modelos estadísticos de las categorías de Roget entrenados en grandes corpora . En Proc. del XIV Congreso de Lingüística Computacional (COLING), 1992.
- Yarowsky, D. 1995. Desambiguación de sentido de palabras no supervisado que rivaliza con métodos supervisados . En Proc. de la 33ª Reunión Anual de la Asociación de Lingüística Computacional.
Enlaces externos y lecturas sugeridas
- Número especial de lingüística computacional sobre desambiguación del sentido de las palabras (1998)
- Ejercicios de evaluación para la desambiguación del sentido de la palabra Los puntos de referencia estándar de facto para los sistemas WSD.
- Roberto Navigli. Desambiguación del sentido de las palabras: una encuesta , Encuestas de computación de ACM, 41 (2), 2009, págs. 1-69. Un estado del arte actualizado en el campo.
- Desambiguación del sentido de la palabra como se define en Scholarpedia
- Desambiguación del sentido de la palabra: el estado del arte (PDF) Una visión general completa Por la Prof. Nancy Ide y Jean Véronis (1998).
- Tutorial de desambiguación de Word Sense , por Rada Mihalcea y Ted Pedersen (2005).
- Bueno, bueno, bueno ... Word Sense Disambiguation con Google n-Grams , por Craig Trim (2013).
- Desambiguación del sentido de la palabra: algoritmos y aplicaciones , editado por Eneko Agirre y Philip Edmonds (2006), Springer. Cubre todo el campo con capítulos aportados por investigadores destacados. www.wsdbook.org sitio del libro
- Bar-Hillel, Yehoshua. 1964. Idioma e información. Nueva York: Addison-Wesley.
- Edmonds, Philip y Adam Kilgarriff. 2002. Introducción al número especial sobre la evaluación de los sistemas de desambiguación del sentido de las palabras. Revista de ingeniería del lenguaje natural, 8 (4): 279-291.
- Edmonds, Philip. 2005. Desambiguación léxica. The Elsevier Encyclopedia of Language and Linguistics, 2ª Ed., Ed. por Keith Brown, 607-23. Oxford: Elsevier.
- Ide, Nancy y Jean Véronis. 1998. Desambiguación del sentido de las palabras: el estado del arte. Lingüística computacional, 24 (1): 1-40.
- Jurafsky, Daniel y James H. Martin. 2000. Procesamiento del habla y el lenguaje. Nueva Jersey, Estados Unidos: Prentice Hall.
- Litkowski, KC 2005. Léxicos y diccionarios computacionales. En Enciclopedia de Lengua y Lingüística (2ª ed.), KR Brown, Ed. Elsevier Publishers, Oxford, Reino Unido, 753–761.
- Manning, Christopher D. y Hinrich Schütze. 1999. Fundamentos del procesamiento estadístico del lenguaje natural. Cambridge, MA: MIT Press. Fundamentos del procesamiento estadístico del lenguaje natural
- Mihalcea, Rada. 2007. Desambiguación del sentido de la palabra. Enciclopedia de aprendizaje automático. Springer-Verlag.
- Resnik, Philip y David Yarowsky. 2000. Distinguir sistemas y distinguir sentidos: Nuevos métodos de evaluación para la desambiguación del sentido de las palabras, Ingeniería del lenguaje natural, 5 (2): 113-133. [2]
- Yarowsky, David. 2001. Desambiguación del sentido de la palabra. Manual de procesamiento del lenguaje natural, ed. por Dale et al., 629-654. Nueva York: Marcel Dekker.