La secuencia entre palabras ordenadas relacionadas semánticamente se clasifica como una cadena léxica . [1] Una cadena léxica es una secuencia de palabras relacionadas por escrito , que abarcan distancias cortas (palabras u oraciones adyacentes ) o largas (texto completo). Una cadena es independiente de la estructura gramatical del texto y, en efecto, es una lista de palabras que captura una parte de la estructura cohesiva del texto. Una cadena léxica puede proporcionar un contexto para la resolución de un término ambiguo y permitir la identificación del concepto que representa el término .
- Roma → capital → ciudad → habitante
- Wikipedia → recurso → web
Acerca de
Morris y Hirst [1] introducen el término cadena léxica como una expansión de la cohesión léxica . [2] Un texto en el que muchas de sus oraciones están conectadas semánticamente a menudo produce un cierto grado de continuidad en sus ideas, proporcionando una buena cohesión entre sus oraciones. La definición utilizada para la cohesión léxica establece que la coherencia es el resultado de la cohesión, no al revés. [2] [3] La cohesión se relaciona con un conjunto de palabras que van juntas debido a una relación abstracta o concreta. La coherencia, por otro lado, tiene que ver con el significado real de todo el texto. [1]
Morris y Hirst [1] definen que las cadenas léxicas utilizan el contexto semántico para interpretar palabras, conceptos y oraciones. Por el contrario, la cohesión léxica se centra más en las relaciones de pares de palabras. Las cadenas léxicas extienden esta noción a un número de serie de palabras adyacentes. Hay dos razones principales por las que las cadenas léxicas son esenciales: [1]
- Contexto factible para ayudar en la ambigüedad y reducir los problemas a un significado específico de una palabra; y
- Pistas para determinar la coherencia y el discurso, por lo tanto, un significado semántico-estructural más profundo del texto.
El método presentado por Morris y Hirst [1] es el primero en llevar el concepto de cohesión léxica a los sistemas informáticos a través de cadenas léxicas. Usando su intuición, identificaron cadenas léxicas en documentos de texto y construyeron su estructura considerando las observaciones de Halliday y Hassan [2] . Para esta tarea, consideraron cinco documentos de texto, totalizando 183 frases de fuentes diferentes y no específicas. Las palabras repetitivas (p. Ej., Palabras de alta frecuencia, pronombres, proposiciones, auxiliares verbales) no se consideraron como elementos prospectivos de la cadena, ya que no aportan mucho valor semántico a la estructura en sí.
Las cadenas léxicas se construyen de acuerdo con una serie de relaciones entre palabras en un documento de texto. En el trabajo seminal de Morris y Hirst [1] ellos consideran un tesauro externo (Tesauro de Roget ) como su base de datos léxica para extraer estas relaciones. Una cadena léxica está formada por una secuencia de palabras. que aparecen en este orden, como dos palabras consecutivaspresentar las siguientes propiedades (es decir, atributos como categoría , índices y punteros en la base de datos léxica) : [1] [4]
- dos palabras comparten una categoría común en su índice;
- la categoría de una de estas palabras apunta a la otra palabra;
- una de las palabras pertenece a la entrada o categoría de la otra palabra;
- dos palabras están relacionadas semánticamente; y
- sus categorías concuerdan con una categoría común.
Enfoques y métodos
El uso de cadenas léxicas en tareas de procesamiento del lenguaje natural (por ejemplo, similitud de texto, desambiguación de sentido de palabras , agrupamiento de documentos ) ha sido ampliamente estudiado en la literatura. Barzilay et al [5] utilizan cadenas léxicas para producir resúmenes de textos. Proponen una técnica basada en cuatro pasos: segmentación del texto original, construcción de cadenas léxicas, identificación de cadenas confiables y extracción de oraciones significativas. Silber y McCoy [6] también investigan el resumen de texto , pero su enfoque para construir las cadenas léxicas se ejecuta en tiempo lineal.
Algunos autores utilizan WordNet [7] [8] para mejorar la búsqueda y evaluación de cadenas léxicas. Budanitsky y Kirst [9] [10] comparan varias medidas de distancia semántica y parentesco usando cadenas léxicas junto con WordNet . Su estudio concluye que la medida de similitud de Jiang y Conrath [11] presenta el mejor resultado general. Moldavan y Adrian [12] estudian el uso de cadenas léxicas para encontrar palabras relacionadas por temas para los sistemas de respuesta a preguntas . Esto se hace considerando las glosas para cada synset en WordNet. Según sus hallazgos, las relaciones temáticas a través de cadenas léxicas mejoran el rendimiento de los sistemas de respuesta a preguntas cuando se combinan con WordNet . McCarthy y col. [13] presentan una metodología para categorizar y encontrar los synsets más predominantes en textos sin etiquetar usando WordNet . A diferencia de los enfoques tradicionales (por ejemplo, BOW ), consideran las relaciones entre términos que no ocurren explícitamente. Ercan y Cicekli [14] exploran los efectos de las cadenas léxicas en la tarea de extracción de palabras clave a través de una perspectiva de aprendizaje automático supervisado. En Wei et al. [15] combina cadenas léxicas y WordNet para extraer un conjunto de palabras relacionadas semánticamente de textos y utilizarlas para agrupar. Su enfoque utiliza una estructura jerárquica ontológica para proporcionar una evaluación más precisa de la similitud entre términos durante la tarea de desambiguación del sentido de las palabras .
Cadena léxica e incrustación de palabras
Aunque la aplicabilidad de las cadenas léxicas es diversa, hay poco trabajo para explorarlas con los avances recientes en PNL, más específicamente con incrustaciones de palabras . En, [16] las cadenas léxicas se construyen utilizando patrones específicos que se encuentran en WordNet [7] y se utilizan para aprender incrustaciones de palabras . Sus vectores resultantes, se validan en la tarea de similitud de documentos . Gonzales y col. [17] utilizan incrustaciones de sentido de palabras para producir cadenas léxicas que se integran con un modelo de traducción automática neuronal. Mascarelli [18] propone un modelo que utiliza cadenas léxicas para aprovechar la traducción automática estadística mediante el uso de un codificador de documentos. En lugar de utilizar una base de datos léxica externa, utilizan incrustaciones de palabras para detectar las cadenas léxicas en el texto fuente.
Ruas y col. [4] proponen dos técnicas que combinan bases de datos léxicas , cadenas léxicas e incrustaciones de palabras , a saber, Flexible Lexical Chain II (FLLC II) y Fixed Lexical Chain II (FXLC II). El objetivo principal de FLLC II y FXLC II es representar una colección de palabras por sus valores semánticos de manera más concisa. En FLLC II, las cadenas léxicas se ensamblan dinámicamente según el contenido semántico de cada término evaluado y la relación con sus vecinos adyacentes. Siempre que haya una relación semántica que conecte dos o más palabras, deben combinarse en un concepto único. La relación semántica se obtiene a través de WordNet , que trabaja con una verdad fundamental para indicar qué estructura léxica conecta dos palabras (por ejemplo, hiperónimos, hipónimos, merónimos). Si se presenta una palabra sin ninguna afinidad semántica con la cadena actual, se inicializa una nueva cadena léxica. Por otro lado, FXLC II divide los segmentos de texto en fragmentos predefinidos, con un número específico de palabras cada uno. A diferencia de FLLC II, la técnica FXLC II agrupa una cierta cantidad de palabras en la misma estructura, independientemente de la relación semántica expresada en la base de datos léxica. En ambos métodos, cada cadena formada está representada por la palabra cuyo vector de incrustación de palabras previamente entrenado es más similar al vector promedio de las palabras constituyentes en esa misma cadena.
Ver también
- Desambiguación del sentido de las palabras
- Incrustación de palabras
- Cohesión
- Coherencia
Referencias
- ^ a b c d e f g h MorrisJane; HirstGraeme (1 de marzo de 1991). "Cohesión léxica calculada por relaciones tesaurales como indicador de la estructura del texto" . Lingüística computacional .
- ^ a b c Halliday, Michael Alexander Kirkwood (1976). Cohesión en inglés . Hasan, Ruqaiya. Londres: Longman. ISBN 0-582-55031-9. OCLC 2323723 .
- ^ Carrell, Patricia L. (1982). "La cohesión no es coherencia". TESOL Quarterly . 16 (4): 479–488. doi : 10.2307 / 3586466 . ISSN 0039-8322 . JSTOR 3586466 .
- ^ a b Ruas, Terry; Ferreira, Charles Henrique Porto; Grosky, William; de França, Fabrício Olivetti; de Medeiros, Débora Maria Rossi (01/09/2020). "Incrustaciones de palabras mejoradas mediante representación multisemántica a través de cadenas léxicas" . Ciencias de la información . 532 : 16–32. arXiv : 2101.09023 . doi : 10.1016 / j.ins.2020.04.048 . ISSN 0020-0255 .
- ^ Barzilay, Regina; McKeown, Kathleen R .; Elhadad, Michael (1999). "Fusión de información en el contexto del resumen de varios documentos" . Actas de la 37ª Reunión Anual de la Asociación de Lingüística Computacional en Lingüística Computacional . College Park, Maryland: Asociación de Lingüística Computacional: 550–557. doi : 10.3115 / 1034678.1034760 . ISBN 1558606092.
- ^ Silber, Gregory; McCoy, Kathleen (2001). "Resumen de texto eficiente utilizando cadenas léxicas | Actas de la 5ª conferencia internacional sobre interfaces de usuario inteligentes": 252-255. doi : 10.1145 / 325737.325861 . S2CID 8403554 . Cite journal requiere
|journal=
( ayuda ) - ^ a b "WordNet | Una base de datos léxica para inglés" . wordnet.princeton.edu . Consultado el 20 de mayo de 2020 .
- ^ WordNet: una base de datos léxica electrónica . Fellbaum, Christiane. Cambridge, Mass: MIT Press. 1998. ISBN 0-262-06197-X. OCLC 38104682 .CS1 maint: otros ( enlace )
- ^ Budanitsky, Alexander; Hirst, Graeme (2001). "Distancia semántica en WordNet: una evaluación experimental orientada a la aplicación de cinco medidas" (PDF) . Actas del Taller sobre WordNet y otros recursos léxicos, Segunda Reunión del Capítulo Norteamericano de la Asociación de Lingüística Computacional (NAACL-2001). págs. 24-29 . Consultado el 20 de mayo de 2020 .Mantenimiento de CS1: ubicación ( enlace )
- ^ Budanitsky, Alexander; Hirst, Graeme (2006). "Evaluación de medidas basadas en WordNet de relación semántica léxica". Lingüística computacional . 32 (1): 13–47. doi : 10.1162 / coli.2006.32.1.13 . ISSN 0891-2017 . S2CID 838777 .
- ^ Jiang, Jay J .; Conrath, David W. (20 de septiembre de 1997). "Similitud semántica basada en estadísticas de corpus y taxonomía léxica". arXiv : cmp-lg / 9709008 .
- ^ Moldavo, Dan; Novischi, Adrian (2002). "Cadenas léxicas para responder preguntas" . Actas de la XIX Conferencia Internacional de Lingüística Computacional . Taipei, Taiwán: Asociación de Lingüística Computacional. 1 : 1–7. doi : 10.3115 / 1072228.1072395 .
- ^ McCarthy, Diana; Koeling, Rob; Malezas, Julie; Carroll, John (2004). "Encontrar sentidos de palabras predominantes en texto sin etiquetar" . Actas de la 42ª Reunión Anual de la Asociación de Lingüística Computacional - ACL '04 . Barcelona, España: Asociación de Lingüística Computacional: 279 – es. doi : 10.3115 / 1218955.1218991 .
- ^ Ercan, Gonenc; Cicekli, Ilyas (2007). "Uso de cadenas léxicas para la extracción de palabras clave". Tratamiento y gestión de la información . 43 (6): 1705-1714. doi : 10.1016 / j.ipm.2007.01.015 . hdl : 11693/23343 .
- ^ Wei, Tingting; Lu, Yonghe; Chang, Huiyou; Zhou, Qiang; Bao, Xianyu (2015). "Un enfoque semántico para la agrupación de texto utilizando WordNet y cadenas léxicas" . Sistemas expertos con aplicaciones . 42 (4): 2264–2275. doi : 10.1016 / j.eswa.2014.10.023 .
- ^ Departamento de Modelización Lingüística y Procesamiento del Conocimiento, Instituto de Tecnología de la Información y la Comunicación, Academia de Ciencias de Bulgaria; Simov, Kiril; Boytcheva, Svetla; Osenova, Petya (10 de noviembre de 2017). "Hacia cadenas léxicas para incrustaciones de palabras basadas en gráficos de conocimiento" (PDF) . RANLP 2017: los avances recientes en el procesamiento del lenguaje natural se encuentran con el aprendizaje profundo . Incoma Ltd. Shoumen, Bulgaria: 679–685. doi : 10.26615 / 978-954-452-049-6_087 . ISBN 978-954-452-049-6. S2CID 41952796 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Ríos González, Annette; Mascarell, Laura; Sennrich, Rico (2017). "Mejora de la desambiguación del sentido de la palabra en la traducción automática neuronal con incrustaciones de sentido" . Actas de la Segunda Conferencia sobre Traducción Automática . Copenhague, Dinamarca: Asociación de Lingüística Computacional: 11-19. doi : 10.18653 / v1 / W17-4702 .
- ^ Mascarell, Laura (2017). "Las cadenas léxicas cumplen con las incrustaciones de palabras en la traducción automática de estadísticas a nivel de documento" . Actas del Tercer Taller sobre Discurso en Traducción Automática . Copenhague, Dinamarca: Asociación de Lingüística Computacional: 99–109. doi : 10.18653 / v1 / W17-4813 .