La semántica distributiva es un área de investigación que desarrolla y estudia teorías y métodos para cuantificar y categorizar similitudes semánticas entre elementos lingüísticos en función de sus propiedades distributivas en grandes muestras de datos lingüísticos. La idea básica de la semántica distributiva se puede resumir en la denominada hipótesis distributiva : los elementos lingüísticos con distribuciones similares tienen significados similares.
Hipótesis distributiva
La hipótesis distributiva en lingüística se deriva de la teoría semántica del uso del lenguaje, es decir, las palabras que se usan y ocurren en los mismos contextos tienden a tener significados similares. [1]
La idea subyacente de que "una palabra se caracteriza por la compañía que mantiene" fue popularizada por Firth en la década de 1950. [2]
La hipótesis distributiva es la base de la semántica estadística . Aunque la Hipótesis de la Distribución se originó en la lingüística, [3] ahora está recibiendo atención en las ciencias cognitivas, especialmente en lo que respecta al contexto del uso de palabras. [4]
En los últimos años, la hipótesis distributiva ha proporcionado la base para la teoría de la generalización basada en similitudes en el aprendizaje de idiomas: la idea de que los niños pueden descubrir cómo usar palabras que rara vez han encontrado antes generalizando sobre su uso a partir de distribuciones de palabras similares. . [5] [6]
La hipótesis distributiva sugiere que cuanto más semánticamente similares sean dos palabras, más similares en distribución serán a su vez y, por lo tanto, más tenderán a ocurrir en contextos lingüísticos similares.
Si esta sugerencia es válida o no tiene implicaciones significativas tanto para el problema de la escasez de datos en el modelado computacional, [7] como para la cuestión de cómo los niños son capaces de aprender el lenguaje tan rápidamente con una entrada relativamente pobre (esto también se conoce como el problema de la pobreza del estímulo ).
Modelado semántico distributivo en espacios vectoriales
La semántica distributiva favorece el uso del álgebra lineal como herramienta computacional y marco de representación. El enfoque básico es recopilar información distribucional en vectores de alta dimensión y definir la similitud distribucional / semántica en términos de similitud vectorial. [8] Se pueden extraer diferentes tipos de similitudes según el tipo de información de distribución que se utilice para recopilar los vectores: las similitudes de actualidad se pueden extraer al poblar los vectores con información sobre las regiones de texto en las que se encuentran los elementos lingüísticos; Se pueden extraer similitudes paradigmáticas poblando los vectores con información sobre los otros elementos lingüísticos con los que coexisten los elementos. Tenga en cuenta que el último tipo de vectores también se puede utilizar para extraer similitudes sintagmáticas al observar los componentes individuales del vector.
La idea básica de una correlación entre similitud distribucional y semántica puede operacionalizarse de muchas formas diferentes. Existe una gran variedad de modelos computacionales que implementan la semántica distributiva, incluido el análisis semántico latente (LSA), [9] [10] Hiperespacio analógico al lenguaje (HAL), modelos basados en sintaxis o dependencia, [11] indexación aleatoria , plegamiento semántico [12] y diversas variantes del modelo temático . [13]
Los modelos semánticos distributivos difieren principalmente con respecto a los siguientes parámetros:
- Tipo de contexto (regiones de texto frente a elementos lingüísticos)
- Ventana de contexto (tamaño, extensión, etc.)
- Ponderación de frecuencia (por ejemplo , entropía , información mutua puntual , [14], etc.)
- Reducción de dimensión (por ejemplo , indexación aleatoria , descomposición de valores singulares , etc.)
- Medida de similitud (por ejemplo , similitud de coseno , distancia de Minkowski , etc.)
Los modelos semánticos de distribución que utilizan elementos lingüísticos como contexto también se han denominado modelos de espacio de palabras o de espacio vectorial . [15] [16]
Más allá de la semántica léxica
Si bien la semántica distributiva se ha aplicado típicamente a elementos léxicos (palabras y términos de varias palabras) con considerable éxito, sobre todo debido a su aplicabilidad como capa de entrada para modelos de aprendizaje profundo inspirados en las neuronas, la semántica léxica, es decir, el significado de las palabras, solo llevan parte de la semántica de un enunciado completo. El significado de una cláusula, por ejemplo, "A los tigres les encantan los conejos". , sólo puede entenderse parcialmente examinando el significado de los tres elementos léxicos que lo componen. La semántica distributiva se puede extender directamente para cubrir elementos lingüísticos más grandes, como construcciones, con y sin elementos no instanciados, pero algunos de los supuestos básicos del modelo deben ajustarse un poco. La gramática de la construcción y su formulación del continuo léxico-sintáctico ofrece un enfoque para incluir construcciones más elaboradas en un modelo semántico distributivo y se han implementado algunos experimentos utilizando el enfoque de indexación aleatoria. [17]
Los modelos semánticos distributivos composicionales amplían los modelos semánticos distributivos mediante funciones semánticas explícitas que utilizan reglas basadas en la sintaxis para combinar la semántica de las unidades léxicas participantes en un modelo compositivo para caracterizar la semántica de frases u oraciones completas. Este trabajo fue propuesto originalmente por Stephen Clark , Bob Coecke y Mehrnoosh Sadrzadeh de la Universidad de Oxford en su artículo de 2008, "A Compositional Distributional Model of Meaning". [18] Se han explorado diferentes enfoques de la composición, incluidos los modelos neuronales, y se están debatiendo en talleres establecidos como SemEval . [19]
Aplicaciones
Los modelos semánticos distributivos se han aplicado con éxito a las siguientes tareas:
- encontrar similitudes semánticas entre palabras y expresiones de varias palabras;
- agrupamiento de palabras basado en similitud semántica;
- creación automática de tesauros y diccionarios bilingües;
- desambiguación del sentido de la palabra ;
- ampliar las solicitudes de búsqueda utilizando sinónimos y asociaciones;
- definir el tema de un documento;
- agrupación de documentos para la recuperación de información ;
- minería de datos y reconocimiento de entidades nombradas ;
- crear mapas semánticos de diferentes dominios temáticos;
- parafraseando ;
- análisis de sentimiento ;
- Modelado de preferencias de selección de palabras.
Software
- Espacio S
- SemánticaVectores
- Gensim
- Constructor de DISCO
- Indra
Ver también
- Espacio conceptual
- Co-ocurrencia
- Base de datos distribucional-relacional
- Gensim
- Fraseme
- Indexación aleatoria
- Incrustación de oraciones
- Semántica estadística
- Word2vec
- Incrustación de palabras
Personas
- Scott Deerwester
- Susan Dumais
- JR Firth
- George Furnas
- Zellig Harris
- Richard Hirschman
- Thomas Landauer
- Magnus Sahlgren
- Hinrich Schütze
Referencias
- ↑ Harris, 1954
- ^ Firth 1957
- ^ Sahlgren 2008
- ^ McDonald y Ramscar 2001
- ^ Gleitman 2002
- ^ Yarlett 2008
- ^ Wishart, Ryder y Prokopis Prokopidis. "Experimentos de modelado de temas en corpus helenísticos". En Proceedings of the Workshop on Corpora in the Digital Humanities 17 , 39–47. Bloomington, IN: CEUR Workshop Proceedings, 2017, en línea: https://pdfs.semanticscholar.org/bd71/ab40960e481006117bafd0ae952d3e8d1f66.pdf .
- ^ Rieger 1991
- ^ Deerwester y col. 1990
- ^ Landauer, Thomas K .; Dumais, Susan T. (1997). "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento". Revisión psicológica . 104 (2): 211–240. doi : 10.1037 / 0033-295x.104.2.211 . ISSN 1939-1471 .
- ^ Padó y Lapata 2007
- ^ De Sousa Webber, Francisco (2015). "Teoría del plegado semántico y su aplicación en huellas semánticas". arXiv : 1511.08855 [ cs.AI ].
- ^ Jordan, Michael I .; Ng, Andrew Y .; Blei, David M. (2003). "Asignación de Dirichlet latente" . Revista de investigación sobre aprendizaje automático . 3 (enero): 993–1022. ISSN 1533-7928 .
- ^ Church, Kenneth Ward; Hanks, Patrick (1989). "Normas de asociación de palabras, información mutua y lexicografía" . Actas de la 27ª Reunión Anual de la Asociación de Lingüística Computacional . Morristown, Nueva Jersey, EE. UU.: Asociación de Lingüística Computacional: 76–83. doi : 10.3115 / 981623.981633 .
- ^ Schütze 1993
- ^ Sahlgren 2006
- ^ Karlgren, Jussi ; Kanerva, Pentti (2019). "Espacios semánticos distribuidos de alta dimensión para enunciados" . Ingeniería del lenguaje natural . 25 (4): 503–517. arXiv : 2104.00424 . doi : 10.1017 / S1351324919000226 . Consultado el 13 de abril de 2020 .
- ^ Clark, Stephen; Coecke, Bob; Sadrzadeh, Mehrnoosh (2008). "Un modelo composicional distributivo del significado" (PDF) . Actas del Segundo Simposio de Interacción Cuántica : 133–140.
- ^ "SemEval-2014, Tarea 1" .
Fuentes
- Harris, Z. (1954). "Estructura distributiva". Palabra . 10 (23): 146-162. doi : 10.1080 / 00437956.1954.11659520 .
- Firth, JR (1957). "Una sinopsis de la teoría lingüística 1930-1955". Estudios de análisis lingüístico : 1–32. Reimpreso en FR Palmer, ed. (1968). Artículos seleccionados de JR Firth 1952-1959 . Londres: Longman.
- Sahlgren, Magnus (2008). "La hipótesis distributiva" (PDF) . Rivista di Linguistica . 20 (1): 33–53.
- McDonald, S .; Ramscar, M. (2001). "Prueba de la hipótesis distributiva: la influencia del contexto en los juicios de similitud semántica". Actas de la 23ª Conferencia Anual de la Sociedad de Ciencias Cognitivas . págs. 611–616. CiteSeerX 10.1.1.104.7535 .
- Gleitman, Lila R. (2002). "Los verbos de una pluma se juntan II". El legado de Zellig Harris . Problemas actuales de la teoría lingüística. 1 . págs. 209–229. doi : 10.1075 / cilt.228.17gle . ISBN 978-90-272-4736-0.
- Yarlett, D. (2008). Aprendizaje de idiomas a través de la generalización basada en similitudes (PDF) (tesis doctoral). Universidad Stanford. Archivado desde el original (PDF) el 19 de abril de 2014 . Consultado el 12 de julio de 2012 .
- Rieger, Burghard B. (1991). Sobre representaciones distribuidas en semántica de Word (PDF) (Informe). ICSI Berkeley 12-1991. CiteSeerX 10.1.1.37.7976 .
- Deerwester, Scott; Dumais, Susan T .; Furnas, George W .; Landauer, Thomas K .; Harshman, Richard (1990). "Indexación por análisis semántico latente" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información . 41 (6): 391–407. CiteSeerX 10.1.1.33.2447 . doi : 10.1002 / (SICI) 1097-4571 (199009) 41: 6 <391 :: AID-ASI1> 3.0.CO; 2-9 . Archivado desde el original (PDF) el 17 de julio de 2012.
- Padó, Sebastián; Lapata, Mirella (2007). "Construcción basada en dependencias de modelos espaciales semánticos". Lingüística computacional . 33 (2): 161-199. doi : 10.1162 / coli.2007.33.2.161 . S2CID 7747235 .
- Schütze, Hinrich (1993). "Espacio de palabras". Avances en los sistemas de procesamiento de información neuronal 5 . págs. 895–902. CiteSeerX 10.1.1.41.8856 .
- Sahlgren, Magnus (2006). The Word-Space Model (PDF) (tesis doctoral). Universidad de Estocolmo.
- Thomas Landauer; Susan T. Dumais. "Una solución al problema de Platón: la teoría del análisis semántico latente de la adquisición, inducción y representación del conocimiento" . Consultado el 2 de julio de 2007 .
- Kevin Lund; Curt Burgess; Ruth Ann Atchley (1995). Cebado semántico y asociativo en un espacio semántico de alta dimensión . Actas de ciencia cognitiva. págs. 660–665.
- Kevin Lund; Curt Burgess (1996). "Producir espacios semánticos de alta dimensión a partir de la co-ocurrencia léxica" . Métodos, instrumentos y computadoras de investigación del comportamiento . 28 (2): 203-208. doi : 10.3758 / bf03204766 .
enlaces externos
- Zellig S. Harris