Plegado semántico

La teoría del plegamiento semántico describe un procedimiento para codificar la semántica del texto en lenguaje natural en una representación binaria con base semántica . Este enfoque proporciona un marco para modelar cómo el neocórtex procesa los datos del lenguaje . ^[1]

Teoría

La teoría del plegamiento semántico se inspira en Analogy as the Core of Cognition, de Douglas R. Hofstadter , que sugiere que el cerebro da sentido al mundo identificando y aplicando analogías . ^[2] La teoría plantea la hipótesis de que los datos semánticos deben, por tanto, introducirse en el neocórtex en una forma que permita la aplicación de una medida de similitud y ofrece, como solución, el vector binario disperso empleando un espacio semántico topográfico bidimensional como un marco de referencia distributivo. La teoría se basa en la teoría computacional de la corteza humana conocida como memoria temporal jerárquica (HTM) y se posiciona como una teoría complementaria para la representación de la semántica del lenguaje.

Una fortaleza particular reivindicada por este enfoque es que la representación binaria resultante permite realizar operaciones semánticas complejas de manera simple y eficiente en el nivel computacional más básico.

Espacio semántico bidimensional

De manera análoga a la estructura de la neocorteza, la teoría del plegamiento semántico postula la implementación de un espacio semántico como una cuadrícula bidimensional. Esta cuadrícula está poblada por vectores de contexto ^{[nota 1]} de tal manera que colocan vectores de contexto similares más cerca unos de otros, por ejemplo, mediante el uso de principios de aprendizaje competitivo. Este modelo de espacio vectorial se presenta en la teoría como una equivalencia del conocido modelo de espacio de palabras ^[3] descrito en la literatura sobre recuperación de información .

Dado un espacio semántico (implementado como se describió anteriormente), se puede obtener un vector de palabra ^{[nota 2]} para cualquier palabra Y empleando el siguiente algoritmo :

Para cada posición X en el mapa semántico (donde X representa coordenadas cartesianas )

 si la palabra Y está contenida en el vector de contexto en la posición X luego agregue 1 a la posición correspondiente en el vector de palabra para Y demás  agregue 0 a la posición correspondiente en el vector de palabra para Y

El resultado de este proceso será un vector-palabra que contendrá todos los contextos en los que aparece la palabra Y y, por tanto, será representativo de la semántica de esa palabra en el espacio semántico. Puede verse que el vector de palabras resultante también está en un formato de representación distribuida dispersa (SDR) [Schütze, 1993] & [Sahlgreen, 2006]. ^[3]^[4] Algunas propiedades de los SDR de palabras que son de particular interés con respecto a la semántica computacional son: ^[5]

alta resistencia al ruido : como resultado de que contextos similares se colocan más juntos en el mapa subyacente, los SDR de palabra son muy tolerantes con los "bits" falsos o desplazados.
lógica booleana : es posible manipular los SDR de palabras de una manera significativa utilizando funciones booleanas (OR, AND, exclusivo-OR) y / o aritméticas (SUBtract).
submuestreo: los SDR de palabras se pueden submuestrear en un alto grado sin una pérdida apreciable de información semántica.
Representación topológica bidimensional: La representación SDR mantiene la distribución topológica del mapa subyacente, por lo que las palabras con significados similares tendrán vectores de palabras similares. Esto sugiere que se pueden aplicar una variedad de medidas al cálculo de la similitud semántica , desde una simple superposición de elementos vectoriales, hasta un rango de medidas de distancia tales como: distancia euclidiana , distancia de Hamming , distancia de Jaccard , similitud de coseno , distancia de Levenshtein , Sørensen -Índice de dados , etc.

Espacios semánticos

Los espacios semánticos ^{[nota 3]}^[6] en el dominio del lenguaje natural tienen como objetivo crear representaciones del lenguaje natural que sean capaces de capturar significado. La motivación original para los espacios semánticos proviene de dos desafíos centrales del lenguaje natural: desajuste de vocabulario (el hecho de que el mismo significado se puede expresar de muchas maneras) y ambigüedad del lenguaje natural (el hecho de que el mismo término puede tener varios significados).

La aplicación de espacios semánticos en el procesamiento del lenguaje natural (PNL) tiene como objetivo superar las limitaciones de los enfoques basados en reglas o modelos que operan en el nivel de palabras clave . El principal inconveniente de estos enfoques es su fragilidad y el gran esfuerzo manual requerido para crear sistemas de PNL basados en reglas o corpus de capacitación para el aprendizaje de modelos. ^[7]^{[8] Los} modelos basados en reglas y en aprendizaje automático se fijan en el nivel de palabras clave y se desglosan si el vocabulario difiere del definido en las reglas o del material de capacitación utilizado para los modelos estadísticos.

La investigación en espacios semánticos se remonta a más de 20 años. En 1996 se publicaron dos artículos que llamaron mucho la atención en torno a la idea general de crear espacios semánticos: el análisis semántico latente ^[9] de Microsoft e Hyperspace Analogue to Language ^[10] de la Universidad de California . Sin embargo, su adopción se vio limitada por el gran esfuerzo computacional requerido para construir y usar esos espacios semánticos. Un gran avance en cuanto a la exactitud de modelar las relaciones asociativas entre las palabras (por ejemplo, "tela de araña", "más ligero del cigarrillo", en contraposición a las relaciones sinónimas como "ballenas y los delfines", "astronauta-driver") se logró mediante la explícita análisis semántico (ESA) ^[11] en 2007. ESA era un enfoque novedoso (sin aprendizaje automático) que representaba palabras en forma de vectores con 100.000 dimensiones (donde cada dimensión representa un artículo en Wikipedia ). Sin embargo, las aplicaciones prácticas del enfoque son limitadas debido al gran número de dimensiones requeridas en los vectores.

Más recientemente, los avances en las técnicas de redes neuronales en combinación con otros nuevos enfoques ( tensores ) llevaron a una serie de nuevos desarrollos recientes: Word2vec ^[12] de Google y GloVe ^[13] de la Universidad de Stanford .

El plegado semántico representa un enfoque novedoso de inspiración biológica para los espacios semánticos donde cada palabra se representa como un vector binario disperso con 16.000 dimensiones (una huella digital semántica) en un mapa semántico 2D (el universo semántico). La representación binaria dispersa es ventajosa en términos de eficiencia computacional y permite el almacenamiento de un gran número de patrones posibles. ^[5]

Visualización

Imagen de huella digital semántica comparando los términos "perro" y "coche".

Imagen de huella digital semántica comparando los términos "jaguar" y "Porsche"

La distribución topológica sobre una cuadrícula bidimensional (descrita anteriormente) se presta a una visualización tipo mapa de bits de la semántica de cualquier palabra o texto, donde cada característica semántica activa puede mostrarse como, por ejemplo, un píxel . Como se puede ver en las imágenes que se muestran aquí, esta representación permite una comparación visual directa de la semántica de dos (o más) elementos lingüísticos.

La imagen 1 demuestra claramente que los dos términos dispares "perro" y "coche" tienen, como era de esperar, una semántica muy obviamente diferente.

La imagen 2 muestra que sólo uno de los contextos de significado de "jaguar", el de "Jaguar" el automóvil, se superpone con el significado de Porsche (lo que indica similitud parcial). Otros contextos de significado de "jaguar", por ejemplo, "jaguar", el animal claramente tienen diferentes contextos que no se superponen. La visualización de la similitud semántica mediante el plegado semántico tiene un gran parecido con las imágenes de resonancia magnética funcional producidas en un estudio de investigación realizado por AG Huth et al., ^[14] donde se afirma que las palabras se agrupan en el cerebro por significado.

Notas

^ Un vector de contexto se define como un vector que contiene todas las palabras en un contexto particular.
^ Una palabra-vector o palabra-SDR se conoce como Huella digital semántica en la teoría del plegado semántico.
^ también conocido como espacios semánticos distribuidos o memoria semántica distribuida

Referencias

^ De Sousa Webber, Francisco (2015). "Teoría del plegado semántico y su aplicación en huellas semánticas". Biblioteca de la Universidad de Cornell . arXiv : 1511.08855 . Código bibliográfico : 2015arXiv151108855D .
^ "La Mente Analógica" . Prensa del MIT . Consultado el 18 de abril de 2016 .
^ a b Sahlgreen, Magnus (2006). "El modelo de espacio de palabras" .
^ Schütze, Hinrich (1993). "Espacio de palabras": 895–902. CiteSeerX 10.1.1.41.8856 . Cite journal requiere |journal=( ayuda )
^ a b Subutai Ahmad; Jeff Hawkins (2015). "Propiedades de las representaciones distribuidas dispersas y su aplicación a la memoria temporal jerárquica". arXiv : 1503.07469 [ q-bio.NC ].
^ Baroni, Marco; Lenci, Alessandro (2010). "Memoria de distribución: un marco general para la semántica basada en corpus". Lingüística computacional . 36 (4): 673–721. CiteSeerX 10.1.1.331.3769 . doi : 10.1162 / coli_a_00016 . S2CID 5584134 .
^ Scott C. Deerwester; Susan T. Dumais; Thomas K. Landauer; George W. Furnas; Richard A. Harshen (1990). "Indexación por análisis semántico latente" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información .
^ Xing Wei; W. Bruce Croft (2007). "Investigar el rendimiento de la recuperación con modelos de temas construidos manualmente" . Procediendo RIAO '07 Acceso semántico a gran escala al contenido (texto, imagen, video y sonido) . Riao '07: 333–349.
^ "LSA: una solución al problema de Platón" . lsa.colorado.edu . Consultado el 19 de abril de 2016 .
^ Lund, Kevin; Burgess, Curt (1 de junio de 1996). "Producir espacios semánticos de alta dimensión a partir de la co-ocurrencia léxica" . Métodos, instrumentos y computadoras de investigación del comportamiento . 28 (2): 203-208. doi : 10.3758 / BF03204766 . ISSN 0743-3808 .
^ Evgeniy Gabrilovich y Shaul Markovitch (2007). "Computación de la relación semántica utilizando análisis semántico explícito basado en Wikipedia" (PDF) . Proc. 20ª Conf. Conjunta Internacional Sobre Inteligencia Artificial (IJCAI). Páginas. 1606-1611 .
^ Tomas Mikolov; Ilya Sutskever; Kai Chen; Greg Corrado; Jeffrey Dean (2013). "Representaciones distribuidas de palabras y frases y su composicionalidad". arXiv : 1310,4546 [ cs.CL ].
^ Jeffrey Pennington; Richard Socher; Christopher D. Manning (2014). "GloVe: Vectores globales para representación de palabras" (PDF) .
^ Huth, Alexander (27 de abril de 2016). "El habla natural revela los mapas semánticos que embaldosan la corteza cerebral humana" . Naturaleza . 532 (7600): 453–458. Código bibliográfico : 2016Natur.532..453H . doi : 10.1038 / nature17637 . PMC 4852309 . PMID 27121839 .

[3] Un vector de contexto se define como un vector que contiene todas las palabras en un contexto particular.

[5] Una palabra-vector o palabra-SDR se conoce como Huella digital semántica en la teoría del plegado semántico.

[8] también conocido como espacios semánticos distribuidos o memoria semántica distribuida

[webber-1] De Sousa Webber, Francisco (2015). "Teoría del plegado semántico y su aplicación en huellas semánticas". Biblioteca de la Universidad de Cornell . arXiv : 1511.08855 . Código bibliográfico : 2015arXiv151108855D .

[hofstadter-2] "La Mente Analógica" . Prensa del MIT . Consultado el 18 de abril de 2016 .

[:0-4] Sahlgreen, Magnus (2006). "El modelo de espacio de palabras" .

[6] Schütze, Hinrich (1993). "Espacio de palabras": 895–902. CiteSeerX 10.1.1.41.8856 . Cite journal requiere |journal=( ayuda )

[:1-7] Subutai Ahmad; Jeff Hawkins (2015). "Propiedades de las representaciones distribuidas dispersas y su aplicación a la memoria temporal jerárquica". arXiv : 1503.07469 [ q-bio.NC ].

[9] Baroni, Marco; Lenci, Alessandro (2010). "Memoria de distribución: un marco general para la semántica basada en corpus". Lingüística computacional . 36 (4): 673–721. CiteSeerX 10.1.1.331.3769 . doi : 10.1162 / coli_a_00016 . S2CID 5584134 .

[10] Scott C. Deerwester; Susan T. Dumais; Thomas K. Landauer; George W. Furnas; Richard A. Harshen (1990). "Indexación por análisis semántico latente" (PDF) . Revista de la Sociedad Estadounidense de Ciencias de la Información .

[11] Xing Wei; W. Bruce Croft (2007). "Investigar el rendimiento de la recuperación con modelos de temas construidos manualmente" . Procediendo RIAO '07 Acceso semántico a gran escala al contenido (texto, imagen, video y sonido) . Riao '07: 333–349.

[12] "LSA: una solución al problema de Platón" . lsa.colorado.edu . Consultado el 19 de abril de 2016 .

[13] Lund, Kevin; Burgess, Curt (1 de junio de 1996). "Producir espacios semánticos de alta dimensión a partir de la co-ocurrencia léxica" . Métodos, instrumentos y computadoras de investigación del comportamiento . 28 (2): 203-208. doi : 10.3758 / BF03204766 . ISSN 0743-3808 .

[14] Evgeniy Gabrilovich y Shaul Markovitch (2007). "Computación de la relación semántica utilizando análisis semántico explícito basado en Wikipedia" (PDF) . Proc. 20ª Conf. Conjunta Internacional Sobre Inteligencia Artificial (IJCAI). Páginas. 1606-1611 .

[15] Tomas Mikolov; Ilya Sutskever; Kai Chen; Greg Corrado; Jeffrey Dean (2013). "Representaciones distribuidas de palabras y frases y su composicionalidad". arXiv : 1310,4546 [ cs.CL ].

[16] Jeffrey Pennington; Richard Socher; Christopher D. Manning (2014). "GloVe: Vectores globales para representación de palabras" (PDF) .

[17] Huth, Alexander (27 de abril de 2016). "El habla natural revela los mapas semánticos que embaldosan la corteza cerebral humana" . Naturaleza . 532 (7600): 453–458. Código bibliográfico : 2016Natur.532..453H . doi : 10.1038 / nature17637 . PMC 4852309 . PMID 27121839 .

[1]