Una red neuronal recursiva es un tipo de red neuronal profunda creada aplicando el mismo conjunto de pesos de forma recursiva sobre una entrada estructurada, para producir una predicción estructurada sobre estructuras de entrada de tamaño variable, o una predicción escalar sobre ella, atravesando una estructura dada en orden topológico . Las redes neuronales recursivas, a veces abreviadas como RvNN, han tenido éxito, por ejemplo, en el aprendizaje de secuencias y estructuras de árbol en el procesamiento del lenguaje natural , principalmente representaciones continuas de frases y oraciones basadas en la incrustación de palabras . Las RvNN se introdujeron por primera vez para aprender las representaciones distribuidas de la estructura, comotérminos lógicos . [1] Los modelos y marcos generales se han desarrollado en trabajos posteriores desde la década de 1990. [2] [3]
Arquitecturas
Básico
En la arquitectura más simple, los nodos se combinan en padres utilizando una matriz de peso que se comparte en toda la red y una no linealidad como tanh . Si c 1 y c 2 son una representación vectorial n- dimensional de nodos, su padre también será un vector n- dimensional, calculado como
Donde W es un erudito matriz de peso.
Esta arquitectura, con algunas mejoras, se ha utilizado para analizar con éxito escenas naturales y para el análisis sintáctico de oraciones en lenguaje natural. [4]
Correlación en cascada recursiva (RecCC)
RecCC es un enfoque de red neuronal constructiva para tratar con dominios de árbol [2] con aplicaciones pioneras en química [5] y extensión a gráficos acíclicos dirigidos . [6]
RNN sin supervisión
En 2004 se introdujo un marco para RNN sin supervisión. [7] [8]
Tensor
Las redes de tensor neuronal recursivo utilizan una función de composición basada en tensor para todos los nodos del árbol. [9]
Capacitación
Descenso de gradiente estocástico
Normalmente, el descenso de gradiente estocástico (SGD) se utiliza para entrenar la red. El gradiente se calcula utilizando la retropropagación a través de la estructura (BPTS), una variante de la retropropagación a través del tiempo utilizada para redes neuronales recurrentes .
Propiedades
La capacidad de aproximación universal de RNN sobre árboles ha sido probada en la literatura. [10] [11]
Modelos relacionados
Redes neuronales recurrentes
Las redes neuronales recurrentes son redes neuronales artificiales recursivas con una determinada estructura: la de una cadena lineal. Mientras que las redes neuronales recursivas operan en cualquier estructura jerárquica, combinando representaciones secundarias en representaciones principales, las redes neuronales recurrentes operan en la progresión lineal del tiempo, combinando el paso de tiempo anterior y una representación oculta en la representación del paso de tiempo actual.
Redes estatales de eco de árbol
Un enfoque eficiente para implementar redes neuronales recursivas viene dado por Tree Echo State Network [12] dentro del paradigma de computación de reservorios .
Extensión a gráficos
Las extensiones a los gráficos incluyen la red neuronal de gráficos (GNN), [13] Red neuronal para gráficos (NN4G), [14] y, más recientemente, redes neuronales convolucionales para gráficos.
Referencias
- ^ Goller, C .; Küchler, A. (1996). "Aprendizaje de representaciones distribuidas dependientes de la tarea por retropropagación a través de la estructura". Actas de la Conferencia Internacional sobre Redes Neuronales (ICNN'96) . 1 . págs. 347–352. CiteSeerX 10.1.1.52.4759 . doi : 10.1109 / ICNN.1996.548916 . ISBN 978-0-7803-3210-2. S2CID 6536466 .
- ^ a b Sperduti, A .; Starita, A. (1 de mayo de 1997). "Redes neuronales supervisadas para la clasificación de estructuras". Transacciones IEEE en redes neuronales . 8 (3): 714–735. doi : 10.1109 / 72.572108 . ISSN 1045-9227 . PMID 18255672 .
- ^ Frasconi, P .; Gori, M .; Sperduti, A. (1 de septiembre de 1998). "Un marco general para el procesamiento adaptativo de estructuras de datos". Transacciones IEEE en redes neuronales . 9 (5): 768–786. CiteSeerX 10.1.1.64.2580 . doi : 10.1109 / 72.712151 . ISSN 1045-9227 . PMID 18255765 .
- ^ Socher, Richard; Lin, acantilado; Ng, Andrew Y .; Manning, Christopher D. "Análisis de escenas naturales y lenguaje natural con redes neuronales recursivas" (PDF) . La 28a Conferencia Internacional sobre Aprendizaje Automático (ICML 2011) .
- ^ Bianucci, Anna Maria; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina (2000). "Aplicación de Redes de Correlación en Cascada para Estructuras a la Química". Inteligencia aplicada . 12 (1–2): 117–147. doi : 10.1023 / A: 1008368105614 . ISSN 0924-669X . S2CID 10031212 .
- ^ Micheli, A .; Sona, D .; Sperduti, A. (1 de noviembre de 2004). "Procesamiento contextual de datos estructurados mediante correlación en cascada recursiva". Transacciones IEEE en redes neuronales . 15 (6): 1396-1410. CiteSeerX 10.1.1.135.8772 . doi : 10.1109 / TNN.2004.837783 . ISSN 1045-9227 . PMID 15565768 . S2CID 12370239 .
- ^ Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc (2004). "Modelos de red autoorganizados recursivos". Redes neuronales . 17 (8–9): 1061–1085. CiteSeerX 10.1.1.129.6155 . doi : 10.1016 / j.neunet.2004.06.009 . PMID 15555852 .
- ^ Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc (1 de marzo de 2004). "Un marco general para el procesamiento no supervisado de datos estructurados". Neurocomputación . 57 : 3–35. CiteSeerX 10.1.1.3.984 . doi : 10.1016 / j.neucom.2004.01.008 .
- ^ Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. "Modelos profundos recursivos para la composicionalidad semántica sobre un árbol de sentimiento" (PDF) . Emnlp 2013 .
- ^ Hammer, Barbara (3 de octubre de 2007). Aprendizaje con redes neuronales recurrentes . Saltador. ISBN 9781846285677.
- ^ Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro (1 de mayo de 2005). "Capacidad de aproximación universal de correlación en cascada para estructuras". Computación neuronal . 17 (5): 1109-1159. CiteSeerX 10.1.1.138.2224 . doi : 10.1162 / 0899766053491878 . S2CID 10845957 .
- ^ Gallicchio, Claudio; Micheli, Alessio (4 de febrero de 2013). "Redes estatales de eco de árbol". Neurocomputación . 101 : 319–337. doi : 10.1016 / j.neucom.2012.08.017 . hdl : 11568/158480 .
- ^ Scarselli, F .; Gori, M .; Tsoi, AC; Hagenbuchner, M .; Monfardini, G. (1 de enero de 2009). "El modelo gráfico de red neuronal" . Transacciones IEEE en redes neuronales . 20 (1): 61–80. doi : 10.1109 / TNN.2008.2005605 . ISSN 1045-9227 . PMID 19068426 . S2CID 206756462 .
- ^ Micheli, A. (1 de marzo de 2009). "Red neuronal para gráficos: un enfoque constructivo contextual". Transacciones IEEE en redes neuronales . 20 (3): 498–511. doi : 10.1109 / TNN.2008.2010350 . ISSN 1045-9227 . PMID 19193509 . S2CID 17486263 .