Algoritmo hebbiano generalizado

El algoritmo de Hebbian generalizado ( GHA ), también conocido en la literatura como la regla de Sanger , es un modelo de red neuronal de retroalimentación lineal para el aprendizaje no supervisado con aplicaciones principalmente en el análisis de componentes principales . Definido por primera vez en 1989, ^[1] es similar a la regla de Oja en su formulación y estabilidad, excepto que se puede aplicar a redes con múltiples salidas. El nombre se origina debido a la similitud entre el algoritmo y una hipótesis formulada por Donald Hebb ^[2]sobre la forma en que las fuerzas sinápticas en el cerebro se modifican en respuesta a la experiencia, es decir, que los cambios son proporcionales a la correlación entre la activación de las neuronas presinápticas y postsinápticas . ^[3]

Teoría

El GHA combina la regla de Oja con el proceso de Gram-Schmidt para producir una regla de aprendizaje de la forma

\,\Delta w_{ij}~=~\eta \left(y_{i}x_{j}-y_{i}\sum _{k=1}^{i}w_{kj}y_{k}\right)

, ^[4]

donde $w ij$ define el peso sináptica o conexión de fuerza entre el $j$ ésimo de entrada y $i$ th neuronas de salida, $x$ y $y$ son los vectores de entrada y salida, respectivamente, y $η$ es la tasa de aprendizaje de parámetros.

Derivación

En forma de matriz, la regla de Oja se puede escribir

\,{\frac {{\text{d}}w(t)}{{\text{d}}t}}~=~w(t)Q-\mathrm {diag} [w(t)Qw(t)^{\mathrm {T} }]w(t)

,

y el algoritmo de Gram-Schmidt es

\,\Delta w(t)~=~-\mathrm {lower} [w(t)w(t)^{\mathrm {T} }]w(t)

,

donde $w (t)$ es cualquier matriz, en este caso representa pesos sinápticos, $Q = η x x T$ es la matriz de autocorrelación, simplemente el producto externo de las entradas, $diag$ es la función que diagonaliza una matriz, y $menor$ es la función que establece todos los elementos de la matriz en la diagonal o por encima de ella son iguales a 0. Podemos combinar estas ecuaciones para obtener nuestra regla original en forma de matriz,

\,\Delta w(t)~=~\eta (t)\left(\mathbf {y} (t)\mathbf {x} (t)^{\mathrm {T} }-\mathrm {LT} [\mathbf {y} (t)\mathbf {y} (t)^{\mathrm {T} }]w(t)\right)

,

donde la función $LT$ establece todos los elementos de la matriz por encima de la diagonal iguales a 0, y tenga en cuenta que nuestra salida $y (t) = w (t) x (t)$ es una neurona lineal. ^[1]

Estabilidad y PCA

^[5]^[6]

Aplicaciones

El GHA se utiliza en aplicaciones donde es necesario un mapa autoorganizado , o donde se puede utilizar un análisis de características o componentes principales . Algunos ejemplos de estos casos son la inteligencia artificial y el procesamiento de imágenes y habla.

Su importancia proviene del hecho de que el aprendizaje es un proceso de una sola capa, es decir, un peso sináptico cambia solo dependiendo de la respuesta de las entradas y salidas de esa capa, evitando así la dependencia de múltiples capas asociada con el algoritmo de retropropagación . También tiene una compensación simple y predecible entre la velocidad de aprendizaje y la precisión de la convergencia establecida por el parámetro de tasa de aprendizaje $η$ . ^[5]

Ver también

Referencias

↑ ^a ^b Sanger, Terence D. (1989). "Aprendizaje no supervisado óptimo en una red neuronal de avance lineal de una sola capa" (PDF) . Redes neuronales . 2 (6): 459–473. CiteSeerX 10.1.1.128.6893 . doi : 10.1016 / 0893-6080 (89) 90044-0 . Consultado el 24 de noviembre de 2007 .
^ Hebb, DO (1949). La organización del comportamiento . Nueva York: Wiley & Sons. ISBN 9781135631918.
^ Hertz, John; Anders Krough; Richard G. Palmer (1991). Introducción a la Teoría de la Computación Neural . Redwood City, CA: Addison-Wesley Publishing Company. ISBN 978-0201515602.
^ Gorrell, Genevieve (2006), "Algoritmo hebbiano generalizado para la descomposición incremental de valores singulares en el procesamiento del lenguaje natural", EACL , CiteSeerX 10.1.1.102.2084
↑ a b Haykin, Simon (1998). Redes neuronales: una base integral (2 ed.). Prentice Hall. ISBN 978-0-13-273350-2.
^ Oja, Erkki (noviembre de 1982). "Modelo de neurona simplificado como analizador de componentes principales". Revista de Biología Matemática . 15 (3): 267-273. doi : 10.1007 / BF00275687 . PMID 7153672 . S2CID 16577977 . BF00275687.

[Sanger89-1] Sanger, Terence D. (1989). "Aprendizaje no supervisado óptimo en una red neuronal de avance lineal de una sola capa" (PDF) . Redes neuronales . 2 (6): 459–473. CiteSeerX 10.1.1.128.6893 . doi : 10.1016 / 0893-6080 (89) 90044-0 . Consultado el 24 de noviembre de 2007 .

[Hebb_1949-2] Hebb, DO (1949). La organización del comportamiento . Nueva York: Wiley & Sons. ISBN 9781135631918.

[Hertz,_Krough,_and_Palmer,_1991-3] Hertz, John; Anders Krough; Richard G. Palmer (1991). Introducción a la Teoría de la Computación Neural . Redwood City, CA: Addison-Wesley Publishing Company. ISBN 978-0201515602.

[4] Gorrell, Genevieve (2006), "Algoritmo hebbiano generalizado para la descomposición incremental de valores singulares en el procesamiento del lenguaje natural", EACL , CiteSeerX 10.1.1.102.2084

[Haykin98-5] Haykin, Simon (1998). Redes neuronales: una base integral (2 ed.). Prentice Hall. ISBN 978-0-13-273350-2.

[Oja82-6] Oja, Erkki (noviembre de 1982). "Modelo de neurona simplificado como analizador de componentes principales". Revista de Biología Matemática . 15 (3): 267-273. doi : 10.1007 / BF00275687 . PMID 7153672 . S2CID 16577977 . BF00275687.

[1]