BCPNN


Una red neuronal de propagación de confianza bayesiana (BCPNN) es una red neuronal artificial inspirada en el teorema de Bayes , que considera la computación y el procesamiento neuronal como inferencia probabilística. Las activaciones de unidades neuronales representan probabilidad ("confianza") en presencia de características o categorías de entrada, los pesos sinápticos se basan en correlaciones estimadas y la propagación de la activación corresponde al cálculo de probabilidades posteriores. Originalmente fue propuesto por Anders Lansner y Örjan Ekeberg en KTH Royal Institute of Technology. [1] Este modelo de red neuronal probabilística también se puede ejecutar en modo generativo para producir activaciones espontáneas y secuencias temporales.

El modelo básico es una red neuronal feedforward que comprende unidades neuronales con activación continua, que tiene un sesgo que representa a priori y está conectada por pesos bayesianos en forma de información mutua puntual . La red original se ha ampliado a una estructura modular de minicolumnas e hipercolumnas , que representan características o atributos codificados discretos. [2] [3] Las unidades también se pueden conectar como una red neuronal recurrente (perdiendo la interpretación estricta de sus activaciones como probabilidades) [4] pero convirtiéndose en un posible modelo abstracto de redes neuronales biológicas y memoria asociativa. [5] [6] [7][8] [9]

BCPNN se ha utilizado para la clasificación de aprendizaje automático [10] y la extracción de datos , por ejemplo, para el descubrimiento de reacciones adversas a medicamentos. [11]   La regla de aprendizaje BCNN también se ha utilizado para modelar la plasticidad sináptica biológica y la excitabilidad intrínseca en modelos de memoria asociativa cortical de redes neuronales de picos a gran escala [12] [13] y recompensar el aprendizaje en los ganglios basales. [14]

La arquitectura de la red BCPNN es modular en términos de hipercolumnas y minicolumnas . Esta estructura modular está inspirada y generalizada a partir de la estructura modular de la corteza de los mamíferos . En los modelos abstractos, las minicolumnas sirven como las unidades más pequeñas y, por lo general, presentan una constante de tiempo de membrana y una adaptación. En los modelos de spiking de la corteza , una minicolumna de capa 2/3 suele estar representada por unas 30 células piramidales y una célula de ramo doble. [15] Este último convierte los pesos BCPNN negativos formados entre neuronas con actividad anti-correlacionada en inhibición disináptica.

La inhibición lateral dentro de la hipercolumna lo convierte en un módulo suave en el que el ganador se lo lleva todo . Mirando la corteza real , el número de minicolumnas dentro de una hipercolumna es del orden de cien, lo que hace que la actividad sea escasa, al nivel del 1% o menos, dado que las hipercolumnas también pueden ser silenciosas. [16] Una red BCPNN del tamaño de la neocorteza humana tendría un par de millones de hipercolumnas , divididas en unos cientos de áreas. Además de la escasa actividad, una BCPNN a gran escala también tendría una conectividad muy escasa, dado que la corteza realestá escasamente conectado al nivel de 0.01 - 0.001% en promedio.

La regla de aprendizaje BCPNN se derivó de la regla de Bayes y es hebbiana, de modo que las unidades neuronales con actividad correlacionada a lo largo del tiempo obtienen conexiones excitatorias entre ellas, mientras que la anticorrelación genera inhibición y la falta de correlación genera cero conexiones. Los supuestos de independencia son los mismos que en el formalismo ingenuo de Bayes. BCPNN representa una forma sencilla de derivar una red neuronal a partir de la regla de Bayes. [2] [3] [17] Para permitir el uso de la ecuación estándar para propagar la actividad entre neuronas, era necesaria la transformación a espacio logarítmico. Las ecuaciones básicas para la excitabilidad intrínseca de la unidad postsináptica y el peso sináptico entre las unidades presinápticas y postsinápticas son:


Flujo esquemático de las ecuaciones de actualización de BCPNN reformuladas como plasticidad basada en picos. (A) Los trenes de picos de neuronas pre (A–D , rojo ) y postsinápticos (A–D , azul ) se presentan como patrones de entrada de ejemplo arbitrarios. Cada fila subsiguiente (B–D) corresponde a una sola etapa en la estimación del promedio móvil ponderado exponencialmente (EWMA) de los términos utilizados en la actualización incremental del peso bayesiano. (B) traza trenes de picos de entrada de filtro de paso bajo. (C) las trazas calculan una representación filtrada de paso bajo de las trazas en una escala de tiempo más lenta. La coactividad ahora entra en un rastro mutuo (C,D , negro ) . (D) las huellas alimentan las huellas que tienen la plasticidad más lenta y la memoria más larga. representan una señal de "imprimir ahora" que modula la tasa de aprendizaje.