Una red neuronal de propagación de confianza bayesiana (BCPNN) es una red neuronal artificial inspirada en el teorema de Bayes , que considera la computación y el procesamiento neuronal como inferencia probabilística. Las activaciones de unidades neuronales representan probabilidad ("confianza") en presencia de características o categorías de entrada, los pesos sinápticos se basan en correlaciones estimadas y la propagación de la activación corresponde al cálculo de probabilidades posteriores. Originalmente fue propuesto por Anders Lansner y Örjan Ekeberg en KTH Royal Institute of Technology. [1] Este modelo de red neuronal probabilística también se puede ejecutar en modo generativo para producir activaciones espontáneas y secuencias temporales.
El modelo básico es una red neuronal feedforward que comprende unidades neuronales con activación continua, que tiene un sesgo que representa a priori y está conectada por pesos bayesianos en forma de información mutua puntual . La red original se ha ampliado a una estructura modular de minicolumnas e hipercolumnas , que representan características o atributos codificados discretos. [2] [3] Las unidades también se pueden conectar como una red neuronal recurrente (perdiendo la interpretación estricta de sus activaciones como probabilidades) [4] pero convirtiéndose en un posible modelo abstracto de redes neuronales biológicas y memoria asociativa. [5] [6] [7][8] [9]
BCPNN se ha utilizado para la clasificación de aprendizaje automático [10] y la extracción de datos , por ejemplo, para el descubrimiento de reacciones adversas a medicamentos. [11] La regla de aprendizaje BCNN también se ha utilizado para modelar la plasticidad sináptica biológica y la excitabilidad intrínseca en modelos de memoria asociativa cortical de redes neuronales de picos a gran escala [12] [13] y recompensar el aprendizaje en los ganglios basales. [14]
La arquitectura de la red BCPNN es modular en términos de hipercolumnas y minicolumnas . Esta estructura modular está inspirada y generalizada a partir de la estructura modular de la corteza de los mamíferos . En los modelos abstractos, las minicolumnas sirven como las unidades más pequeñas y, por lo general, presentan una constante de tiempo de membrana y una adaptación. En los modelos de spiking de la corteza , una minicolumna de capa 2/3 suele estar representada por unas 30 células piramidales y una célula de ramo doble. [15] Este último convierte los pesos BCPNN negativos formados entre neuronas con actividad anti-correlacionada en inhibición disináptica.
La inhibición lateral dentro de la hipercolumna lo convierte en un módulo suave en el que el ganador se lo lleva todo . Mirando la corteza real , el número de minicolumnas dentro de una hipercolumna es del orden de cien, lo que hace que la actividad sea escasa, al nivel del 1% o menos, dado que las hipercolumnas también pueden ser silenciosas. [16] Una red BCPNN del tamaño de la neocorteza humana tendría un par de millones de hipercolumnas , divididas en unos cientos de áreas. Además de la escasa actividad, una BCPNN a gran escala también tendría una conectividad muy escasa, dado que la corteza realestá escasamente conectado al nivel de 0.01 - 0.001% en promedio.
La regla de aprendizaje BCPNN se derivó de la regla de Bayes y es hebbiana, de modo que las unidades neuronales con actividad correlacionada a lo largo del tiempo obtienen conexiones excitatorias entre ellas, mientras que la anticorrelación genera inhibición y la falta de correlación genera cero conexiones. Los supuestos de independencia son los mismos que en el formalismo ingenuo de Bayes. BCPNN representa una forma sencilla de derivar una red neuronal a partir de la regla de Bayes. [2] [3] [17] Para permitir el uso de la ecuación estándar para propagar la actividad entre neuronas, era necesaria la transformación a espacio logarítmico. Las ecuaciones básicas para la excitabilidad intrínseca de la unidad postsináptica y el peso sináptico entre las unidades presinápticas y postsinápticas son: