Máquina de Boltzmann restringida


Una máquina de Boltzmann restringida ( RBM ) es una red neuronal artificial estocástica generativa que puede aprender una distribución de probabilidad sobre su conjunto de entradas.

Los RBM fueron inventados inicialmente bajo el nombre de Harmonium por Paul Smolensky en 1986, [1] y cobraron prominencia después de que Geoffrey Hinton y sus colaboradores inventaran algoritmos de aprendizaje rápido para ellos a mediados de 2000. Los RBM han encontrado aplicaciones en la reducción de dimensionalidad , [2] clasificación , [3] filtrado colaborativo , [4] aprendizaje de características , [5] modelado de temas [6] e incluso en muchas mecánicas cuánticas corporales . [7] [8] Se les puede capacitar en supervisados oformas no supervisadas , dependiendo de la tarea.

Como su nombre lo indica, las RBM son una variante de las máquinas de Boltzmann , con la restricción de que sus neuronas deben formar un gráfico bipartito : un par de nodos de cada uno de los dos grupos de unidades (comúnmente conocido como "visible" y "oculto" unidades respectivamente) pueden tener una conexión simétrica entre ellos; y no hay conexiones entre nodos dentro de un grupo. Por el contrario, las máquinas Boltzmann "sin restricciones" pueden tener conexiones entre unidades ocultas . Esta restricción permite algoritmos de entrenamiento más eficientes que los disponibles para la clase general de máquinas de Boltzmann, en particular el algoritmo de divergencia contrastiva basado en gradientes . [9]

Las máquinas de Boltzmann restringidas también se pueden utilizar en redes de aprendizaje profundo . En particular, las redes de creencias profundas se pueden formar "apilando" RBM y, opcionalmente, ajustando la red profunda resultante con descenso de gradiente y retropropagación . [10]

El tipo estándar de RBM tiene unidades ocultas y visibles de valores binarios ( booleanos ) y consiste en una matriz de pesos de tamaño . Cada elemento de peso de la matriz está asociado con la conexión entre la unidad visible (entrada) y la unidad oculta . Además, existen ponderaciones de sesgo (compensaciones) para y para . Dados los pesos y sesgos, la energía de una configuración (par de vectores booleanos) ( v , h ) se define como

Esta función energética es análoga a la de una red Hopfield . Al igual que con las máquinas de Boltzmann generales, la distribución de probabilidad conjunta para los vectores visibles y ocultos se define en términos de la función de energía de la siguiente manera, [11]


Diagrama de una máquina de Boltzmann restringida con tres unidades visibles y cuatro unidades ocultas (sin unidades de polarización).