Red de creencias profundas

Descripción esquemática de una profunda red de creencias. Las flechas representan conexiones dirigidas en el modelo gráfico que representa la red.

Aprendizaje automático y minería de datos
Parte de una serie sobre

Problemas Clasificación Agrupación Regresión Detección de anomalías Limpieza de datos AutoML reglas de asociación Aprendizaje reforzado Predicción estructurada Ingeniería de características Aprendizaje de funciones Aprender en línea Aprendizaje semi-supervisado Aprendizaje sin supervisión Aprendiendo a clasificar Inducción gramatical
Aprendizaje supervisado ( clasificación • regresión ) Árboles de decisión Conjuntos Harpillera Impulso Bosque aleatorio k -NN Regresión lineal Bayes ingenuo Redes neuronales artificiales Regresión logística Perceptrón Máquina de vectores de relevancia (RVM) Máquina de vectores de soporte (SVM)
Agrupación ABEDUL CURA Jerárquico k -significa Expectativa-maximización (EM) DBSCAN ÓPTICA Cambio medio
Reducción de dimensionalidad Análisis factorial CCA ICA LDA NMF PCA PGD t-SNE
Predicción estructurada Modelos graficos Red de Bayes Campo aleatorio condicional Markov oculto
Detección de anomalías k -NN Factor de valor atípico local
Red neuronal artificial Autoencoder Computación cognitiva Aprendizaje profundo DeepDream Perceptrón multicapa RNN LSTM GRU ESN Máquina de Boltzmann restringida GAN SOM Red neuronal convolucional U-Net Transformador Red neuronal en aumento Memtransistor RAM electroquímica (ECRAM)
Aprendizaje reforzado Q-aprendizaje SARSA Diferencia temporal (TD)
Teoría Compensación entre sesgo y varianza Teoría del aprendizaje computacional Minimización de riesgos empíricos Aprendizaje de Occam Aprendizaje PAC Aprendizaje estadístico Teoría de VC
Lugares de aprendizaje automático NeurIPS ICML ML JMLR ArXiv: cs.LG
Artículos relacionados Glosario de inteligencia artificial Lista de conjuntos de datos para la investigación de aprendizaje automático Esquema del aprendizaje automático
v t mi

En el aprendizaje automático , una red de creencias profundas ( DBN ) es un modelo gráfico generativo o, alternativamente, una clase de red neuronal profunda , compuesta por múltiples capas de variables latentes ("unidades ocultas"), con conexiones entre las capas pero no entre unidades dentro cada capa. ^[1]

Cuando se entrena en un conjunto de ejemplos sin supervisión , un DBN puede aprender a reconstruir probabilísticamente sus entradas. Luego, las capas actúan como detectores de características . ^[1] Después de este paso de aprendizaje, un DBN puede recibir más capacitación con supervisión para realizar la clasificación . ^[2]

Los DBN pueden verse como una composición de redes simples, no supervisadas, como máquinas de Boltzmann restringidas (RBM) ^[1] o codificadores automáticos , ^[3] donde la capa oculta de cada subred sirve como capa visible para la siguiente. Un RBM es un modelo basado en energía generativa no dirigida con una capa de entrada "visible" y una capa oculta y conexiones entre capas pero no dentro de ellas. Esta composición conduce a un procedimiento de entrenamiento rápido, capa por capa, sin supervisión, donde la divergencia contrastiva se aplica a cada subred a su vez, comenzando desde el par de capas "más bajo" (la capa visible más baja es un conjunto de entrenamiento ).

La observación ^{[2] de} que los DBN se pueden entrenar con avidez , una capa a la vez, condujo a uno de los primeros algoritmos de aprendizaje profundo efectivos . ^[4]^{: 6} En general, hay muchas implementaciones y usos atractivos de DBN en aplicaciones y escenarios de la vida real (por ejemplo, electroencefalografía , ^[5] descubrimiento de fármacos ^[6]^[7]^[8] ).

Capacitación

Una máquina de Boltzmann restringida (RBM) con unidades visibles y ocultas completamente conectadas. Tenga en cuenta que no hay conexiones ocultas-ocultas o visibles-visibles.

El método de entrenamiento para RBM propuesto por Geoffrey Hinton para su uso con modelos de entrenamiento "Producto de experto" se llama divergencia contrastiva (CD). ^[9] CD proporciona una aproximación al método de máxima verosimilitud que idealmente se aplicaría para aprender los pesos. ^[10]^[11] Al entrenar una sola GBR, las actualizaciones de peso se realizan con descenso de gradiente mediante la siguiente ecuación: $w_{ij}(t+1)=w_{ij}(t)+\eta {\frac {\partial \log(p(v))}{\partial w_{ij}}}$

donde, es la probabilidad de un vector visible, que viene dada por . es la función de partición (utilizada para normalizar) y es la función de energía asignada al estado de la red. Una energía más baja indica que la red está en una configuración más "deseable". El gradiente tiene la forma simple donde representan promedios con respecto a la distribución . El problema surge en el muestreo porque requiere un muestreo alterno extendido de Gibbs . El CD reemplaza este paso ejecutando el muestreo de Gibbs alternativo para los pasos (valores de rendimiento bueno). Después de los pasos, los datos se muestrean y esa muestra se usa en lugar de . El procedimiento del CD funciona de la siguiente manera: $p(v)$ $p(v)={\frac {1}{Z}}\sum _{h}e^{-E(v,h)}$ $Z$ $E(v,h)$ ${\frac {\partial \log(p(v))}{\partial w_{ij}}}$ $\langle v_{i}h_{j}\rangle _{\text{data}}-\langle v_{i}h_{j}\rangle _{\text{model}}$ $\langle \cdots \rangle _{p}$ $p$ $\langle v_{i}h_{j}\rangle _{\text{model}}$ $n$ $n=1$ $n$ $\langle v_{i}h_{j}\rangle _{\text{model}}$ ^[10]

Inicialice las unidades visibles en un vector de entrenamiento.
Actualizar las unidades ocultas en paralelo dadas las unidades visibles: . es la función sigmoidea y es el sesgo de . $p(h_{j}=1\mid {\textbf {V}})=\sigma (b_{j}+\sum _{i}v_{i}w_{ij})$ $\sigma$ $b_{j}$ $h_{j}$
Actualizar las unidades visibles en paralelo dadas las unidades ocultas: . es el sesgo de . A esto se le llama el paso de "reconstrucción". $p(v_{i}=1\mid {\textbf {H}})=\sigma (a_{i}+\sum _{j}h_{j}w_{ij})$ $a_{i}$ $v_{i}$
Vuelva a actualizar las unidades ocultas en paralelo dadas las unidades visibles reconstruidas utilizando la misma ecuación que en el paso 2.
Realizar la actualización de peso: . $\Delta w_{ij}\propto \langle v_{i}h_{j}\rangle _{\text{data}}-\langle v_{i}h_{j}\rangle _{\text{reconstruction}}$

Una vez que se entrena una RBM, otra RBM se "apila" encima, tomando su entrada de la capa entrenada final. La nueva capa visible se inicializa en un vector de entrenamiento y los valores de las unidades en las capas ya entrenadas se asignan utilizando los pesos y sesgos actuales. A continuación, se entrena al nuevo RBM con el procedimiento anterior. Todo este proceso se repite hasta que se cumple el criterio de parada deseado. ^[12]

Aunque la aproximación de CD a la máxima probabilidad es burda (no sigue el gradiente de ninguna función), es empíricamente eficaz. ^[10]

Ver también

Red bayesiana
Aprendizaje profundo
Red convolucional de creencias profundas
Modelo basado en energía

Referencias

↑ a b c Hinton G (2009). "Redes de creencias profundas" . Scholarpedia . 4 (5): 5947. Código bibliográfico : 2009SchpJ ... 4.5947H . doi : 10.4249 / scholarpedia.5947 .
↑ a b Hinton GE , Osindero S, Teh YW (julio de 2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Computación neuronal . 18 (7): 1527–54. CiteSeerX 10.1.1.76.1541 . doi : 10.1162 / neco.2006.18.7.1527 . PMID 16764513 . S2CID 2309950 .
^ Bengio Y, Lamblin P, Popovici D, Larochelle H (2007). Entrenamiento codicioso de redes profundas (PDF) . NIPS .
^ Bengio, Y. (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y Tendencias en Machine Learning . 2 : 1-127. CiteSeerX 10.1.1.701.9550 . doi : 10.1561 / 2200000006 .
^ Movahedi F, Coyle JL, Sejdic E (mayo de 2018). "Redes de creencias profundas para electroencefalografía: una revisión de contribuciones recientes y perspectivas futuras" . IEEE Journal of Biomedical and Health Informatics . 22 (3): 642–652. doi : 10.1109 / jbhi.2017.2727218 . PMC 5967386 . PMID 28715343 .
↑ Ghasemi, Pérez-Sánchez; Mehri, Pérez-Garrido (2018). "Red neuronal y algoritmos de aprendizaje profundo utilizados en estudios QSAR: méritos e inconvenientes". Descubrimiento de drogas hoy . 23 (10): 1784-1790. doi : 10.1016 / j.drudis.2018.06.016 . PMID 29936244 .
↑ Ghasemi, Pérez-Sánchez; Mehri, fassihi (2016). "El papel de los diferentes métodos de muestreo en la mejora de la predicción de la actividad biológica mediante Deep Belief Network". Revista de Química Computacional . 38 (10): 1–8. doi : 10.1002 / jcc.24671 . PMID 27862046 . S2CID 12077015 .
^ Gawehn E, Hiss JA, Schneider G (enero de 2016). "Aprendizaje profundo en el descubrimiento de fármacos". Informática molecular . 35 (1): 3-14. doi : 10.1002 / minf.201501008 . PMID 27491648 . S2CID 10574953 .
^ Hinton GE (2002). "Producto de formación de expertos minimizando la divergencia contrastiva" (PDF) . Computación neuronal . 14 (8): 1771-1800. CiteSeerX 10.1.1.35.8613 . doi : 10.1162 / 089976602760128018 . PMID 12180402 . S2CID 207596505 .
↑ a b c Hinton GE (2010). "Una guía práctica para la formación de máquinas de Boltzmann restringidas" . Tech. Rep. UTML TR 2010-003 .
^ Fischer A, Igel C (2014). "Formación de máquinas de Boltzmann restringidas: una introducción" (PDF) . Reconocimiento de patrones . 47 : 25–39. CiteSeerX 10.1.1.716.8647 . doi : 10.1016 / j.patcog.2013.05.025 . Archivado desde el original (PDF) el 10 de junio de 2015 . Consultado el 2 de julio de 2017 .
^ Bengio Y (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y Tendencias en Machine Learning . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi : 10.1561 / 2200000006 . Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 2 de julio de 2017 .

enlaces externos

"Redes de creencias profundas" . Tutoriales de aprendizaje profundo .
"Ejemplo de red de creencias profundas" . Tutoriales de Deeplearning4j . Archivado desde el original el 3 de octubre de 2016 . Consultado el 22 de febrero de 2015 .

[scholar-1] Hinton G (2009). "Redes de creencias profundas" . Scholarpedia . 4 (5): 5947. Código bibliográfico : 2009SchpJ ... 4.5947H . doi : 10.4249 / scholarpedia.5947 .

[hinton06-2] Hinton GE , Osindero S, Teh YW (julio de 2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Computación neuronal . 18 (7): 1527–54. CiteSeerX 10.1.1.76.1541 . doi : 10.1162 / neco.2006.18.7.1527 . PMID 16764513 . S2CID 2309950 .

[3] Bengio Y, Lamblin P, Popovici D, Larochelle H (2007). Entrenamiento codicioso de redes profundas (PDF) . NIPS .

[4] Bengio, Y. (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y Tendencias en Machine Learning . 2 : 1-127. CiteSeerX 10.1.1.701.9550 . doi : 10.1561 / 2200000006 .

[5] Movahedi F, Coyle JL, Sejdic E (mayo de 2018). "Redes de creencias profundas para electroencefalografía: una revisión de contribuciones recientes y perspectivas futuras" . IEEE Journal of Biomedical and Health Informatics . 22 (3): 642–652. doi : 10.1109 / jbhi.2017.2727218 . PMC 5967386 . PMID 28715343 .

[6] Ghasemi, Pérez-Sánchez; Mehri, Pérez-Garrido (2018). "Red neuronal y algoritmos de aprendizaje profundo utilizados en estudios QSAR: méritos e inconvenientes". Descubrimiento de drogas hoy . 23 (10): 1784-1790. doi : 10.1016 / j.drudis.2018.06.016 . PMID 29936244 .

[7] Ghasemi, Pérez-Sánchez; Mehri, fassihi (2016). "El papel de los diferentes métodos de muestreo en la mejora de la predicción de la actividad biológica mediante Deep Belief Network". Revista de Química Computacional . 38 (10): 1–8. doi : 10.1002 / jcc.24671 . PMID 27862046 . S2CID 12077015 .

[8] Gawehn E, Hiss JA, Schneider G (enero de 2016). "Aprendizaje profundo en el descubrimiento de fármacos". Informática molecular . 35 (1): 3-14. doi : 10.1002 / minf.201501008 . PMID 27491648 . S2CID 10574953 .

[POE-9] Hinton GE (2002). "Producto de formación de expertos minimizando la divergencia contrastiva" (PDF) . Computación neuronal . 14 (8): 1771-1800. CiteSeerX 10.1.1.35.8613 . doi : 10.1162 / 089976602760128018 . PMID 12180402 . S2CID 207596505 .

[RBMTRAIN2-10] Hinton GE (2010). "Una guía práctica para la formación de máquinas de Boltzmann restringidas" . Tech. Rep. UTML TR 2010-003 .

[RBMTutorial-11] Fischer A, Igel C (2014). "Formación de máquinas de Boltzmann restringidas: una introducción" (PDF) . Reconocimiento de patrones . 47 : 25–39. CiteSeerX 10.1.1.716.8647 . doi : 10.1016 / j.patcog.2013.05.025 . Archivado desde el original (PDF) el 10 de junio de 2015 . Consultado el 2 de julio de 2017 .

[BENGIODEEP-12] Bengio Y (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y Tendencias en Machine Learning . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi : 10.1561 / 2200000006 . Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 2 de julio de 2017 .