Límites de gran ancho de redes neuronales


Las redes neuronales artificiales son una clase de modelos utilizados en el aprendizaje automático e inspirados en las redes neuronales biológicas . Son el componente central de los algoritmos modernos de aprendizaje profundo . La computación en redes neuronales artificiales generalmente se organiza en capas secuenciales de neuronas artificiales. La cantidad de neuronas en una capa se denomina ancho de capa. El análisis teórico de las redes neuronales artificiales a veces considera el caso límite de que el ancho de la capa se vuelve grande o infinito. Este límite permite hacer declaraciones analíticas simples sobre predicciones de redes neuronales, dinámica de entrenamiento, generalización y superficies de pérdida. Este límite de capa amplia también es de interés práctico, ya que las redes neuronales de ancho finito a menudo funcionan estrictamente mejor a medida que aumenta el ancho de capa. [1] [2] [3] [4] [5] [6]

El comportamiento de una red neuronal se simplifica a medida que se vuelve infinitamente amplia. Izquierda : una red neuronal bayesiana con dos capas ocultas, que transforma una entrada tridimensional (abajo) en una salida bidimensional (cima). Derecha : función de densidad de probabilidad de salida inducida por los pesos aleatorios de la red. Video : a medida que aumenta el ancho de la red, la distribución de salida se simplifica, convergiendo finalmente a un proceso gaussiano de red neuronal en el límite de ancho infinito.

  • El proceso gaussiano de la red neuronal (NNGP) corresponde al límite de ancho infinito de las redes neuronales bayesianas y a la distribución de las funciones realizadas por las redes neuronales no bayesianas después de la inicialización aleatoria. [7] [8] [9] [10]
  • Los mismos cálculos subyacentes que se utilizan para derivar el kernel NNGP también se utilizan en la propagación de información profunda para caracterizar la propagación de información sobre gradientes y entradas a través de una red profunda. [11] Esta caracterización se utiliza para predecir cómo la capacidad de entrenamiento del modelo depende de la arquitectura y los hiperparámetros de inicialización.
  • El núcleo de la tangente neuronal describe la evolución de las predicciones de la red neuronal durante el entrenamiento de descenso de gradientes. En el límite de ancho infinito, la NTK generalmente se vuelve constante, lo que a menudo permite expresiones de forma cerrada para la función calculada por una amplia red neuronal a lo largo del entrenamiento de descenso de gradiente. [12] La dinámica de entrenamiento esencialmente se linealiza. [13]
  • El estudio de redes neuronales de ancho infinito con una escala de peso inicial diferente y tasas de aprendizaje adecuadamente grandes conduce a dinámicas de entrenamiento no lineal cualitativamente diferentes a las descritas por el kernel de tangente neuronal fijo. [14] [15]
  • La dinámica de catapulta describe la dinámica de entrenamiento de la red neuronal en el caso de que los logits diverjan hasta el infinito cuando el ancho de la capa se lleva al infinito, y describe las propiedades cualitativas de la dinámica de entrenamiento inicial. [dieciséis]

  1. Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (15 de febrero de 2018). "Sensibilidad y generalización en redes neuronales: un estudio empírico" . Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1802.08760 . Código Bib : 2018arXiv180208760N .
  2. ^ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (4 de noviembre de 2016). "Un análisis de modelos de redes neuronales profundas para aplicaciones prácticas" . arXiv : 1605.07678 . Código bibliográfico : 2016arXiv160507678C . Cite journal requiere |journal=( ayuda )
  3. ^ Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Las redes convolucionales profundas bayesianas con muchos canales son procesos gaussianos". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1810.05148 . Código Bib : 2018arXiv181005148N .
  4. ^ Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Hacia la comprensión del papel de la sobre-parametrización en la generalización de redes neuronales". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1805.12076 . Código Bib : 2018arXiv180512076N .
  5. ^ Lawrence, Steve; Giles, C. Lee; Tsoi, Ah Chung (1996). "¿Qué tamaño de red neuronal da una generalización óptima? Propiedades de convergencia de retropropagación" . CiteSeerX  10.1.1.125.6019 . Cite journal requiere |journal=( ayuda )
  6. ^ Bartlett, PL (1998). "La complejidad de la muestra de clasificación de patrones con redes neuronales: el tamaño de los pesos es más importante que el tamaño de la red" . Transacciones IEEE sobre teoría de la información . 44 (2): 525–536. doi : 10.1109 / 18.661502 . ISSN  1557-9654 .
  7. ^ Neal, Radford M. (1996), "Priors for Infinite Networks", Aprendizaje bayesiano para redes neuronales , Lecture Notes in Statistics, 118 , Springer Nueva York, págs. 29-53, doi : 10.1007 / 978-1-4612-0745 -0_2 , ISBN 978-0-387-94724-2
  8. ^ Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). "Redes neuronales profundas como procesos gaussianos". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1711.00165 . Código Bib : 2017arXiv171100165L .
  9. ^ G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E .; Ghahramani, Zoubin (2017). "Comportamiento del proceso gaussiano en redes neuronales profundas y amplias". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1804.11271 . Código bibliográfico : 2018arXiv180411271M .
  10. ^ Hron, Jiri; Bahri, Yasaman; Novak, Roman; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2020). "Distribuciones posteriores exactas de amplias redes neuronales bayesianas". Taller ICML 2020 sobre incertidumbre y robustez en el aprendizaje profundo . arXiv : 2006.10541 .
  11. ^ Schoenholz, Samuel S .; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Propagación profunda de información". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1611.01232 .
  12. ^ Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018). "Núcleo tangente neuronal: convergencia y generalización en redes neuronales". Avances en sistemas de procesamiento de información neuronal . arXiv : 1806.07572 .
  13. ^ Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S .; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2020). "Las redes neuronales amplias de cualquier profundidad evolucionan como modelos lineales bajo pendiente de gradiente". Revista de Mecánica Estadística: Teoría y Experimento . 2020 (12): 124002. arXiv : 1902.06720 . doi : 10.1088 / 1742-5468 / abc62b . S2CID  62841516 .
  14. ^ Mei, Song Montanari, Andrea Nguyen, Phan-Minh (18 de abril de 2018). Una vista de campo medio del paisaje de redes neuronales de dos capas . OCLC  1106295873 .CS1 maint: varios nombres: lista de autores ( enlace )
  15. ^ Nguyen, Phan-Minh; Pham, Huy Tuan (2020). "Un marco riguroso para el límite de campo medio de redes neuronales multicapa". arXiv : 2001.11443 [ cs.LG ].
  16. ^ Lewkowycz, Aitor; Bahri, Yasaman; Dyer, Ethan; Sohl-Dickstein, Jascha; Gur-Ari, Guy (2020). "La fase de gran velocidad de aprendizaje del aprendizaje profundo: el mecanismo de catapulta". arXiv : 2003.02218 [ stat.ML ].