Proceso gaussiano de la red neuronal


Las redes bayesianas son una herramienta de modelado para asignar probabilidades a eventos y, por lo tanto, caracterizar la incertidumbre en las predicciones de un modelo. El aprendizaje profundo y las redes neuronales artificiales son enfoques que se utilizan en el aprendizaje automático para construir modelos computacionales que aprenden de los ejemplos de entrenamiento. Las redes neuronales bayesianas fusionan estos campos. Son un tipo de red neuronal artificial cuyos parámetros y predicciones son probabilísticos. [1] [2] Mientras que las redes neuronales artificiales estándar a menudo asignan alta confianza incluso a predicciones incorrectas, [3] las redes neuronales bayesianas pueden evaluar con mayor precisión la probabilidad de que sus predicciones sean correctas.

Izquierda : una red neuronal bayesiana con dos capas ocultas, que transforma una entrada tridimensional (abajo) en una salida bidimensional (cima). Derecha : función de densidad de probabilidad de salida inducida por los pesos aleatorios de la red. Video : a medida que aumenta el ancho de la red, la distribución de salida se simplifica y finalmente converge a una normal multivariante en el límite de ancho infinito.

Los procesos gaussianos de redes neuronales (NNGP) son equivalentes a las redes neuronales bayesianas en un límite particular, [4] [5] [6] [7] [8] [9] [10] [11] [12] y proporcionan una forma cerrada forma de evaluar las redes neuronales bayesianas. Son una distribución de probabilidad de proceso gaussiano que describe la distribución sobre las predicciones realizadas por la red neuronal bayesiana correspondiente. La computación en redes neuronales artificiales generalmente se organiza en capas secuenciales de neuronas artificiales . La cantidad de neuronas en una capa se denomina ancho de capa. La equivalencia entre los NNGP y las redes neuronales bayesianas se produce cuando las capas de una red neuronal bayesiana se vuelven infinitamente anchas (ver figura). Este gran límite de ancho es de interés práctico, ya que las redes neuronales de ancho finito suelen funcionar estrictamente mejor a medida que aumenta el ancho de capa. [13] [14] [8] [15]

El NNGP también aparece en varios otros contextos: describe la distribución sobre las predicciones hechas por redes neuronales artificiales no bayesianas amplias después de la inicialización aleatoria de sus parámetros, pero antes del entrenamiento; aparece como un término en las ecuaciones de predicción del núcleo tangente neuronal ; se utiliza en la propagación profunda de información para caracterizar si los hiperparámetros y las arquitecturas serán entrenables. [16] Está relacionado con otros límites de gran ancho de redes neuronales .

Cuando los parámetros de una red de ancho infinito se muestrean repetidamente de su anterior , la distribución resultante sobre las salidas de la red se describe mediante un proceso gaussiano.

Cada ajuste de los parámetros de una red neuronal corresponde a una función específica calculada por la red neuronal. Una distribución previapor lo tanto, los parámetros de la red neuronal corresponden a una distribución previa de las funciones calculadas por la red. Como las redes neuronales se hacen infinitamente anchas, esta distribución sobre las funciones converge en un proceso gaussiano para muchas arquitecturas.

La figura de la derecha traza las salidas unidimensionales. de una red neuronal para dos entradas y unos contra otros. Los puntos negros muestran la función calculada por la red neuronal en estas entradas para extracciones aleatorias de los parámetros de. Las líneas rojas son contornos de isoprobabilidad para la distribución conjunta sobre las salidas de la red. y Inducido por . Esta es la distribución en el espacio funcional correspondiente a la distribuciónen el espacio de parámetros, y los puntos negros son muestras de esta distribución. Para redes neuronales infinitamente anchas, dado que la distribución sobre las funciones calculadas por la red neuronal es un proceso gaussiano, la distribución conjunta sobre las salidas de la red es un gaussiano multivariado para cualquier conjunto finito de entradas de red.

La notación que se usa en esta sección es la misma que se usa a continuación para derivar la correspondencia entre los NNGP y las redes completamente conectadas, y se pueden encontrar más detalles allí.

Se ha demostrado que la equivalencia entre redes neuronales bayesianas infinitamente anchas y NNGP es válida para: redes de capa única oculta [4] y profunda [6] [7] completamente conectadas, ya que el número de unidades por capa se eleva al infinito; redes neuronales convolucionales a medida que el número de canales se lleva al infinito; [8] [9] [10] redes de transformadores ya que el número de cabezas de atención se lleva al infinito; [17] redes recurrentes ya que el número de unidades se lleva al infinito. [12] De hecho, esta correspondencia NNGP es válida para casi cualquier arquitectura: generalmente, si una arquitectura puede expresarse únicamente mediante multiplicación de matrices y no linealidades por coordenadas (es decir, un programa tensorial ), entonces tiene un GP de ancho infinito. [12] Este, en particular, incluye todos feedforward o redes neuronales recurrentes compuestas de perceptrón multicapa, las redes neuronales recurrentes (por ejemplo, LSTMs , grus ), (nD o gráfico) de convolución , la puesta en común, omita conexión, la atención, la normalización de lotes , y / o normalización capa .

Se pueden derivar ciertas arquitecturas que permiten que las redes neuronales bayesianas infinitamente anchas produzcan NNGP con núcleos combinados mediante operaciones aditivas y multiplicativas. [18]

Esta sección amplía la correspondencia entre redes neuronales infinitamente amplias y procesos gaussianos para el caso específico de una arquitectura completamente conectada. Proporciona un esquema de prueba que describe por qué se mantiene la correspondencia e introduce la forma funcional específica del NNGP para redes completamente conectadas. El bosquejo de prueba sigue de cerca el enfoque de Novak, et al., 2018 . [8]

Especificación de arquitectura de red

Se deriva un NNGP que es equivalente a una red neuronal bayesiana con esta arquitectura completamente conectada.

Considere una red neuronal artificial completamente conectada con entradas , parámetros que consta de pesos y sesgos para cada capa en la red, pre-activaciones (pre-no linealidad) , activaciones (post-no linealidad) , no linealidad puntual y anchos de capa . Por simplicidad, el ancho del vector de lectura se toma como 1. Los parámetros de esta red tienen una distribución previa , que consiste en un gaussiano isotrópico para cada peso y sesgo, con la varianza de los pesos escalada inversamente con el ancho de la capa. Esta red se ilustra en la figura de la derecha y se describe mediante el siguiente conjunto de ecuaciones:

es un proceso gaussiano

Primero observamos que las preactivaciones son descritos por un proceso gaussiano condicionado a las activaciones precedentes . Este resultado se mantiene incluso con un ancho finito. Cada preactivación es una suma ponderada de variables aleatorias gaussianas, correspondiente a los pesos y sesgos , donde los coeficientes para cada una de esas variables gaussianas son las activaciones precedentes . Debido a que son una suma ponderada de gaussianos de media cero, la son gaussianos de media cero (condicionados a los coeficientes ). Desde el son conjuntamente gaussianos para cualquier conjunto de , son descritos por un proceso gaussiano condicionado a las activaciones precedentes . La covarianza o núcleo de este proceso gaussiano depende del peso y las variaciones de sesgo. y , así como la matriz de segundo momento de las activaciones anteriores ,

El efecto de la báscula. es reescalar la contribución a la matriz de covarianza de , mientras que el sesgo se comparte para todas las entradas, por lo que hacer el para diferentes puntos de datos más similares y hace que la matriz de covarianza se parezca más a una matriz constante.

es un proceso gaussiano

Las preactivaciones solo depende de a través de su matriz de segundo momento . Por esto, podemos decir que es un proceso gaussiano condicionado a , en lugar de estar condicionado a ,

Como ancho de capa , se vuelve determinista

Como se definió anteriormente, es la segunda matriz de momentos de . Desde es el vector de activación después de aplicar la no linealidad , puede ser reemplazado por , lo que resulta en una ecuación modificada que expresa por en términos de ,

Ya hemos determinado que es un proceso gaussiano. Esto significa que la suma que define es un promedio sobre muestras de un proceso gaussiano que es una función de ,

Como el ancho de la capa va al infinito, este promedio sobre las muestras del proceso gaussiano se pueden reemplazar con una integral sobre el proceso gaussiano:

Entonces, en el límite de ancho infinito, la segunda matriz de momentos para cada par de entradas y puede expresarse como una integral sobre un 2d gaussiano, del producto de y . Hay una serie de situaciones en las que esto se ha resuelto analíticamente, como cuandoes una no linealidad ReLU , [19] ELU, GELU, [20] o función de error [5] . Incluso cuando no se puede resolver analíticamente, dado que es una integral 2d, generalmente se puede calcular numéricamente de manera eficiente. [6] Esta integral es determinista, por lo que es determinista.

Para abreviar, definimos un funcional , que corresponde a calcular esta integral 2d para todos los pares de entradas, y que mapea dentro ,

es un NNGP

Aplicando recursivamente la observación de que es determinista como , puede escribirse como una función determinista de ,

dónde indica la aplicación del funcional secuencialmente veces. Al combinar esta expresión con las observaciones adicionales que la matriz de segundo momento de la capa de entrada es una función determinista de la entrada , y eso es un proceso gaussiano, la salida de la red neuronal se puede expresar como un proceso gaussiano en términos de su entrada,

Neural Tangents es una biblioteca de Python gratuita y de código abierto que se utiliza para calcular y hacer inferencias con NNGP y el kernel neural tangente correspondiente a varias arquitecturas ANN comunes. [21]

  1. ^ MacKay, David JC (1992). "Un marco práctico bayesiano para redes de retropropagación" . Computación neuronal . 4 (3): 448–472. doi : 10.1162 / neco.1992.4.3.448 . ISSN  0899-7667 . S2CID  16543854 .
  2. ^ Neal, Radford M. (2012). Aprendizaje bayesiano para redes neuronales . Springer Science and Business Media.
  3. ^ Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (2017). "Sobre la calibración de las redes neuronales modernas". Actas de la 34a Conferencia Internacional sobre Aprendizaje Automático-Volumen 70 . arXiv : 1706.04599 .
  4. ^ a b Neal, Radford M. (1996), "Priors for Infinite Networks", Aprendizaje bayesiano para redes neuronales , Lecture Notes in Statistics, 118 , Springer Nueva York, págs. 29-53, doi : 10.1007 / 978-1-4612-0745 -0_2 , ISBN 978-0-387-94724-2
  5. ^ a b Williams, Christopher KI (1997). "Computación con redes infinitas". Sistemas de procesamiento de información neuronal .
  6. ^ a b c Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). "Redes neuronales profundas como procesos gaussianos". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1711.00165 . Código Bib : 2017arXiv171100165L .
  7. ^ a b G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E .; Ghahramani, Zoubin (2017). "Comportamiento del proceso gaussiano en redes neuronales profundas y amplias". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1804.11271 . Código bibliográfico : 2018arXiv180411271M .
  8. ^ a b c d Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). "Las redes convolucionales profundas bayesianas con muchos canales son procesos gaussianos". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1810.05148 . Código bibliográfico : 2018arXiv181005148N .
  9. ^ a b Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward (2018). "Redes convolucionales profundas como procesos gaussianos superficiales". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1808.05587 . Código bibliográfico : 2018arXiv180805587G .
  10. ^ a b Borovykh, Anastasia (2018). "Una perspectiva del proceso gaussiano en redes neuronales convolucionales". arXiv : 1810.10798 [ stat.ML ].
  11. ^ Tsuchida, Russell; Pearce, Tim; van der Heide, Christopher; Roosta, Fred; Gallagher, Marcus (2020). "Evitar los puntos fijos del núcleo: Computación con ELU y GELU Infinite Networks". arXiv : 2002.08517 [ cs.LG ].
  12. ^ a b c Yang, Greg (2019). "Los programas de tensor I: las redes neuronales recurrentes o de retroalimentación amplia de cualquier arquitectura son procesos gaussianos" (PDF) . Avances en sistemas de procesamiento de información neuronal . arXiv : 1910.12478 . Código bibliográfico : 2019arXiv191012478Y .
  13. ^ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (15 de febrero de 2018). "Sensibilidad y generalización en redes neuronales: un estudio empírico" . Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1802.08760 . Código bibliográfico : 2018arXiv180208760N .
  14. ^ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (4 de noviembre de 2016). "Un análisis de modelos de redes neuronales profundas para aplicaciones prácticas" . arXiv : 1605.07678 . Código bibliográfico : 2016arXiv160507678C . Cite journal requiere |journal=( ayuda )
  15. ^ Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Hacia la comprensión del papel de la sobre-parametrización en la generalización de redes neuronales". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1805.12076 . Código Bib : 2018arXiv180512076N .
  16. ^ Schoenholz, Samuel S .; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Propagación profunda de información". Congreso Internacional de Representaciones del Aprendizaje . arXiv : 1611.01232 .
  17. ^ Hron, Jiri; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (18 de junio de 2020). "Atención infinita: NNGP y NTK para redes de atención profunda". Congreso Internacional de Machine Learning . 2020 . arXiv : 2006.10540 . Código Bib : 2020arXiv200610540H .
  18. ^ Pearce, Tim; Tsuchida, Russell; Brintrup, Alexandra (2019). "Priores expresivos en redes neuronales bayesianas: combinaciones de kernel y funciones periódicas" (PDF) . UAI .
  19. ^ Cho, Youngmin; Saul, Lawrence K. (2009). "Métodos de kernel para el aprendizaje profundo" . Sistemas de procesamiento de información neuronal : 342–350.
  20. ^ Tsuchida, Russell; Pearce, Tim; van der Heide, Christopher; Roosta, Fred; Gallagher, Marcus (2020). "Evitar los puntos fijos del núcleo: Computación con ELU y GELU Infinite Networks". arXiv : 2002.08517 [ cs.LG ].
  21. ^ Novak, Roman; Xiao, Lechao; Hron, Jiri; Lee, Jaehoon; Alemi, Alexander A .; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), "Neural Tangents: Fast and Easy Infinite Neural Networks in Python", International Conference on Learning Representations (ICLR) , 2020 , arXiv : 1912.02803 , Bibcode : 2019arXiv191202803N