Teorema de aproximación universal

En la teoría matemática de las redes neuronales artificiales , los teoremas de aproximación universal son resultados ^[1] que establecen la densidad de una clase de funciones generadas algorítmicamente dentro de un espacio funcional de interés dado. Normalmente, estos resultados se refieren a las capacidades de aproximación de la arquitectura de alimentación directa en el espacio de funciones continuas entre dos espacios euclidianos , y la aproximación es con respecto a la topología de convergencia compacta . Sin embargo, también hay una variedad de resultados entre espacios no euclidianos ^[2]y otras arquitecturas de uso común y, más generalmente, conjuntos de funciones generados algorítmicamente, como la arquitectura de red neuronal convolucional (CNN), ^[3]^[4] funciones de base radial, ^[5] o redes neuronales con propiedades específicas. ^[6] La mayoría de los teoremas de aproximación universal se pueden dividir en dos clases. El primero cuantifica las capacidades de aproximación de las redes neuronales con un número arbitrario de neuronas artificiales ( caso de " ancho arbitrario ") y el segundo se centra en el caso con un número arbitrario de capas ocultas, cada una de las cuales contiene un número limitado de neuronas artificiales (" profundidad arbitraria " " caso).

Los teoremas de aproximación universal implican que las redes neuronales pueden representar una amplia variedad de funciones interesantes cuando se les dan los pesos apropiados. Por otro lado, normalmente no proporcionan una construcción para los pesos, sino que simplemente indican que tal construcción es posible.

Historia

Una de las primeras versiones del caso de ancho arbitrario fue probada por George Cybenko en 1989 para las funciones de activación sigmoidea . ^[7] Kurt Hornik demostró en 1991 ^[8] que no es la elección específica de la función de activación, sino más bien la propia arquitectura de alimentación de múltiples capas la que da a las redes neuronales el potencial de ser aproximaciones universales. Moshe Leshno et al en 1993 ^[9] y más tarde Allan Pinkus en 1999 ^[10] demostraron que la propiedad de aproximación universal, ^[11] es equivalente a tener una función de activación no polinómica.

El caso de profundidad arbitraria también fue estudiado por varios autores, como Zhou Lu et al en 2017, ^[12] Boris Hanin y Mark Sellke en 2018, ^[13] y Patrick Kidger y Terry Lyons en 2020. ^[14] El resultado mínimo el ancho por capa se refinó en ^[15] y en ^[16] para redes residuales.

Existen varias extensiones del teorema, como funciones de activación discontinuas, ^[9] dominios no compactos, ^[14] redes certificables ^[17] y arquitecturas y topologías de red alternativas. ^[14]^[18] A. Kratsios en. ^[11]

Caso de ancho arbitrario

La forma clásica del teorema de aproximación universal para ancho arbitrario y profundidad acotada es la siguiente. ^[7]^[8]^[19]^[20] Extiende ^[10] los resultados clásicos de George Cybenko y Kurt Hornik .

Teorema de aproximación universal: fijar una función continua ${\ Displaystyle \ sigma: \ mathbb {R} \ rightarrow \ mathbb {R}}$ (función de activación) y números enteros positivos ${\ Displaystyle d, D}$ . La función ${\ Displaystyle \ sigma}$ no es un polinomio si y solo si, para cada función continua ${\ Displaystyle f: \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}$ (función de destino), cada subconjunto compacto ${\ Displaystyle K}$ de ${\ Displaystyle \ mathbb {R} ^ {d}}$ , y cada ${\ Displaystyle \ epsilon> 0}$ existe una función continua ${\ Displaystyle f _ {\ epsilon}: \ mathbb {R} ^ {d} \ to \ mathbb {R} ^ {D}}$ (la salida de la capa) con representación
${\ Displaystyle f _ {\ epsilon} = W_ {2} \ circ \ sigma \ circ W_ {1},}$
dónde ${\ Displaystyle W_ {2}, W_ {1}}$ son mapas afines componibles y ${\ Displaystyle \ circ}$ denota composición por componentes, de modo que la aproximación ligada
${\ Displaystyle \ sup _ {x \ in K} \, \ | f (x) -f _ {\ epsilon} (x) \ | <\ varepsilon}$
se sostiene para cualquier ${\ Displaystyle \ epsilon}$ arbitrariamente pequeño (distancia de ${\ Displaystyle f}$ a ${\ Displaystyle f _ {\ epsilon}}$ puede ser infinitamente pequeño).

El teorema establece que el resultado de la primera capa ${\ Displaystyle f _ {\ epsilon}}$ puede aproximarse a cualquier función de buen comportamiento ${\ Displaystyle f}$ . Esta función de buen comportamiento también puede aproximarse mediante una red de mayor profundidad utilizando la misma construcción para la primera capa y aproximando la función de identidad con las capas posteriores.

Caso de profundidad arbitraria

Las versiones "duales" del teorema consideran redes de ancho limitado y profundidad arbitraria. Una variante del teorema de aproximación universal fue probada para el caso de profundidad arbitraria por Zhou Lu et al. en 2017. ^[12] Demostraron que las redes de ancho n + 4 con funciones de activación ReLU pueden aproximarse a cualquier función integrable de Lebesgue en el espacio de entrada n- dimensional con respecto a ${\ Displaystyle L ^ {1}}$ distancia si se permite que la profundidad de la red aumente. También se demostró que existía un poder expresivo limitado si el ancho era menor o igual que n . Todas las funciones integrables de Lebesgue, excepto un conjunto de medidas cero, no pueden aproximarse mediante redes ReLU de ancho n . En el mismo artículo ^[12] se demostró que las redes ReLU con ancho n + 1 eran suficientes para aproximar cualquier función continua de variables de entrada n- dimensionales. ^[21] El siguiente perfeccionamiento especifica el ancho mínimo óptimo para el que es posible una aproximación de este tipo y se debe a ^[22]

Teorema de aproximación universal (distancia L1, activación ReLU, profundidad arbitraria, ancho mínimo). Para cualquier p-integrable Lebesgue-Bochner función ${\ Displaystyle f: \ mathbb {R} ^ {n} \ rightarrow \ mathbb {R} ^ {m}}$ y cualquier ${\ Displaystyle \ epsilon> 0}$ , existe una red ReLU completamente conectada ${\ Displaystyle F}$ de ancho exactamente ${\ Displaystyle d_ {m} = \ max \ {{n + 1}, m \}}$ , satisfactorio
${\ Displaystyle \ int _ {\ mathbb {R} ^ {n}} \ left \ | f (x) -F _ {} (x) \ right \ | ^ {p} \ mathrm {d} x <\ epsilon}$ .
Además, existe una función ${\ Displaystyle f \ in L ^ {p} (\ mathbb {R} ^ {n}, \ mathbb {R} ^ {m})}$ y algo ${\ Displaystyle \ epsilon> 0}$ , para la cual no existe una red ReLU completamente conectada de ancho inferior a ${\ Displaystyle d_ {m} = \ max \ {{n + 1}, m \}}$ satisfaciendo el límite de aproximación anterior.

Juntos, los resultados centrales de ^[14] y de ^[2] producen el siguiente teorema de aproximación universal general para redes con ancho acotado, entre espacios generales de entrada y salida.

Teorema de aproximación universal ( activación no afín , profundidad arbitraria , no euclidiana ). Dejar ${\ Displaystyle {\ mathcal {X}}}$ ser un espacio topológico compacto , ${\ Displaystyle ({\ mathcal {Y}}, d _ {\ mathcal {Y}})}$ ser un espacio métrico , ${\ Displaystyle \ phi: {\ mathcal {X}} \ rightarrow \ mathbb {R} ^ {n}}$ ser un mapa de características continuo e inyectivo y dejar ${\ Displaystyle \ rho: \ mathbb {R} ^ {m} \ rightarrow {\ mathcal {Y}}}$ ser un mapa de lectura continua, con una sección , que tenga una imagen densa ${\ Displaystyle Im (\ rho)}$ con un límite con collar (posiblemente vacío). Dejar ${\ Displaystyle \ sigma: \ mathbb {R} \ to \ mathbb {R}}$ ser cualquier función continua no afín que sea continuamente diferenciable en al menos un punto, con una derivada distinta de cero en ese punto. Dejar ${\ Displaystyle {\ mathcal {N}} _ {\ phi, \ rho} ^ {\ sigma}}$ denotar el espacio de las redes neuronales de alimentación hacia adelante con ${\ Displaystyle n}$ neuronas de entrada, ${\ Displaystyle m}$ neuronas de salida, y un número arbitrario de capas ocultas, cada una con ${\ Displaystyle n + m + 2}$ neuronas, de modo que cada neurona oculta tiene una función de activación ${\ Displaystyle \ sigma}$ y cada neurona de salida tiene la identidad como función de activación, con capa de entrada ${\ Displaystyle \ phi}$ y capa de salida ${\ Displaystyle \ rho}$ . Entonces dado cualquier ${\ Displaystyle \ varepsilon> 0}$ y cualquier ${\ displaystyle f \ en C ({\ mathcal {X}}, {\ mathcal {Y}})}$ , existe ${\ Displaystyle F \ in {\ mathcal {N}} _ {\ phi, \ rho} ^ {\ sigma}}$ tal que
${\ Displaystyle \ sup _ {x \ in {\ mathcal {X}}} \, d _ {\ mathcal {Y}} (F (x), f (x)) <\ varepsilon.}$
En otras palabras, ${\ Displaystyle {\ mathcal {N}}}$ es denso en ${\ Displaystyle C ({\ mathcal {X}}; {\ mathcal {Y}})}$ con respecto a la distancia uniforme.

Se han establecido ciertas condiciones necesarias para el caso de ancho acotado, profundidad arbitraria, pero todavía hay una brecha entre las condiciones conocidas suficientes y necesarias. ^[12]^[13]^[23]

Ver también

Teorema de representación de Kolmogorov-Arnold
Representante teorema
No hay teorema de almuerzo gratis
Teorema de Stone-Weierstrass
series de Fourier

Referencias

^ Hornik, Kurt; Tinchcombe, Maxwell; White, Halbert (1989). Las redes de alimentación directa multicapa son aproximadores universales (PDF) . Redes neuronales, vol. 2, págs. 359-366, 1989 . Pergamon Press plc.
^ a b Kratsios, Anastasis; Bilokopytov, Eugene (2020). Aproximación universal no euclidiana (PDF) . Avances en los sistemas de procesamiento de información neuronal 33 . Curran Associates, Inc.
^ Zhou, Ding-Xuan (2020) Universalidad de las redes neuronales convolucionales profundas; Análisis armónico aplicado y computacional 48.2 (2020): 787-794.
^ A. Heinecke, J. Ho y W. Hwang (2020); Refinamiento y aproximación universal a través de redes de convolución ReLU escasamente conectadas; Cartas de procesamiento de señales IEEE, vol. 27, págs. 1175-1179.
^ Park, Jooyoung e Irwin W. Sandberg (1991); Aproximación universal utilizando redes de función de base radial; Computación neuronal 3.2, 246-257.
↑ Yarotsky, Dmitry (2018); Aproximaciones universales de mapas invariantes por redes neuronales.
^ a b Cybenko, G. (1989) "Aproximación por superposiciones de una función sigmoidea" , Matemáticas de control, señales y sistemas , 2 (4), 303–314. doi : 10.1007 / BF02551274
↑ a b Kurt Hornik (1991) " [1] ", Redes neuronales , 4 (2), 251-257. doi : 10.1016 / 0893-6080 (91) 90009-T
^ a b Leshno, Moshe; Lin, Vladimir Ya .; Pinkus, Allan; Schocken, Shimon (enero de 1993). "Las redes de alimentación de varias capas con una función de activación no polinómica pueden aproximarse a cualquier función". Redes neuronales . 6 (6): 861–867. doi : 10.1016 / S0893-6080 (05) 80131-5 . S2CID 206089312 .
^ a b Pinkus, Allan (enero de 1999). "Teoría de aproximación del modelo MLP en redes neuronales". Acta Numerica . 8 : 143-195. Código Bibliográfico : 1999AcNum ... 8..143P . doi : 10.1017 / S0962492900002919 .
^ a b Kratsios, Anastasis (27 de noviembre de 2020). "La propiedad de aproximación universal" . Anales de Matemáticas e Inteligencia Artificial . doi : 10.1007 / s10472-020-09723-1 - a través de Springer.
^ a b c d Lu, Zhou; Pu, Homgming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei (2017). "El poder expresivo de las redes neuronales: una vista desde el ancho" . Avances en los sistemas de procesamiento de información neuronal 30 . Curran Associates, Inc .: 6231–6239. arXiv : 1709.02540 .
^ a b Hanin, Boris; Sellke, Mark (marzo de 2019). "Aproximación de funciones continuas por redes ReLU de ancho mínimo" . Matemáticas . MDPI. arXiv : 1710.11278 .
^ a b c d Kidger, Patrick; Lyons, Terry (julio de 2020). Aproximación universal con redes estrechas profundas . Jornada de Teoría del Aprendizaje. arXiv : 1905.08539 .
^ Park, Sejun; Yun, Chulhee; Lee, Jaeho; Shin, Jinwoo (octubre de 2020). Ancho mínimo para aproximación universal . Jornada de Teoría del Aprendizaje. arXiv : 1905.08539 .
^ Tabuada, Paulo; Gharesifard, Bahman (2020). Potencia de aproximación universal de redes neuronales residuales profundas a través de la teoría de control no lineal . ICLR. arXiv : 2007.06007 .
^ Baader, Maximiliano; Mirman, Matthew; Vechev, Martin (2020). Aproximación universal con redes certificadas . ICLR.
^ Lin, Hongzhou; Jegelka, Stefanie (2018). ResNet con capas ocultas de una neurona es un aproximador universal . Avances en los sistemas de procesamiento de información neuronal 30 . Curran Associates, Inc. págs. 6169–6178.
^ Haykin, Simon (1998). Redes neuronales: una base integral , volumen 2, Prentice Hall. ISBN 0-13-273350-1 .
^ Hassoun, M. (1995) Fundamentos de las redes neuronales artificiales MIT Press, p. 48
^ Hanin, B. (2018). Aproximación de funciones continuas mediante redes ReLU de ancho mínimo . preimpresión de arXiv arXiv: 1710.11278.
^ Park, Yun, Lee, Shin, Sejun, Chulhee, Jaeho, Jinwoo (28 de septiembre de 2020). "Ancho mínimo para aproximación universal" . ICLR . arXiv : 2006.08859 .CS1 maint: varios nombres: lista de autores ( enlace )
^ Johnson, Jesse (2019). Las redes neuronales profundas y delgadas no son aproximadores universales . Congreso Internacional de Representaciones del Aprendizaje.

[MLP-UA-1] Hornik, Kurt; Tinchcombe, Maxwell; White, Halbert (1989). Las redes de alimentación directa multicapa son aproximadores universales (PDF) . Redes neuronales, vol. 2, págs. 359-366, 1989 . Pergamon Press plc.

[NonEuclidean-2] Kratsios, Anastasis; Bilokopytov, Eugene (2020). Aproximación universal no euclidiana (PDF) . Avances en los sistemas de procesamiento de información neuronal 33 . Curran Associates, Inc.

[3] Zhou, Ding-Xuan (2020) Universalidad de las redes neuronales convolucionales profundas; Análisis armónico aplicado y computacional 48.2 (2020): 787-794.

[4] A. Heinecke, J. Ho y W. Hwang (2020); Refinamiento y aproximación universal a través de redes de convolución ReLU escasamente conectadas; Cartas de procesamiento de señales IEEE, vol. 27, págs. 1175-1179.

[5] Park, Jooyoung e Irwin W. Sandberg (1991); Aproximación universal utilizando redes de función de base radial; Computación neuronal 3.2, 246-257.

[6] Yarotsky, Dmitry (2018); Aproximaciones universales de mapas invariantes por redes neuronales.

[cyb-7] Cybenko, G. (1989) "Aproximación por superposiciones de una función sigmoidea" , Matemáticas de control, señales y sistemas , 2 (4), 303–314. doi : 10.1007 / BF02551274

[horn-8] Kurt Hornik (1991) " [1] ", Redes neuronales , 4 (2), 251-257. doi : 10.1016 / 0893-6080 (91) 90009-T

[leshno-9] Leshno, Moshe; Lin, Vladimir Ya .; Pinkus, Allan; Schocken, Shimon (enero de 1993). "Las redes de alimentación de varias capas con una función de activación no polinómica pueden aproximarse a cualquier función". Redes neuronales . 6 (6): 861–867. doi : 10.1016 / S0893-6080 (05) 80131-5 . S2CID 206089312 .

[pinkus-10] Pinkus, Allan (enero de 1999). "Teoría de aproximación del modelo MLP en redes neuronales". Acta Numerica . 8 : 143-195. Código Bibliográfico : 1999AcNum ... 8..143P . doi : 10.1017 / S0962492900002919 .

[Kratsios-11] Kratsios, Anastasis (27 de noviembre de 2020). "La propiedad de aproximación universal" . Anales de Matemáticas e Inteligencia Artificial . doi : 10.1007 / s10472-020-09723-1 - a través de Springer.

[ZhouLu-12] Lu, Zhou; Pu, Homgming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei (2017). "El poder expresivo de las redes neuronales: una vista desde el ancho" . Avances en los sistemas de procesamiento de información neuronal 30 . Curran Associates, Inc .: 6231–6239. arXiv : 1709.02540 .

[hanin-13] Hanin, Boris; Sellke, Mark (marzo de 2019). "Aproximación de funciones continuas por redes ReLU de ancho mínimo" . Matemáticas . MDPI. arXiv : 1710.11278 .

[kidger-14] Kidger, Patrick; Lyons, Terry (julio de 2020). Aproximación universal con redes estrechas profundas . Jornada de Teoría del Aprendizaje. arXiv : 1905.08539 .

[park-15] Park, Sejun; Yun, Chulhee; Lee, Jaeho; Shin, Jinwoo (octubre de 2020). Ancho mínimo para aproximación universal . Jornada de Teoría del Aprendizaje. arXiv : 1905.08539 .

[tabuada-16] Tabuada, Paulo; Gharesifard, Bahman (2020). Potencia de aproximación universal de redes neuronales residuales profundas a través de la teoría de control no lineal . ICLR. arXiv : 2007.06007 .

[17] Baader, Maximiliano; Mirman, Matthew; Vechev, Martin (2020). Aproximación universal con redes certificadas . ICLR.

[18] Lin, Hongzhou; Jegelka, Stefanie (2018). ResNet con capas ocultas de una neurona es un aproximador universal . Avances en los sistemas de procesamiento de información neuronal 30 . Curran Associates, Inc. págs. 6169–6178.

[19] Haykin, Simon (1998). Redes neuronales: una base integral , volumen 2, Prentice Hall. ISBN 0-13-273350-1 .

[20] Hassoun, M. (1995) Fundamentos de las redes neuronales artificiales MIT Press, p. 48

[21] Hanin, B. (2018). Aproximación de funciones continuas mediante redes ReLU de ancho mínimo . preimpresión de arXiv arXiv: 1710.11278.

[22] Park, Yun, Lee, Shin, Sejun, Chulhee, Jaeho, Jinwoo (28 de septiembre de 2020). "Ancho mínimo para aproximación universal" . ICLR . arXiv : 2006.08859 .CS1 maint: varios nombres: lista de autores ( enlace )

[johnson-23] Johnson, Jesse (2019). Las redes neuronales profundas y delgadas no son aproximadores universales . Congreso Internacional de Representaciones del Aprendizaje.

[1]