Función de activación

En las redes neuronales artificiales , la función de activación de un nodo define la salida de ese nodo dada una entrada o un conjunto de entradas. Un circuito integrado estándar puede verse como una red digital de funciones de activación que pueden ser "ON" (1) u "OFF" (0), dependiendo de la entrada. Esto es similar al perceptrón lineal en las redes neuronales . Sin embargo, solo las funciones de activación no lineales permiten que tales redes calculen problemas no triviales usando solo una pequeña cantidad de nodos, y tales funciones de activación se denominan no linealidades . ^[1]

Función de activación logística

Clasificación de funciones de activación

Las funciones de activación más comunes se pueden dividir en tres categorías: funciones de cresta , funciones radiales y funciones de plegado .

Funciones de activación de la cresta

Las funciones de cresta son funciones multivariadas que actúan sobre una combinación lineal de las variables de entrada. Los ejemplos que se utilizan con frecuencia incluyen:

Activación lineal : ${\ Displaystyle \ phi (\ mathbf {v}) = a + \ mathbf {v} '\ mathbf {b}}$ ,
Activación de ReLU : ${\ Displaystyle \ phi (\ mathbf {v}) = \ max (0, a + \ mathbf {v} '\ mathbf {b})}$ ,
Activación Heaviside : ${\ Displaystyle \ phi (\ mathbf {v}) = 1_ {a + \ mathbf {v} '\ mathbf {b}> 0}}$ ,
Activación logística : ${\ Displaystyle \ phi (\ mathbf {v}) = (1+ \ exp (-a- \ mathbf {v} '\ mathbf {b})) ^ {- 1}}$ .

En las redes neuronales de inspiración biológica , la función de activación suele ser una abstracción que representa la tasa de activación del potencial de acción en la célula. ^[2] En su forma más simple, esta función es binaria , es decir, la neurona está disparando o no. La función se parece a ${\ Displaystyle \ phi (\ mathbf {v}) = U (a + \ mathbf {v} '\ mathbf {b})}$ , dónde ${\ Displaystyle U}$ es la función escalón Heaviside .

Se puede usar una línea de pendiente positiva para reflejar el aumento en la tasa de disparo que ocurre a medida que aumenta la corriente de entrada. Tal función sería de la forma ${\ Displaystyle \ phi (\ mathbf {v}) = a + \ mathbf {v} '\ mathbf {b}}$ .

Funciones de activación de unidad lineal rectificada y unidad lineal de error gaussiano

Las neuronas tampoco pueden disparar más rápido que una cierta velocidad, lo que motiva las funciones de activación sigmoidea cuyo rango es un intervalo finito.

Funciones de activación radial

Una clase especial de funciones de activación conocidas como funciones de base radial (RBF) se utilizan en redes RBF , que son extremadamente eficientes como aproximadores de funciones universales. Estas funciones de activación pueden adoptar muchas formas, como:

Gaussiano : ${\ Displaystyle \, \ phi (\ mathbf {v}) = \ exp \ left (- {\ frac {\ | \ mathbf {v} - \ mathbf {c} \ | ^ {2}} {2 \ sigma ^ {2}}} \ right)}$
Multicuadráticas: ${\ Displaystyle \, \ phi (\ mathbf {v}) = {\ sqrt {\ | \ mathbf {v} - \ mathbf {c} \ | ^ {2} + a ^ {2}}}}$

dónde ${\ Displaystyle \ mathbf {c}}$ es el vector que representa el centro de la función y ${\ Displaystyle a}$ y ${\ Displaystyle \ sigma}$ son parámetros que afectan la extensión del radio.

Funciones de activación plegables

Las funciones de activación plegable se utilizan ampliamente en las capas de agrupación en redes neuronales convolucionales y en las capas de salida de las redes de clasificación multiclase. Estas activaciones realizan agregación sobre las entradas, como tomar la media , mínima o máxima . En la clasificación multiclase, a menudo se utiliza la activación softmax .

Comparación de funciones de activación

Existen numerosas funciones de activación. El artículo seminal de 2012 de Hinton et al. Sobre el reconocimiento automático de voz utiliza una función logística de activación sigmoidea. ^[3] La arquitectura seminal de visión por computadora AlexNet de 2012 utiliza la función de activación ReLU, al igual que la arquitectura de visión por computadora de 2015, ResNet . El modelo de procesamiento de lenguaje seminal 2018 BERT utiliza una versión fluida de ReLU, GELU. ^[4]

Aparte de su desempeño empírico, las funciones de activación también tienen diferentes propiedades matemáticas:

No lineal: Cuando la función de activación no es lineal, se puede demostrar que una red neuronal de dos capas es un aproximador de función universal. ^[5] Esto se conoce como el teorema de aproximación universal . La función de activación de identidad no satisface esta propiedad. Cuando varias capas utilizan la función de activación de identidad, toda la red es equivalente a un modelo de una sola capa.
Distancia: Cuando el rango de la función de activación es finito, los métodos de entrenamiento basados en gradientes tienden a ser más estables, porque las presentaciones de patrones afectan significativamente solo pesos limitados. Cuando el rango es infinito, el entrenamiento es generalmente más eficiente porque las presentaciones de patrones afectan significativamente a la mayoría de los pesos. En el último caso, normalmente se necesitan tasas de aprendizaje más pequeñas . ^{[ cita requerida ]}
Continuamente diferenciable: Esta propiedad es deseable ( ReLU no es continuamente diferenciable y tiene algunos problemas con la optimización basada en gradientes, pero aún es posible) para habilitar métodos de optimización basados en gradientes. La función de activación de pasos binarios no es diferenciable en 0, y se diferencia en 0 para todos los demás valores, por lo que los métodos basados en gradientes no pueden progresar con ella. ^[6]

Estas propiedades no influyen de manera decisiva en el rendimiento, ni son las únicas propiedades matemáticas que pueden ser útiles. Por ejemplo, el rango estrictamente positivo del softplus lo hace adecuado para predecir variaciones en codificadores automáticos variacionales .

La siguiente tabla compara las propiedades de varias funciones de activación que son funciones de un pliegue $x$ de la capa o capas anteriores:

Nombre	Función, ${\ Displaystyle f (x)}$	Derivado de ${\ Displaystyle f}$ , ${\ Displaystyle f '(x)}$	Distancia	Orden de continuidad
Identidad	${\ Displaystyle x}$	${\ Displaystyle 1}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Paso binario	${\ displaystyle {\ begin {cases} 0 & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ displaystyle {\ begin {cases} 0 & {\ text {if}} x \ neq 0 \\ {\ text {undefined}} & {\ text {if}} x = 0 \ end {cases}}}$	${\ Displaystyle \ {0,1 \}}$	${\ Displaystyle C ^ {- 1}}$
Paso logístico , sigmoide o suave	${\ Displaystyle \ sigma (x) = {\ frac {1} {1 + e ^ {- x}}}}$ ^[1]	${\ Displaystyle f (x) (1-f (x))}$	${\ Displaystyle (0,1)}$	${\ Displaystyle C ^ {\ infty}}$
Tangente hiperbólica ( tanh )	${\ Displaystyle \ tanh (x) = {\ frac {e ^ {x} -e ^ {- x}} {e ^ {x} + e ^ {- x}}}}$	${\ Displaystyle 1-f (x) ^ {2}}$	${\ displaystyle (-1,1)}$	${\ Displaystyle C ^ {\ infty}}$
Unidad lineal rectificada (ReLU) ^[7]	${\ displaystyle {\ begin {alineado} & {\ begin {cases} 0 & {\ text {if}} x \ leq 0 \\ x & {\ text {if}} x> 0 \ end {cases}} \\ { } = {} & \ max \ {0, x \} = x {\ textbf {1}} _ {x> 0} \ end {alineado}}}$	${\ displaystyle {\ begin {cases} 0 & {\ text {if}} x <0 \\ 1 & {\ text {if}} x> 0 \\ {\ text {undefined}} & {\ text {if}} x = 0 \ end {cases}}}$	${\ Displaystyle [0, \ infty)}$	${\ Displaystyle C ^ {0}}$
Unidad lineal de error gaussiano (GELU) ^[4]	${\ Displaystyle {\ begin {alineado} & {\ frac {1} {2}} x \ left (1 + {\ text {erf}} \ left ({\ frac {x} {\ sqrt {2}}} \ right) \ right) \\ {} = {} & x \ Phi (x) \ end {alineado}}}$	${\ Displaystyle \ Phi (x) + x \ phi (x)}$	${\ Displaystyle (-0,17 \ ldots, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Softplus ^[8]	${\ Displaystyle \ ln \ left (1 + e ^ {x} \ right)}$	${\ Displaystyle {\ frac {1} {1 + e ^ {- x}}}}$	${\ displaystyle (0, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Unidad lineal exponencial (ELU) ^[9]	${\ Displaystyle {\ begin {cases} \ alpha \ left (e ^ {x} -1 \ right) & {\ text {if}} x \ leq 0 \\ x & {\ text {if}} x> 0 \ finalizar {casos}}}$ con parámetro ${\ Displaystyle \ alpha}$	${\ displaystyle {\ begin {cases} \ alpha e ^ {x} & {\ text {if}} x <0 \\ 1 & {\ text {if}} x> 0 \\ 1 & {\ text {if}} x = 0 {\ text {y}} \ alpha = 1 \ end {cases}}}$	${\ Displaystyle (- \ alpha, \ infty)}$	${\ displaystyle {\ begin {cases} C ^ {1} & {\ text {if}} \ alpha = 1 \\ C ^ {0} & {\ text {de otro modo}} \ end {cases}}}$
Unidad lineal exponencial escalada (SELU) ^[10]	${\ Displaystyle \ lambda {\ begin {cases} \ alpha (e ^ {x} -1) & {\ text {if}} x <0 \\ x & {\ text {if}} x \ geq 0 \ end { casos}}}$ con parámetros ${\ Displaystyle \ lambda = 1.0507}$ y ${\ Displaystyle \ alpha = 1,67326}$	${\ displaystyle \ lambda {\ begin {cases} \ alpha e ^ {x} & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ Displaystyle (- \ lambda \ alpha, \ infty)}$	${\ Displaystyle C ^ {0}}$
Unidad lineal rectificada con fugas (Leaky ReLU) ^[11]	${\ displaystyle {\ begin {cases} 0.01x & {\ text {if}} x <0 \\ x & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ displaystyle {\ begin {cases} 0.01 & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ Displaystyle C ^ {0}}$
Unidad lineal rectificada paramétrica (PReLU) ^[12]	${\ displaystyle {\ begin {cases} \ alpha x & {\ text {if}} x <0 \\ x & {\ text {if}} x \ geq 0 \ end {cases}}}$ con parámetro ${\ Displaystyle \ alpha}$	${\ displaystyle {\ begin {cases} \ alpha & {\ text {if}} x <0 \\ 1 & {\ text {if}} x \ geq 0 \ end {cases}}}$	${\ Displaystyle (- \ infty, \ infty)}$ ^[2]	${\ Displaystyle C ^ {0}}$
Unidad lineal sigmoidea (SiLU, ^[4] Contracción sigmoidea, ^[13] SiL, ^[14] o Swish-‍1 ^[15] )	${\ Displaystyle {\ frac {x} {1 + e ^ {- x}}}}$	${\ Displaystyle {\ frac {1 + e ^ {- x} + xe ^ {- x}} {\ left (1 + e ^ {- x} \ right) ^ {2}}}}$	${\ displaystyle [-0,278 \ ldots, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Mish ^[16]	${\ Displaystyle x \ tanh (\ ln (1 + e ^ {x}))}$	${\ Displaystyle {\ frac {(e ^ {x} (4e ^ {2x} + e ^ {3x} +4 (1 + x) + e ^ {x} (6 + 4x)))} {(2+ 2e ^ {x} + e ^ {2x}) ^ {2}}}}$	${\ displaystyle [-0,308 \ ldots, \ infty)}$	${\ Displaystyle C ^ {\ infty}}$
Gaussiano	${\ Displaystyle e ^ {- x ^ {2}}}$	${\ displaystyle -2xe ^ {- x ^ {2}}}$	${\ Displaystyle (0,1]}$	${\ Displaystyle C ^ {\ infty}}$

^ Aquí,

{\ Displaystyle \ sigma}

es la función logística .

^

{\ Displaystyle \ alpha> 0}

para que el rango se mantenga fiel.

La siguiente tabla enumera las funciones de activación que no son funciones de un solo pliegue $x$ de la capa o capas anteriores:

Nombre	Ecuación, ${\ Displaystyle f_ {i} \ left ({\ vec {x}} \ right)}$	Derivados , ${\ Displaystyle {\ frac {\ parcial f_ {i} \ izquierda ({\ vec {x}} \ derecha)} {\ parcial x_ {j}}}}$	Distancia	Orden de continuidad
Softmax	${\ Displaystyle {\ frac {e ^ {x_ {i}}} {\ sum _ {j = 1} ^ {J} e ^ {x_ {j}}}}}$ para $i$ = 1,…, $J$	${\ Displaystyle f_ {i} \ left ({\ vec {x}} \ right) \ left (\ delta _ {ij} -f_ {j} \ left ({\ vec {x}} \ right) \ right) }$ ^[3]^[4]	${\ Displaystyle (0,1)}$	${\ Displaystyle C ^ {\ infty}}$
Maxout ^[17]	${\ Displaystyle \ max _ {i} x_ {i}}$	${\ displaystyle {\ begin {cases} 1 & {\ text {if}} j = {\ underset {i} {\ operatorname {argmax}}} \, x_ {i} \\ 0 & {\ text {if}} j \ neq {\ underset {i} {\ operatorname {argmax}}} \, x_ {i} \ end {cases}}}$	${\ Displaystyle (- \ infty, \ infty)}$	${\ Displaystyle C ^ {0}}$

^ Aquí,

{\ Displaystyle \ delta _ {ij}}

es el delta de Kronecker .

^ Por ejemplo,

{\ Displaystyle j}

podría estar iterando a través del número de núcleos de la capa de red neuronal anterior mientras

{\ Displaystyle i}

itera a través del número de núcleos de la capa actual.

Ver también

Función logística
Rectificador (redes neuronales)
Estabilidad (teoría del aprendizaje)
Función Softmax

Referencias

^ Hinkelmann, Knut. "Redes neuronales, pág. 7" (PDF) . Universidad de Ciencias Aplicadas del Noroeste de Suiza .
^ Hodgkin, AL; Huxley, AF (28 de agosto de 1952). "Una descripción cuantitativa de la corriente de membrana y su aplicación a la conducción y excitación en el nervio" . La revista de fisiología . 117 (4): 500–544. doi : 10.1113 / jphysiol.1952.sp004764 . PMC 1392413 . PMID 12991237 .
^ Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Mayor, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Redes neuronales profundas para el modelado acústico en el reconocimiento de voz". Revista de procesamiento de señales IEEE . 29 (6): 82–97. doi : 10.1109 / MSP.2012.2205597 . S2CID 206485943 .
^ a b c Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [ cs.LG ].
^ Cybenko, G. (diciembre de 1989). "Aproximación por superposiciones de una función sigmoidea". Matemáticas de Control, Señales y Sistemas . 2 (4): 303–314. doi : 10.1007 / BF02551274 . ISSN 0932-4194 . S2CID 3958369 .
^ Snyman, Jan (3 de marzo de 2005). Optimización matemática práctica: Introducción a la teoría de optimización básica y algoritmos clásicos y nuevos basados en gradientes . Springer Science & Business Media. ISBN 978-0-387-24348-1.
^ Nair, Vinod; Hinton, Geoffrey E. (2010), "Las unidades lineales rectificadas mejoran las máquinas de Boltzmann restringidas" , 27ª Conferencia internacional sobre la conferencia internacional sobre aprendizaje automático , ICML'10, EE. UU.: Omnipress, págs. 807–814, ISBN 9781605589077
^ Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). "Redes neuronales de rectificador disperso profundo" (PDF) . Congreso Internacional de Inteligencia Artificial y Estadística .
^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23 de noviembre de 2015). "Aprendizaje en red profundo rápido y preciso por unidades lineales exponenciales (ELU)". arXiv : 1511.07289 [ cs.LG ].
^ Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (8 de junio de 2017). "Redes neuronales autonormalizantes". Avances en sistemas de procesamiento de información neuronal . 30 (2017). arXiv : 1706.02515 . Código bibliográfico : 2017arXiv170602515K .
^ Maas, Andrew L .; Hannun, Awni Y .; Ng, Andrew Y. (junio de 2013). "Las no linealidades del rectificador mejoran los modelos acústicos de redes neuronales". Proc. ICML . 30 (1). S2CID 16489696 .
^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (6 de febrero de 2015). "Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de ImageNet". arXiv : 1502.01852 [ cs.CV ].
^ Atto, Abdourrahmane M .; Pastor, Dominique; Mercier, Grégoire (2008), "Contracción suave de la ondícula sigmoidea para la estimación no paramétrica" (PDF) , Conferencia internacional IEEE de 2008 sobre acústica, habla y procesamiento de señales , doi : 10.1109 / ICASSP.2008.4518347 , S2CID 9959057
^ Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2018). "Unidades lineales ponderadas sigmoideas para la aproximación de la función de red neuronal en el aprendizaje por refuerzo". Redes neuronales . 107 : 3-11. arXiv : 1702.03118 . doi : 10.1016 / j.neunet.2017.12.012 . PMID 29395652 . S2CID 6940861 .
^ Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [ cs.NE ].
^ Misra, Diganta (13 de agosto de 2020). "Mish: una función de activación no monotónica auto regularizada". arXiv : 1908.08681 [ cs.LG ].
^ Goodfellow, Ian J .; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). "Maxout Networks". Taller de JMLR y actas de conferencias . 28 (3): 1319-1327. arXiv : 1302.4389 . Código bibliográfico : 2013arXiv1302.4389G .

[1] Hinkelmann, Knut. "Redes neuronales, pág. 7" (PDF) . Universidad de Ciencias Aplicadas del Noroeste de Suiza .

[2] Hodgkin, AL; Huxley, AF (28 de agosto de 1952). "Una descripción cuantitativa de la corriente de membrana y su aplicación a la conducción y excitación en el nervio" . La revista de fisiología . 117 (4): 500–544. doi : 10.1113 / jphysiol.1952.sp004764 . PMC 1392413 . PMID 12991237 .

[3] Hinton, Geoffrey; Deng, Li; Deng, Li; Yu, Dong; Dahl, George; Mohamed, Abdel-rahman; Jaitly, Navdeep; Mayor, Andrew; Vanhoucke, Vincent; Nguyen, Patrick; Sainath, Tara; Kingsbury, Brian (2012). "Redes neuronales profundas para el modelado acústico en el reconocimiento de voz". Revista de procesamiento de señales IEEE . 29 (6): 82–97. doi : 10.1109 / MSP.2012.2205597 . S2CID 206485943 .

[ReferenceA-4] Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [ cs.LG ].

[5] Cybenko, G. (diciembre de 1989). "Aproximación por superposiciones de una función sigmoidea". Matemáticas de Control, Señales y Sistemas . 2 (4): 303–314. doi : 10.1007 / BF02551274 . ISSN 0932-4194 . S2CID 3958369 .

[6] Snyman, Jan (3 de marzo de 2005). Optimización matemática práctica: Introducción a la teoría de optimización básica y algoritmos clásicos y nuevos basados en gradientes . Springer Science & Business Media. ISBN 978-0-387-24348-1.

[7] Nair, Vinod; Hinton, Geoffrey E. (2010), "Las unidades lineales rectificadas mejoran las máquinas de Boltzmann restringidas" , 27ª Conferencia internacional sobre la conferencia internacional sobre aprendizaje automático , ICML'10, EE. UU.: Omnipress, págs. 807–814, ISBN 9781605589077

[8] Glorot, Xavier; Bordes, Antoine; Bengio, Yoshua (2011). "Redes neuronales de rectificador disperso profundo" (PDF) . Congreso Internacional de Inteligencia Artificial y Estadística .

[9] Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (23 de noviembre de 2015). "Aprendizaje en red profundo rápido y preciso por unidades lineales exponenciales (ELU)". arXiv : 1511.07289 [ cs.LG ].

[10] Klambauer, Günter; Unterthiner, Thomas; Mayr, Andreas; Hochreiter, Sepp (8 de junio de 2017). "Redes neuronales autonormalizantes". Avances en sistemas de procesamiento de información neuronal . 30 (2017). arXiv : 1706.02515 . Código bibliográfico : 2017arXiv170602515K .

[11] Maas, Andrew L .; Hannun, Awni Y .; Ng, Andrew Y. (junio de 2013). "Las no linealidades del rectificador mejoran los modelos acústicos de redes neuronales". Proc. ICML . 30 (1). S2CID 16489696 .

[12] Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (6 de febrero de 2015). "Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de ImageNet". arXiv : 1502.01852 [ cs.CV ].

[refssbs1-13] Atto, Abdourrahmane M .; Pastor, Dominique; Mercier, Grégoire (2008), "Contracción suave de la ondícula sigmoidea para la estimación no paramétrica" (PDF) , Conferencia internacional IEEE de 2008 sobre acústica, habla y procesamiento de señales , doi : 10.1109 / ICASSP.2008.4518347 , S2CID 9959057

[14] Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2018). "Unidades lineales ponderadas sigmoideas para la aproximación de la función de red neuronal en el aprendizaje por refuerzo". Redes neuronales . 107 : 3-11. arXiv : 1702.03118 . doi : 10.1016 / j.neunet.2017.12.012 . PMID 29395652 . S2CID 6940861 .

[15] Ramachandran, Prajit; Zoph, Barret; Le, Quoc V (2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [ cs.NE ].

[16] Misra, Diganta (13 de agosto de 2020). "Mish: una función de activación no monotónica auto regularizada". arXiv : 1908.08681 [ cs.LG ].

[17] Goodfellow, Ian J .; Warde-Farley, David; Mirza, Mehdi; Courville, Aaron; Bengio, Yoshua (2013). "Maxout Networks". Taller de JMLR y actas de conferencias . 28 (3): 1319-1327. arXiv : 1302.4389 . Código bibliográfico : 2013arXiv1302.4389G .

[1]