Rectificador (redes neuronales)

En el contexto de las redes neuronales artificiales , la función de activación del rectificador o ReLU (unidad lineal rectificada) ^[1]^[2] es una función de activación definida como la parte positiva de su argumento:

Gráfico de las funciones del rectificador ReLU (azul) y GELU (verde) cerca de x = 0

{\ Displaystyle f (x) = x ^ {+} = \ max (0, x)}

donde x es la entrada a una neurona. Esto también se conoce como función de rampa y es análoga a la rectificación de media onda en la ingeniería eléctrica.

Esta función de activación comenzó a aparecer en el contexto de la extracción de características visuales en redes neuronales jerárquicas a partir de finales de la década de 1960. ^[3]^[4] Más tarde se argumentó que tiene fuertes motivaciones biológicas y justificaciones matemáticas. ^[5]^[6] En 2011 se descubrió que permitía un mejor entrenamiento de redes más profundas, ^{[7] en} comparación con las funciones de activación ampliamente utilizadas antes de 2011, por ejemplo, el sigmoide logístico (que se inspira en la teoría de la probabilidad ; ver regresión logística ) y su contraparte más práctica ^[8] , la tangente hiperbólica . El rectificador es, a partir de 2017 ^[actualizar], la función de activación más popular para redes neuronales profundas . ^[9]

Las unidades lineales rectificadas encuentran aplicaciones en la visión por computadora ^[7] y el reconocimiento de voz ^[10]^[11] utilizando redes neuronales profundas y neurociencia computacional . ^[12]^[13]^[14]

Ventajas

Activación escasa: por ejemplo, en una red inicializada aleatoriamente, solo alrededor del 50% de las unidades ocultas están activadas (tienen una salida distinta de cero).
Mejor propagación del gradiente: Menos problemas de gradiente de desaparición en comparación con las funciones de activación sigmoidea que se saturan en ambas direcciones. ^[7]
Cálculo eficiente: solo comparación, suma y multiplicación.
Invariante de escala: ${\ Displaystyle \ max (0, ax) = a \ max (0, x) {\ text {para}} a \ geq 0}$ .

Se utilizaron funciones de activación rectificadora para separar la excitación específica y la inhibición inespecífica en la pirámide de abstracción neuronal, que fue entrenada de manera supervisada para aprender varias tareas de visión por computadora. ^[15] En 2011, ^[7] se demostró que el uso del rectificador como una no linealidad permite entrenar redes neuronales supervisadas en profundidad sin requerir entrenamiento previo sin supervisión . Las unidades lineales rectificadas, en comparación con la función sigmoidea o funciones de activación similares, permiten un entrenamiento más rápido y eficaz de arquitecturas neuronales profundas en conjuntos de datos grandes y complejos.

Problemas potenciales

No diferenciable en cero; sin embargo, es diferenciable en cualquier otro lugar, y el valor de la derivada en cero puede elegirse arbitrariamente para que sea 0 o 1.
No centrado en cero.
Ilimitado.
Problema de ReLU moribundo: las neuronas ReLU (unidad lineal rectificada) a veces pueden ser empujadas a estados en los que se vuelven inactivas para esencialmente todas las entradas. En este estado, ningún gradiente fluye hacia atrás a través de la neurona, por lo que la neurona queda atascada en un estado perpetuamente inactivo y "muere". Ésta es una forma del problema del gradiente que desaparece . En algunos casos, una gran cantidad de neuronas en una red pueden quedarse atascadas en estados muertos, disminuyendo efectivamente la capacidad del modelo. Este problema suele surgir cuando la tasa de aprendizaje se establece demasiado alta. En su lugar, se puede mitigar utilizando ReLU con fugas, que asignan una pequeña pendiente positiva para x <0, sin embargo, el rendimiento se reduce.

Variantes

Variantes lineales

ReLU con fugas

Los ReLU con fugas permiten un pequeño gradiente positivo cuando la unidad no está activa. ^[11]

{\ displaystyle f (x) = {\ begin {cases} x & {\ text {if}} x> 0, \\ 0.01x & {\ text {de otro modo}}. \ end {cases}}}

ReLU paramétrico

Los ReLU paramétricos (PReLU) llevan esta idea más allá al convertir el coeficiente de fuga en un parámetro que se aprende junto con los otros parámetros de la red neuronal. ^[dieciséis]

{\ displaystyle f (x) = {\ begin {cases} x & {\ text {if}} x> 0, \\ ax & {\ text {de otro modo}}. \ end {cases}}}

Tenga en cuenta que para un ≤ 1, esto es equivalente a

{\ Displaystyle f (x) = \ max (x, ax)}

y por lo tanto tiene una relación con las redes "maxout". ^[dieciséis]

Variantes no lineales

Unidad lineal de error gaussiano (GELU)

GELU es una aproximación suave al rectificador. Tiene un "golpe" no monótono cuando x <0, y sirve como activación predeterminada para modelos como BERT . ^[17]

${\ Displaystyle f (x) = x \ cdot \ Phi (x)}$ ,

donde Φ ( x ) es la función de distribución acumulativa de la distribución normal estándar .

Esta función de activación se ilustra en la figura al comienzo de este artículo.

SiLU

El SiLU (Sigmoid Linear Unit) es otra aproximación suave introducida por primera vez en el documento GELU. ^{[ dudoso - discutir ]} ^[17]

${\ Displaystyle f (x) = x \ cdot \ operatorname {sigmoide} (x)}$

Softplus

Una aproximación suave al rectificador es la función analítica

{\ Displaystyle f (x) = \ ln (1 + e ^ {x}),}

que se denomina función softplus ^[18]^[7] o SmoothReLU . ^[19] Para grandes negativos ${\ Displaystyle x}$ se trata ${\ Displaystyle e ^ {x}}$ tan justo por encima de 0, mientras que para grandes positivos ${\ Displaystyle x}$ acerca de ${\ Displaystyle x + e ^ {- x}}$ tan justo arriba ${\ Displaystyle x}$ .

Un parámetro de nitidez ${\ Displaystyle k}$ puede incluirse:

{\ Displaystyle f (x) = {\ frac {\ ln \ left (1 + e ^ {kx} \ right)} {k}}}

La derivada de softplus es la función logística . A partir de la versión paramétrica,

{\ Displaystyle f '(x) = {\ frac {e ^ {kx}} {1 + e ^ {kx}}} = {\ frac {1} {1 + e ^ {- kx}}}}

La función sigmoidea logística es una aproximación suave de la derivada del rectificador, la función escalonada de Heaviside .

La generalización multivariable de softplus de una sola variable es LogSumExp con el primer argumento establecido en cero:

{\ Displaystyle \ operatorname {LSE_ {0}} ^ {+} (x_ {1}, \ dots, x_ {n}): = \ operatorname {LSE} (0, x_ {1}, \ dots, x_ {n }) = \ log \ left (1 + e ^ {x_ {1}} + \ cdots + e ^ {x_ {n}} \ right).}

La función LogSumExp es

{\ Displaystyle \ operatorname {LSE} (x_ {1}, \ dots, x_ {n}) = \ log \ left (e ^ {x_ {1}} + \ cdots + e ^ {x_ {n}} \ right ),}

y su gradiente es el softmax ; el softmax con el primer argumento puesto a cero es la generalización multivariable de la función logística. Tanto LogSumExp como softmax se utilizan en el aprendizaje automático.

ELU

Las unidades lineales exponenciales intentan acercar las activaciones medias a cero, lo que acelera el aprendizaje. Se ha demostrado que los ELU pueden obtener una mayor precisión de clasificación que los ReLU. ^[20]

{\ displaystyle f (x) = {\ begin {cases} x & {\ text {if}} x> 0, \\ a \ left (e ^ {x} -1 \ right) & {\ text {de lo contrario}} , \ end {cases}}}

dónde ${\ Displaystyle a}$ es un hiperparámetro que debe ajustarse, y ${\ Displaystyle a \ geq 0}$ es una restricción.

El ELU puede verse como una versión suavizada de un ReLU desplazado (SReLU), que tiene la forma ${\ Displaystyle f (x) = \ max (-a, x)}$ dada la misma interpretación de ${\ Displaystyle a}$ .

Ver también

Función Softmax
Función sigmoidea
Modelo Tobit
Capa (aprendizaje profundo)

Referencias

^ Brownlee, Jason (8 de enero de 2019). "Una suave introducción a la unidad lineal rectificada (ReLU)" . Dominio del aprendizaje automático . Consultado el 8 de abril de 2021 .
^ Liu, Danqing (30 de noviembre de 2017). "Una guía práctica de ReLU" . Medio . Consultado el 8 de abril de 2021 .
^ Fukushima, K. (1969). "Extracción de características visuales mediante una red multicapa de elementos de umbral analógicos". Transacciones IEEE sobre ciencia de sistemas y cibernética . 5 (4): 322–333.
^ Fukushima, K .; Miyake, S. (1982). "Neocognitron: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento visual de patrones". en Competencia y cooperación en redes neuronales . Springer: 267–285.
^ Hahnloser, R .; Sarpeshkar, R .; Mahowald, MA; Douglas, RJ; Seung, HS (2000). "La selección digital y la amplificación analógica coexisten en un circuito de silicio inspirado en la corteza". Naturaleza . 405 (6789): 947–951. Código Bibliográfico : 2000Natur.405..947H . doi : 10.1038 / 35016072 . PMID 10879535 . S2CID 4399014 .
^ Hahnloser, R .; Seung, HS (2001). Conjuntos permitidos y prohibidos en redes lineales de umbral simétricas . NIPS 2001.
^ a b c d e Xavier Glorot, Antoine Bordes y Yoshua Bengio (2011). Redes neuronales de rectificador disperso profundo (PDF) . AISTATS. Funciones de activación rectificador y softplus. El segundo es una versión fluida del primero.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
^ Yann LeCun , Leon Bottou , Genevieve B. Orr y Klaus-Robert Müller (1998). "BackProp eficiente" (PDF) . En G. Orr; K. Müller (eds.). Redes neuronales: trucos del oficio . Saltador.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de octubre de 2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [ cs.NE ].
^ László Tóth (2013). Reconocimiento telefónico con redes neuronales de rectificador disperso profundo (PDF) . ICASSP .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
↑ a b Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Las no linealidades del rectificador mejoran los modelos acústicos de redes neuronales .
^ Hansel, D .; van Vreeswijk, C. (2002). "Cómo el ruido contribuye a la invariancia de contraste de la sintonización de orientación en la corteza visual del gato" . J. Neurosci. 22 (12): 5118–5128. doi : 10.1523 / JNEUROSCI.22-12-05118.2002 . PMC 6757721 . PMID 12077207 .
^ Kadmon, Jonathan; Sompolinsky, Haim (19 de noviembre de 2015). "Transición al caos en redes neuronales aleatorias". Physical Review X . 5 (4): 041030. arXiv : 1508.06486 . Código bibliográfico : 2015PhRvX ... 5d1030K . doi : 10.1103 / PhysRevX.5.041030 . S2CID 7813832 .
^ Engelken, Rainer; Wolf, Fred; Abbott, LF (3 de junio de 2020). "Espectros de Lyapunov de redes neuronales recurrentes caóticas". arXiv : 2006.02427 [ nlin.CD ].
^ Behnke, Sven (2003). Redes neuronales jerárquicas para la interpretación de imágenes . Apuntes de conferencias en Ciencias de la Computación. 2766 . Saltador. doi : 10.1007 / b11963 . ISBN 978-3-540-40722-5. S2CID 1304548 .
^ a b Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (2015). "Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de red de imágenes ". arXiv : 1502.01852 [ cs.CV ].
^ a b Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [ cs.LG ].
^ Dugas, Charles; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; García, René (1 de enero de 2000). "Incorporación de conocimientos funcionales de segundo orden para mejorar el precio de las opciones" (PDF) . Actas de la 13ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS'00) . Prensa del MIT: 451–457. Dado que el sigmoide h tiene una primera derivada positiva, su primitiva, que llamamos softplus, es convexa.
^ "Capa de avance de unidad lineal de rectificador liso (SmoothReLU)" . Guía para desarrolladores de la biblioteca de aceleración de análisis de datos de Intel . 2017 . Consultado el 4 de diciembre de 2018 .
^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). "Aprendizaje en red profundo rápido y preciso por unidades lineales exponenciales (ELU)". arXiv : 1511.07289 [ cs.LG ].

[brownlee-1] Brownlee, Jason (8 de enero de 2019). "Una suave introducción a la unidad lineal rectificada (ReLU)" . Dominio del aprendizaje automático . Consultado el 8 de abril de 2021 .

[medium-relu-2] Liu, Danqing (30 de noviembre de 2017). "Una guía práctica de ReLU" . Medio . Consultado el 8 de abril de 2021 .

[Fukushima1969-3] Fukushima, K. (1969). "Extracción de características visuales mediante una red multicapa de elementos de umbral analógicos". Transacciones IEEE sobre ciencia de sistemas y cibernética . 5 (4): 322–333.

[Fukushima1982-4] Fukushima, K .; Miyake, S. (1982). "Neocognitron: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento visual de patrones". en Competencia y cooperación en redes neuronales . Springer: 267–285.

[Hahnloser2000-5] Hahnloser, R .; Sarpeshkar, R .; Mahowald, MA; Douglas, RJ; Seung, HS (2000). "La selección digital y la amplificación analógica coexisten en un circuito de silicio inspirado en la corteza". Naturaleza . 405 (6789): 947–951. Código Bibliográfico : 2000Natur.405..947H . doi : 10.1038 / 35016072 . PMID 10879535 . S2CID 4399014 .

[Hahnloser2001-6] Hahnloser, R .; Seung, HS (2001). Conjuntos permitidos y prohibidos en redes lineales de umbral simétricas . NIPS 2001.

[glorot2011-7] Xavier Glorot, Antoine Bordes y Yoshua Bengio (2011). Redes neuronales de rectificador disperso profundo (PDF) . AISTATS. Funciones de activación rectificador y softplus. El segundo es una versión fluida del primero.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[8] Yann LeCun , Leon Bottou , Genevieve B. Orr y Klaus-Robert Müller (1998). "BackProp eficiente" (PDF) . En G. Orr; K. Müller (eds.). Redes neuronales: trucos del oficio . Saltador.Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[9] Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de octubre de 2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [ cs.NE ].

[tothl2013-10] László Tóth (2013). Reconocimiento telefónico con redes neuronales de rectificador disperso profundo (PDF) . ICASSP .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[maas2014-11] Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Las no linealidades del rectificador mejoran los modelos acústicos de redes neuronales .

[hansel2002-12] Hansel, D .; van Vreeswijk, C. (2002). "Cómo el ruido contribuye a la invariancia de contraste de la sintonización de orientación en la corteza visual del gato" . J. Neurosci. 22 (12): 5118–5128. doi : 10.1523 / JNEUROSCI.22-12-05118.2002 . PMC 6757721 . PMID 12077207 .

[13] Kadmon, Jonathan; Sompolinsky, Haim (19 de noviembre de 2015). "Transición al caos en redes neuronales aleatorias". Physical Review X . 5 (4): 041030. arXiv : 1508.06486 . Código bibliográfico : 2015PhRvX ... 5d1030K . doi : 10.1103 / PhysRevX.5.041030 . S2CID 7813832 .

[14] Engelken, Rainer; Wolf, Fred; Abbott, LF (3 de junio de 2020). "Espectros de Lyapunov de redes neuronales recurrentes caóticas". arXiv : 2006.02427 [ nlin.CD ].

[NeuralAbstractionPyramid-15] Behnke, Sven (2003). Redes neuronales jerárquicas para la interpretación de imágenes . Apuntes de conferencias en Ciencias de la Computación. 2766 . Saltador. doi : 10.1007 / b11963 . ISBN 978-3-540-40722-5. S2CID 1304548 .

[prelu-16] Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (2015). "Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de red de imágenes ". arXiv : 1502.01852 [ cs.CV ].

[ReferenceA-17] Hendrycks, Dan; Gimpel, Kevin (2016). "Unidades lineales de error gaussiano (GELU)". arXiv : 1606.08415 [ cs.LG ].

[18] Dugas, Charles; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; García, René (1 de enero de 2000). "Incorporación de conocimientos funcionales de segundo orden para mejorar el precio de las opciones" (PDF) . Actas de la 13ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS'00) . Prensa del MIT: 451–457. Dado que el sigmoide h tiene una primera derivada positiva, su primitiva, que llamamos softplus, es convexa.

[19] "Capa de avance de unidad lineal de rectificador liso (SmoothReLU)" . Guía para desarrolladores de la biblioteca de aceleración de análisis de datos de Intel . 2017 . Consultado el 4 de diciembre de 2018 .

[20] Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). "Aprendizaje en red profundo rápido y preciso por unidades lineales exponenciales (ELU)". arXiv : 1511.07289 [ cs.LG ].

[1]