Búsqueda de línea de retroceso

En la minimización (sin restricciones) , una búsqueda de línea de retroceso , un esquema de búsqueda basado en la condición de Armijo-Goldstein , es un método de búsqueda de línea para determinar la cantidad de movimiento a lo largo de una dirección de búsqueda determinada . Implica comenzar con una estimación relativamente grande del tamaño del paso para el movimiento a lo largo de la dirección de búsqueda y reducir iterativamente el tamaño del paso (es decir, "retroceder") hasta que se observe una disminución de la función objetivo que corresponda adecuadamente a la disminución esperada. , basado en el gradiente local de la función objetivo.

La búsqueda de línea de retroceso se usa generalmente para el descenso de gradientes , pero también se puede usar en otros contextos. Por ejemplo, se puede utilizar con el método de Newton si la matriz de Hesse es definida positiva .

Motivación

Dada una posición inicial ${\ Displaystyle \ mathbf {x}}$ y una dirección de búsqueda ${\ Displaystyle \ mathbf {p}}$ , la tarea de una búsqueda de línea es determinar un tamaño de paso ${\ Displaystyle \ alpha> 0}$ que reduce adecuadamente la función objetivo ${\ Displaystyle f: \ mathbb {R} ^ {n} \ to \ mathbb {R}}$ (ficticio ${\ Displaystyle C ^ {1}}$ es decir, continuamente diferenciable ), es decir, para encontrar un valor de ${\ Displaystyle \ alpha}$ eso reduce ${\ Displaystyle f (\ mathbf {x} + \ alpha \, \ mathbf {p})}$ relativo a ${\ Displaystyle f (\ mathbf {x})}$ . Sin embargo, generalmente no es deseable dedicar recursos sustanciales a encontrar un valor de ${\ Displaystyle \ alpha}$ para minimizar con precisión ${\ Displaystyle f}$ . Esto se debe a que los recursos informáticos necesarios para encontrar un mínimo más preciso a lo largo de una dirección particular podrían emplearse en cambio para identificar una mejor dirección de búsqueda. Una vez que se ha identificado un punto de partida mejorado mediante la búsqueda de línea, normalmente se realizará otra búsqueda de línea posterior en una nueva dirección. El objetivo, entonces, es simplemente identificar un valor de ${\ Displaystyle \ alpha}$ que proporciona una cantidad razonable de mejora en la función objetivo, en lugar de encontrar el valor real de minimización de ${\ Displaystyle \ alpha}$ .

La búsqueda de la línea de retroceso comienza con una gran estimación de ${\ Displaystyle \ alpha}$ y lo encoge iterativamente. La contracción continúa hasta que se encuentra un valor lo suficientemente pequeño como para proporcionar una disminución en la función objetivo que coincida adecuadamente con la disminución que se espera lograr, según el gradiente de la función local. ${\ Displaystyle \ nabla f (\ mathbf {x}) \ ,.}$

Defina la pendiente local de la función de ${\ Displaystyle \ alpha}$ a lo largo de la dirección de búsqueda ${\ Displaystyle \ mathbf {p}}$ como ${\ Displaystyle m = \ nabla f (\ mathbf {x}) ^ {\ mathrm {T}} \, \ mathbf {p} = \ langle \ nabla f (\ mathbf {x}), \ mathbf {p} \ rangle}$ (dónde ${\ Displaystyle \ langle \ cdot, \ cdot \ rangle}$ denota el producto escalar ). Se asume que ${\ Displaystyle \ mathbf {p}}$ es un vector para el cual es posible alguna disminución local, es decir, se supone que ${\ Displaystyle m <0}$ .

Basado en un parámetro de control seleccionado ${\ Displaystyle c \, \ in \, (0,1)}$ , la condición de Armijo-Goldstein prueba si un movimiento escalonado desde una posición actual ${\ Displaystyle \ mathbf {x}}$ a una posición modificada ${\ Displaystyle \ mathbf {x} + \ alpha \, \ mathbf {p}}$ logra una disminución adecuadamente correspondiente en la función objetivo. La condición se cumple, ver Armijo (1966) , si ${\ Displaystyle f (\ mathbf {x} + \ alpha \, \ mathbf {p}) \ leq f (\ mathbf {x}) + \ alpha \, c \, m \ ,.}$

Esta condición, cuando se usa apropiadamente como parte de una búsqueda de línea, puede asegurar que el tamaño del paso no sea excesivamente grande. Sin embargo, esta condición no es suficiente por sí sola para garantizar que el tamaño del paso sea casi óptimo, ya que cualquier valor de ${\ Displaystyle \ Displaystyle \ alpha}$ que sea suficientemente pequeño satisfará la condición.

Por lo tanto, la estrategia de búsqueda de la línea de retroceso comienza con un tamaño de paso relativamente grande y lo reduce repetidamente en un factor ${\ Displaystyle \ tau \, \ in \, (0,1)}$ hasta que se cumpla la condición de Armijo-Goldstein.

La búsqueda terminará después de un número finito de pasos para cualquier valor positivo de ${\ Displaystyle c}$ y ${\ Displaystyle \ tau}$ que son menos de 1. Por ejemplo, Armijo usó 1 ⁄ 2 para ambos ${\ Displaystyle c}$ y ${\ Displaystyle \ tau}$ en Armijo (1966) .

Algoritmo

Esta condición es de Armijo (1966) . Comenzando con un valor máximo de tamaño de paso candidato ${\ Displaystyle \ alpha _ {0}> 0 \,}$ , usando parámetros de control de búsqueda ${\ Displaystyle \ tau \, \ in \, (0,1)}$ y ${\ Displaystyle c \, \ in \, (0,1)}$ , el algoritmo de búsqueda de la línea de retroceso se puede expresar de la siguiente manera:

Colocar ${\ Displaystyle t = -c \, m}$ y contador de iteraciones ${\ Displaystyle j \, = \, 0}$ .
Hasta que se cumpla la condición de que ${\ Displaystyle f (\ mathbf {x}) -f (\ mathbf {x} + \ alpha _ {j} \, \ mathbf {p}) \ geq \ alpha _ {j} \, t,}$ incrementar repetidamente ${\ Displaystyle j}$ y establecer ${\ Displaystyle \ alpha _ {j} = \ tau \, \ alpha _ {j-1} \ ,.}$
Regreso ${\ Displaystyle \ alpha _ {j}}$ como la solución.

En otras palabras, reduzca ${\ Displaystyle \ alpha _ {0}}$ por un factor de ${\ Displaystyle \ tau \,}$ en cada iteración hasta que se cumpla la condición Armijo-Goldstein.

Minimización de funciones mediante la búsqueda de líneas de retroceso en la práctica

En la práctica, el algoritmo anterior se suele iterar para producir una secuencia ${\ Displaystyle \ mathbf {x} _ {n}}$ , ${\ Displaystyle n = 1,2, ...}$ , para converger a un mínimo, siempre que exista tal mínimo y ${\ Displaystyle \ mathbf {p} _ {n}}$ se selecciona adecuadamente en cada paso. Para descenso de gradiente, ${\ Displaystyle \ mathbf {p} _ {n}}$ se selecciona como ${\ Displaystyle - \ nabla f (\ mathbf {x} _ {n})}$ .

El valor de ${\ Displaystyle \ alpha _ {j}}$ Para el ${\ Displaystyle j}$ que cumple la condición Armijo-Goldstein depende de ${\ Displaystyle \ mathbf {x}}$ y ${\ Displaystyle \ mathbf {p}}$ , y por lo tanto se denota a continuación por ${\ Displaystyle \ alpha (\ mathbf {x}, \ mathbf {p})}$ . También depende de ${\ Displaystyle f}$ , ${\ Displaystyle \ alpha _ {0}}$ , ${\ Displaystyle \ tau}$ y ${\ Displaystyle c}$ por supuesto, aunque estas dependencias pueden dejarse implícitas si se supone que están arregladas con respecto al problema de optimización.

Los pasos detallados son, por lo tanto, ver Armijo (1966) , Bertsekas (2016) :

Elija un punto de partida inicial ${\ Displaystyle \ mathbf {x} _ {0}}$ y configurar el contador de iteraciones ${\ Displaystyle n = 0}$ .
Hasta que se cumpla alguna condición de frenado, elija una dirección de descenso ${\ Displaystyle \ mathbf {p} _ {n}}$ , incremento ${\ Displaystyle n}$ y actualice la posición para ${\ Displaystyle \ mathbf {x} _ {n + 1} = \ mathbf {x} _ {n} + \ alpha (\ mathbf {x} _ {n}, \ mathbf {p} _ {n}) \, \ mathbf {p} _ {n}}$ .
Regreso ${\ Displaystyle \ mathbf {x} _ {n}}$ como la posición minimizadora y ${\ Displaystyle f (\ mathbf {x} _ {n})}$ como la función mínima.

Para asegurar un buen comportamiento, es necesario que algunas condiciones sean satisfechas por ${\ Displaystyle \ mathbf {p} _ {n}}$ . Mas o menos ${\ Displaystyle \ mathbf {p} _ {n}}$ no debe estar demasiado lejos de ${\ Displaystyle \ nabla f (\ mathbf {x} _ {n})}$ . Una versión precisa es la siguiente (véase, por ejemplo, Bertsekas (2016) ). Hay constantes ${\ Displaystyle C_ {1}, C_ {2}> 0}$ para que se cumplan las dos condiciones siguientes:

Para todos los n, ${\ Displaystyle \ | \ mathbf {p} _ {n} \ | \ geq C_ {1} \, \ | \ nabla f (\ mathbf {x} _ {n}) \ |}$ . Aquí, ${\ Displaystyle \ | y \ |}$ es la norma euclidiana de ${\ Displaystyle y}$ . (Esto asegura que si ${\ Displaystyle \ mathbf {p} _ {n} = 0}$ , Después también ${\ Displaystyle \ nabla f (\ mathbf {x} _ {n}) = 0}$ . De manera más general, si ${\ Displaystyle \ lim _ {n \ rightarrow \ infty} \ mathbf {p} _ {n} = 0}$ , Después también ${\ Displaystyle \ lim _ {n \ rightarrow \ infty} \ nabla f (\ mathbf {x} _ {n}) = 0}$ .) Una versión más estricta requiere también la desigualdad inversa: ${\ Displaystyle \ | \ mathbf {p} _ {n} \ | \ leq C_ {3} \, \ | \ nabla f (\ mathbf {x} _ {n}) \ |}$ para una constante positiva ${\ Displaystyle C_ {3}> 0}$ .
Para todos los n, ${\ Displaystyle \ | \ mathbf {p} _ {n} \ | \, \ | \ nabla f (\ mathbf {x} _ {n}) \ | \ leq -C_ {2} \, \ langle \ mathbf { p} _ {n}, \ nabla f (\ mathbf {x} _ {n}) \ rangle}$ . (Esta condición asegura que las direcciones de ${\ Displaystyle \ mathbf {p} _ {n}}$ y ${\ Displaystyle - \ nabla f (\ mathbf {x} _ {n})}$ son similares.)

Límite inferior para las tasas de aprendizaje

Esto aborda la cuestión de si existe una forma sistemática de encontrar un número positivo. ${\ Displaystyle \ beta (\ mathbf {x}, \ mathbf {p})}$ - dependiendo de la función f, el punto ${\ Displaystyle \ mathbf {x}}$ y la dirección de descenso ${\ Displaystyle \ mathbf {p}}$ - para que todas las tasas de aprendizaje ${\ Displaystyle \ alpha \ leq \ beta (\ mathbf {x}, \ mathbf {p})}$ Satisfacer la condición de Armijo. Cuándo ${\ Displaystyle \ mathbf {p} = - \ nabla f (\ mathbf {x})}$ , podemos elegir ${\ Displaystyle \ beta (\ mathbf {x}, \ mathbf {p})}$ en el orden de ${\ Displaystyle 1 / L (\ mathbf {x}) \,}$ , dónde ${\ Displaystyle L (\ mathbf {x}) \,}$ es una constante de Lipschitz local para el gradiente ${\ Displaystyle \ nabla f \,}$ cerca del punto ${\ Displaystyle \ mathbf {x}}$ (ver continuidad de Lipschitz ). Si la función es ${\ Displaystyle C ^ {2}}$ , luego ${\ Displaystyle L (\ mathbf {x}) \,}$ está cerca del hessiano de la función en el punto ${\ Displaystyle \ mathbf {x}}$ . Ver Armijo (1966) para más detalles.

Límite superior para las tasas de aprendizaje

En la misma situación donde ${\ Displaystyle \ mathbf {p} = - \ nabla f (\ mathbf {x})}$ , una pregunta interesante es cómo se pueden elegir grandes tasas de aprendizaje en la condición de Armijo (es decir, cuando uno no tiene límite en ${\ Displaystyle \ alpha _ {0}}$ en la sección "Minimización de funciones mediante la búsqueda de líneas de retroceso en la práctica"), ya que las tasas de aprendizaje ${\ Displaystyle \ mathbf {x} _ {n}}$ está más cerca del punto límite (si existe) puede hacer que la convergencia sea más rápida. Por ejemplo, en condiciones de Wolfe , no se menciona ${\ Displaystyle \ alpha _ {0}}$ pero se introduce otra condición llamada condición de curvatura.

Se muestra que existe un límite superior para las tasas de aprendizaje si se desea la secuencia construida ${\ Displaystyle \ mathbf {x} _ {n}}$ converge a un punto crítico no degenerado , ver Truong & Nguyen (2020) : Las tasas de aprendizaje deben estar limitadas desde arriba aproximadamente por ${\ Displaystyle || H || \ times || H ^ {- 1} || ^ {2}}$ . Aquí H es el hessiano de la función en el punto límite, ${\ Displaystyle H ^ {- 1}}$ es su inverso , y ${\ Displaystyle ||. ||}$ es la norma de un operador lineal . Por lo tanto, este resultado se aplica, por ejemplo, cuando se utiliza la búsqueda de línea de retroceso para funciones Morse . Tenga en cuenta que en la dimensión 1, ${\ Displaystyle H}$ es un número y, por tanto, este límite superior es del mismo tamaño que el límite inferior de la sección "Límite inferior para las tasas de aprendizaje".

Por otro lado, si el punto límite está degenerado, las tasas de aprendizaje pueden ser ilimitadas. Por ejemplo, una modificación de la búsqueda de línea de retroceso, denominada descenso de gradiente de retroceso ilimitado (ver Truong & Nguyen (2020) ) permite que la tasa de aprendizaje sea del tamaño de ${\ Displaystyle || \ nabla f (\ mathbf {x} _ {n}) || ^ {- \ gamma}}$ , dónde ${\ Displaystyle 1> \ gamma> 0}$ es una constante. Experimentos con funciones simples como ${\ Displaystyle f (x, y) = x ^ {4} + y ^ {4}}$ muestran que el descenso de gradiente de retroceso ilimitado converge mucho más rápido que la versión básica en la sección "Minimización de funciones mediante la búsqueda de línea de retroceso en la práctica".

Eficiencia de tiempo

Un argumento en contra del uso de la búsqueda de línea Backtracking, en particular en la optimización a gran escala, es que satisfacer la condición de Armijo es costoso. Existe una forma (el llamado Two-way Backtracking) de dar la vuelta, con buenas garantías teóricas y ha sido probada con buenos resultados en redes neuronales profundas , ver Truong & Nguyen (2020) . Se observa que si la secuencia ${\ Displaystyle \ mathbf {x} _ {n}}$ converge (como se desea cuando se hace uso de un método de optimización iterativo), entonces la secuencia de tasas de aprendizaje ${\ Displaystyle \ alpha _ {n}}$ debe variar poco cuando n es lo suficientemente grande. Por tanto, en la búsqueda de ${\ Displaystyle \ alpha _ {n}}$ , si siempre se parte de ${\ Displaystyle \ alpha _ {0}}$ , uno perdería mucho tiempo si resulta que la secuencia ${\ Displaystyle \ alpha _ {n}}$ se mantiene lejos de ${\ Displaystyle \ alpha _ {0}}$ . En cambio, uno debe buscar ${\ Displaystyle \ alpha _ {n}}$ comenzando desde ${\ Displaystyle \ alpha _ {n-1}}$ . La segunda observación es que ${\ Displaystyle \ alpha _ {n}}$ podría ser más grande que ${\ Displaystyle \ alpha _ {n-1}}$ , y por lo tanto, se debe permitir aumentar la tasa de aprendizaje (y no solo disminuir como en la sección Algoritmo). Aquí está el algoritmo detallado para el retroceso bidireccional: En el paso n

Colocar ${\ Displaystyle \ gamma _ {0} = \ alpha _ {n-1}}$ . Colocar ${\ Displaystyle t = -c \, m}$ y contador de iteraciones ${\ Displaystyle j \, = \, 0}$ .
(Aumente la tasa de aprendizaje si se satisface la condición de Armijo). ${\ Displaystyle f (\ mathbf {x}) -f (\ mathbf {x} + \ gamma _ {j} \, \ mathbf {p}) \ geq \ gamma _ {j} \, t,}$ , entonces mientras esta condición y la condición que ${\ Displaystyle \ gamma _ {j} \ leq \ alpha _ {0}}$ están satisfechos, configurados repetidamente ${\ Displaystyle \ gamma _ {j} = \ alpha _ {j-1} / \ tau}$ y aumentar j.
(De lo contrario, reduzca la tasa de aprendizaje si no se satisface la condición de Armijo). ${\ Displaystyle f (\ mathbf {x}) -f (\ mathbf {x} + \ gamma _ {0} \, \ mathbf {p}) <\ gamma _ {j} \, t,}$ , luego hasta que se cumpla la condición de que ${\ Displaystyle f (\ mathbf {x}) -f (\ mathbf {x} + \ gamma _ {j} \, \ mathbf {p}) \ geq \ gamma _ {j} \, t,}$ incrementar repetidamente ${\ Displaystyle j}$ y establecer ${\ Displaystyle \ alpha _ {j} = \ tau \, \ alpha _ {j-1} \ ,.}$
Regreso ${\ Displaystyle \ gamma _ {j}}$ para la tasa de aprendizaje ${\ Displaystyle \ alpha _ {n}}$ .

(En Nocedal & Wright (2000) se puede encontrar una descripción de un algoritmo con 1), 3) y 4) arriba, que no fue probado en DNN antes del documento citado.)

Se puede ahorrar más tiempo mediante una mezcla híbrida entre el retroceso bidireccional y el algoritmo básico de descenso de gradiente estándar. Este procedimiento también tiene una buena garantía teórica y un buen rendimiento de prueba. En términos generales, ejecutamos el retroceso bidireccional varias veces, luego usamos la tasa de aprendizaje que obtenemos sin cambios, excepto si el valor de la función aumenta. Así es precisamente cómo se hace. Uno elige de antemano un número N, y un número ${\ Displaystyle m \ leq N}$ .

Establecer el contador de iteraciones j = 0.
En los pasos ${\ Displaystyle jN + 1, \ ldots, jN + m}$ , utilice el retroceso bidireccional.
En cada paso k del conjunto ${\ Displaystyle jN + m + 1, \ ldots, jN + N-1}$ : Colocar ${\ Displaystyle \ alpha = \ alpha _ {k-2}}$ . Si ${\ Displaystyle f (x_ {k-1}) - f (x_ {k-1} + \ alpha p_ {k-1}) \ geq 0}$ , entonces escoge ${\ Displaystyle \ alpha _ {k-1} = \ alpha _ {k-2}}$ y ${\ Displaystyle x_ {k} = x_ {k-1} + \ alpha _ {k-1} p_ {k-1}}$ . (Entonces, en este caso, use la tasa de aprendizaje ${\ Displaystyle \ alpha _ {k-2}}$ sin cambios.) De lo contrario, si ${\ Displaystyle f (x_ {k-1}) - f (x_ {k-1} + \ alpha p_ {k-1}) <0}$ , utilice el retroceso bidireccional. Incrementa k en 1 y repite.
Incrementar j en 1.

Garantía teórica (para descenso de pendientes)

En comparación con las condiciones de Wolfe, que es más complicado, la condición de Armijo tiene una mejor garantía teórica. De hecho, hasta ahora, la búsqueda de líneas de retroceso y sus modificaciones son los métodos teóricamente más garantizados entre todos los algoritmos de optimización numérica relacionados con la convergencia a puntos críticos y la evitación de puntos silla , ver más abajo.

Los puntos críticos son puntos donde el gradiente de la función objetivo es 0. Los mínimos locales son puntos críticos, pero hay puntos críticos que no son mínimos locales. Un ejemplo son los puntos silla. Los puntos de silla son puntos críticos, en los que hay al menos una dirección en la que la función es (local) máxima. Por tanto, estos puntos distan mucho de ser mínimos locales. Por ejemplo, si una función tiene al menos un punto silla, entonces no puede ser convexa . La relevancia de los puntos de silla para los algoritmos de optimización es que en la optimización a gran escala (es decir, de alta dimensión), es probable que se vean más puntos de silla que los mínimos, ver Bray y Dean (2007) . Por lo tanto, un buen algoritmo de optimización debería poder evitar los puntos silla. En el contexto del aprendizaje profundo , los puntos de silla también prevalecen, consulte Dauphin et al. (2014) . Por lo tanto, para aplicar en el aprendizaje profundo , se necesitan resultados para funciones no convexas.

Para la convergencia a puntos críticos: por ejemplo, si la función de costo es una función analítica real , Absil, Mahony y Andrews (2005) muestran que la convergencia está garantizada. La idea principal es utilizar la desigualdad de Łojasiewicz que disfruta una función analítica real. Para funciones no uniformes que satisfacen la desigualdad de Łojasiewicz , se extiende la garantía de convergencia anterior, ver Attouch, Bolte & Svaiter (2011) . En Bertsekas (2016) , hay una prueba de que para cada secuencia construida mediante la búsqueda de línea de retroceso, un punto de agrupación (es decir, el límite de una subsecuencia , si la subsecuencia converge) es un punto crítico. Para el caso de una función con, como máximo, muchos puntos críticos contables (como una función Morse ) y subniveles compactos , así como con gradiente continuo de Lipschitz donde se usa GD estándar con una tasa de aprendizaje <1 / L (ver la sección sobre gradiente estocástico descenso), entonces la convergencia está garantizada, ver por ejemplo el Capítulo 12 en Lange (2013) . Aquí, la suposición acerca de los subniveles compactos es asegurarse de que se trata solo con conjuntos compactos del espacio euclidiano. En el caso general, donde solo se supone que f es ${\ Displaystyle C ^ {1}}$ y tienen, a lo sumo, innumerables puntos críticos, la convergencia está garantizada, véase Truong & Nguyen (2020) . En la misma referencia, de manera similar se garantiza la convergencia para otras modificaciones de la búsqueda de línea de retroceso (como el descenso de gradiente de retroceso ilimitado mencionado en la sección "Límite superior para tasas de aprendizaje"), e incluso si la función tiene incontables puntos críticos, aún se pueden deducir algunos hechos no triviales sobre el comportamiento de convergencia. En el escenario estocástico, bajo el mismo supuesto de que el gradiente es Lipschitz continuo y se usa una versión más restrictiva (requiriendo además que la suma de las tasas de aprendizaje sea infinita y la suma de los cuadrados de las tasas de aprendizaje sea finita) del esquema de tasa de aprendizaje decreciente (ver sección Descenso del gradiente estocástico) y además la función es estrictamente convexa, entonces la convergencia se establece en el conocido resultado Robbins & Monro (1951) , ver Bertsekas & Tsitsiklis (2006) para generalizaciones a versiones menos restrictivas de Tasa de aprendizaje decreciente esquema. Ninguno de estos resultados (para funciones no convexas) ha sido probado para ningún otro algoritmo de optimización hasta ahora. ^{[ cita requerida ]}

Para evitar puntos silla: por ejemplo, si el gradiente de la función de costo es Lipschitz continuo y se elige GD estándar con una tasa de aprendizaje <1 / L, entonces con una elección aleatoria del punto inicial ${\ Displaystyle \ mathbf {x} _ {0}}$ (más precisamente, fuera de un conjunto de medida cero de Lebesgue ), la secuencia construida no convergerá a un punto silla no degenerado (probado en Lee et al. (2016) ), y más generalmente también es cierto que la secuencia construida no converger a un punto silla degenerado (probado en Panageas y Piliouras (2017) ). Bajo el mismo supuesto de que el gradiente es Lipschitz continuo y se usa el esquema de tasa de aprendizaje decreciente (ver la sección Descenso del gradiente estocástico), entonces se establece la evitación de los puntos silla en Panageas, Piliouras & Wang (2019) .

Un caso especial: descenso de gradiente estocástico (estándar)

Si bien es trivial mencionar, si el gradiente de una función de costo es Lipschitz continuo, con Lipschitz constante L, entonces al elegir que la tasa de aprendizaje sea constante y del tamaño 1 / L, se tiene un caso especial de búsqueda de línea de retroceso (por descenso de gradiente). Esto se ha utilizado al menos en Armijo (1966) . Sin embargo, este esquema requiere que se tenga una buena estimación de L; de lo contrario, si la tasa de aprendizaje es demasiado grande (en relación con 1 / L), el esquema no tiene garantía de convergencia. Uno puede ver lo que saldrá mal si la función de costo es un suavizado (cerca del punto 0) de la función f (t) = | t |. Sin embargo, una estimación tan buena es difícil y laboriosa en grandes dimensiones. Además, si el gradiente de la función no es globalmente continuo de Lipschitz, entonces este esquema no tiene garantía de convergencia. Por ejemplo, esto es similar a un ejercicio de Bertsekas (2016) , para la función de costo ${\ Displaystyle f (t) = | t | ^ {1.5} \,}$ y para cualquier tasa de aprendizaje constante que se elija, con un punto inicial aleatorio, la secuencia construida por este esquema especial no converge al mínimo global 0.

Si a uno no le importa la condición de que la tasa de aprendizaje debe estar limitada por 1 / L, entonces este esquema especial se ha utilizado mucho más antiguo, al menos desde 1847 por Cauchy , que puede llamarse Estándar GD (para distinguir con SGD). En la configuración estocástica (como en la configuración de mini lotes en el aprendizaje profundo ), GD estándar se denomina descenso de gradiente estocástico o SGD.

Incluso si la función de costo tiene un gradiente continuo global, una buena estimación de la constante de Lipschitz para las funciones de costo en Deep Learning puede no ser factible o deseable, dadas las dimensiones muy altas de las redes neuronales profundas . Por lo tanto, existe una técnica de ajuste fino de las tasas de aprendizaje al aplicar el estándar GD o SGD. Una forma es elegir muchas tasas de aprendizaje a partir de una búsqueda en cuadrícula, con la esperanza de que algunas de las tasas de aprendizaje puedan dar buenos resultados. (Sin embargo, si la función de pérdida no tiene un gradiente continuo global de Lipschitz, entonces el ejemplo con ${\ Displaystyle f (t) = | t | ^ {1.5} \,}$ arriba muestra que la búsqueda de cuadrícula no puede ayudar.) Otra forma es el llamado estándar adaptativo GD o SGD, algunos representantes son Adam, Adadelta, RMSProp y así sucesivamente, vea Descenso de gradiente estocástico . En el estándar adaptativo GD o SGD, se permite que las tasas de aprendizaje varíen en cada paso de iteración n, pero de una manera diferente a la búsqueda de la línea de retroceso para el descenso de gradiente. Aparentemente, sería más costoso usar la búsqueda de línea de Backtracking para el descenso de gradiente, ya que se necesita hacer una búsqueda de bucle hasta que se cumpla la condición de Armijo, mientras que para el estándar adaptativo GD o SGD no se necesita búsqueda de bucle. La mayoría de estos estándares adaptativos GD o SGD no tienen la propiedad de descenso ${\ Displaystyle f (x_ {n + 1}) \ leq f (x_ {n})}$ , para todo n, como búsqueda de línea de retroceso para descenso de gradiente. Solo unos pocos tienen esta propiedad, y que tienen buenas propiedades teóricas, pero resultan ser casos especiales de búsqueda de línea de Backtracking o, más en general, la condición de Armijo Armijo (1966) . El primero es cuando se elige que la tasa de aprendizaje sea una constante <1 / L, como se mencionó anteriormente, si se puede tener una buena estimación de L. El segundo es el llamado Tasa de aprendizaje decreciente, utilizado en el conocido artículo de Robbins & Monro (1951) , si nuevamente la función tiene un gradiente continuo global de Lipschitz (pero la constante de Lipschitz puede ser desconocida) y las tasas de aprendizaje convergen a 0.

Practicidades para usar en el entorno estocástico e implementar en DNN

El algoritmo descrito anteriormente es para la configuración determinista, que como se informó anteriormente tiene buenas garantías teóricas. Cuando uno usa el algoritmo de Armijo en entornos de la vida real donde las características aleatorias juegan un papel importante, hay aspectos prácticos que deben tener en cuenta. Esta sección describe algunos puntos principales que deben tenerse en cuenta en la configuración más teórica de la optimización estocástica y la configuración más realista de mini-lote en DNN.

1) Optimización estocástica:

La declaración típica de esta configuración es la siguiente: Supongamos que tenemos una función ${\ Displaystyle f (x, \ xi)}$ dependiendo de una variable aleatoria ${\ Displaystyle \ xi}$ . Ahora queremos encontrar el mínimo de la función de expectativa ${\ Displaystyle F (x): = E (f (x, \ xi))}$ , aquí ${\ Displaystyle E (.)}$ calcula la expectativa con respecto a la variable aleatoria ${\ Displaystyle \ xi}$ .

En general, es muy difícil calcular la expectativa, en particular cuando se trabaja, por ejemplo, con DNN (consulte la siguiente parte). Por lo tanto, solo podemos hacer lo siguiente:

En el paso n: elija al azar ${\ Displaystyle k_ {n}}$ variables ${\ Displaystyle \ xi _ {n, 1}, \ xi _ {n, 2}, \ ldots, \ xi _ {n, k_ {n}}}$ (con respecto a la distribución dada), y reemplaza la función (desconocida) ${\ Displaystyle F (x)}$ por una aproximación ${\ Displaystyle F_ {n} (x): = {\ frac {1} {k_ {n}}} \ sum _ {i = 1} ^ {k_ {n}} f (x, \ xi _ {i} )}$ .

Necesitamos modificar la búsqueda de la línea de retroceso de Armijo de la siguiente manera: Luego, la dirección de descenso se elige como ${\ Displaystyle p_ {n} = - \ nabla F_ {n} (x)}$ y la tasa de aprendizaje de Armijo ${\ Displaystyle \ alpha (x_ {n}, p_ {n})}$ se elige en relación con la función ${\ Displaystyle F_ {n} (x)}$ .

Se observa que en general ${\ Displaystyle k_ {n}}$ se le permite cambiar. Hay obras que dejan ${\ Displaystyle k_ {n}}$ incrementar. El siguiente ejemplo explica la motivación de tal esquema (también, vea la justificación teórica más adelante). Sin embargo, se explicará en la sección sobre implementación en DNN que existen dificultades / no muy buen desempeño con la implementación de este esquema.

Ejemplo 1: considere la función simple ${\ Displaystyle F (x) = x ^ {2}}$ , que es convexo con un punto crítico único ${\ Displaystyle x = 0}$ . Recuerde la distribución normal ${\ Displaystyle N (1, \ sigma ^ {2})}$ . Luego ${\ Displaystyle F (x) = E (\ xi x ^ {2})}$ , dónde ${\ Displaystyle \ xi}$ es una variable aleatoria con distribución ${\ Displaystyle N (1, \ sigma ^ {2})}$ . Entonces, uno puede verificar con Python, que si elegimos ${\ Displaystyle \ sigma ^ {2} = 100}$ y ${\ Displaystyle k_ {n} = 1}$ para todo el paso n, y ejecute la búsqueda de línea de retroceso de Armijo en esta configuración como se describe anteriormente, entonces tenemos divergencia (no convergencia como uno esperaría para esta función convexa demasiado simple). [Lo que sucede aquí es que, aunque es pequeña, hay una probabilidad distinta de cero del valor aleatorio de ${\ Displaystyle \ xi}$ es ${\ Displaystyle <0}$ , en cuyo caso lo que hará la búsqueda de la línea de retroceso de Armijo es alejarse mucho del punto 0!]

Otra forma es, con origen en la obra clásica Robbins & Monro (1951) , en SGD para mantener ${\ Displaystyle k_ {n}}$ constante (incluso puede elegir ser siempre 1), pero deje que las tasas de aprendizaje ${\ Displaystyle \ delta _ {n}}$ yendo a 0. [Incluso si el valor aleatorio de ${\ Displaystyle \ xi}$ es ${\ Displaystyle <0}$ , ya que la tasa de aprendizaje ${\ Displaystyle \ delta _ {n}}$ es cada vez más pequeño, este esquema se alejará de 0 menos que Backtracking.] Si bien este esquema también funciona bien para este ejemplo, nuevamente en la configuración de DNN los resultados experimentales no son muy buenos.

Un resultado teórico típico (en la literatura, uno puede encontrar resultados más débiles que lo que se indica aquí, ya sea porque se requieren supuestos más sólidos o porque se prueban conclusiones más débiles) en este contexto es el siguiente:

Teorema del prototipo: Sea ${\ Displaystyle F (x)}$ ser convexo (o fuertemente convexo) y en ${\ Displaystyle C_ {L} ^ {1,1}}$ . Entonces, los dos esquemas siguientes garantizan la convergencia: Esquema 1: Retroceso con tamaños crecientes de "mini lotes" ${\ Displaystyle k_ {n}}$ . Esquema 2: SGD con tasas de aprendizaje que disminuyen a 0.

La razón por la que estos esquemas no arrojan muy buenos resultados experimentales en DNN puede deberse a que:

- La implementación no tiene en cuenta las diferencias entre optimización estocástica y DNN (ver más en la siguiente sección);

y / o

- Los supuestos de estos resultados teóricos no son satisfechos (demasiado fuertes para ser satisfechos) por las funciones de costo en DNN.

Vale la pena señalar que las implementaciones exitosas actuales de Backtracking en DNN utilizan tamaños de mini lotes constantes ${\ Displaystyle k_ {n} = constante}$ . Sin embargo, la diferencia con el Ejemplo 1 es que no se elige k_n = 1 ya que es demasiado pequeño. De hecho, uno tiene lo siguiente.

Ejemplo 2. Sea la función F (x) y la distribución ${\ Displaystyle N (1, \ sigma ^ {2})}$ sea como en el Ejemplo 1, donde ${\ Displaystyle \ sigma ^ {2} = 100}$ . Si uno elige ${\ Displaystyle k_ {n} = 500}$ para todo n, ¡entonces se puede verificar con Python que la búsqueda de línea de retroceso de Armijo en esta configuración estocástica converge!

Esto se puede explicar que en este ejemplo, al elegir ${\ Displaystyle k_ {n} = 1}$ para todo n no es lo suficientemente bueno para aproximar la función F (x), pero elegir ${\ Displaystyle k_ {n} = 500}$ para todo n es una buena aproximación. Lo mismo sucede con DNN: es necesario elegir un tamaño de mini lote lo suficientemente grande según la pregunta y el entorno específicos (consulte la siguiente sección). Las personas que están familiarizadas con el cálculo de pregrado pueden encontrar una analogía al usar las sumas de Riemann para aproximar una integral .

Resumen

En resumen, la búsqueda (y modificaciones) de la línea de retroceso es un método que es fácil de implementar, es aplicable para funciones muy generales, tiene muy buena garantía teórica (tanto para la convergencia a puntos críticos como para evitar puntos silla) y funciona bien en la práctica. Varios otros métodos que tienen una buena garantía teórica, como Tasas de aprendizaje decrecientes o GD estándar con tasa de aprendizaje <1 / L - ambos requieren que el gradiente de la función objetivo sea Lipschitz continuo, resultan ser un caso especial de búsqueda de línea de Backtracking o Satisfacer la condición de Armijo. Aunque a priori se necesita que la función de costo sea continuamente diferenciable para aplicar este método, en la práctica se puede aplicar este método con éxito también para funciones que son continuamente diferenciables en un subconjunto abierto denso como ${\ Displaystyle f (t) = | t |}$ o ${\ Displaystyle f (t) = ReLu (t) = \ max \ {t, 0 \}}$ . Las últimas funciones aparecen en Deep Neural Networks .

Ver también

Descenso de gradiente
Descenso de gradiente estocástico
Condiciones de Wolfe

Referencias

Absil, PA; Mahony, R .; Andrews, B. (2005). "Convergencia de las iteraciones de métodos de Descenso para funciones analíticas de costos" . SIAM J. Optim. 16 (2): 531–547. doi : 10.1137 / 040605266 .
Armijo, Larry (1966). "Minimización de funciones con primeras derivadas parciales continuas de Lipschitz" . Pacific J. Math . 16 (1): 1-3. doi : 10.2140 / pjm.1966.16.1 .
Attouch, H .; Bolte, J .; Svaiter, BF (2011). "Convergencia de métodos de descendencia para problemas semi-algebraicos y domesticados: algoritmos proximales, división hacia adelante-hacia atrás y métodos regularizados de Gauss-Seidel" . Programación matemática . 137 (1-2): 91-129. doi : 10.1007 / s10107-011-0484-9 .
Bertsekas, Dimitri P. (2016), Programación no lineal , Athena Scientific , ISBN 978-1886529052
Bertsekas, DP; Tsitsiklis, JN (2006). "Convergencia de gradiente en métodos de gradiente con errores" . SIAM J. Optim. 10 (3): 627–642. doi : 10.1137 / S1052623497331063 .
Bray, AJ; Dean, DS (2007). "Estadísticas de puntos críticos de campos gaussianos en espacios de grandes dimensiones" . Cartas de revisión física . 98 (15): 150-201. arXiv : cond-mat / 0611023 . Código Bibliográfico : 2007PhRvL..98o0201B . doi : 10.1103 / PhysRevLett.98.150201 . PMID 17501322 .
Dauphin, YN; Pascanu, R .; Gulcehre, C .; Cho, K .; Ganguli, S .; Bengio, Y. (2014). "Identificar y atacar el problema del punto silla en la optimización no convexa de alta dimensión" . NeurIPS . 14 : 2933–2941. arXiv : 1406,2572 .
Lange, K. (2013). Optimización . Nueva York: Publicaciones Springer-Verlag . ISBN 978-1-4614-5838-8.
Dennis, JE ; Schnabel, RB (1996). Métodos numéricos para optimización no restringida y ecuaciones no lineales . Filadelfia: Publicaciones SIAM . ISBN 978-0-898713-64-0.
Lee, JD; Simchowitz, M .; Jordan, MI; Recht, B. (2016). "El descenso del gradiente solo converge a los minimizadores" . Actas de la investigación sobre aprendizaje automático . 49 : 1246-1257.
Nocedal, Jorge ; Wright, Stephen J. (2000), Optimización numérica , Springer-Verlag , ISBN 0-387-98793-2
Panageas, I .; Piliouras, G. (2017). "El descenso de gradiente solo converge a minimizadores: puntos críticos no aislados y regiones invariantes" (PDF) . Conferencia sobre innovaciones en informática teórica : 2: 1–2: 12. doi : 10.4230 / LIPIcs.ITCS.2017.2 .
Panageas, I .; Piliouras, G .; Wang, X. (2019). "Los métodos de primer orden casi siempre evitan los puntos silla: el caso de los tamaños de paso que desaparecen" (PDF) . NeurIPS . arXiv : 1906.07772 .
Robbins, H .; Monro, S. (1951). "Un método de aproximación estocástica" . Anales de estadística matemática . 22 (3): 400–407. doi : 10.1214 / aoms / 1177729586 .
Truong, TT; Nguyen, H.-T. (6 de septiembre de 2020). "Método de descenso del gradiente de retroceso y algunas aplicaciones en la optimización a gran escala. Parte 2: Algoritmos y experimentos" . Matemáticas aplicadas y optimización : 30. doi : 10.1007 / s00245-020-09718-8 .Mantenimiento CS1: fecha y año ( enlace )