Método de gradiente conjugado no lineal

En la optimización numérica , el método de gradiente conjugado no lineal generaliza el método de gradiente conjugado a la optimización no lineal . Para una función cuadrática ${\ Displaystyle \ Displaystyle f (x)}$

{\ Displaystyle \ Displaystyle f (x) = \ | Ax-b \ | ^ {2},}

el mínimo de ${\ Displaystyle f}$ se obtiene cuando el gradiente es 0:

{\ Displaystyle \ nabla _ {x} f = 2A ^ {T} (Ax-b) = 0}

.

Mientras que el gradiente lineal conjugado busca una solución a la ecuación lineal ${\ Displaystyle \ Displaystyle A ^ {T} Ax = A ^ {T} b}$ , el método de gradiente conjugado no lineal se usa generalmente para encontrar el mínimo local de una función no lineal usando su gradiente ${\ Displaystyle \ nabla _ {x} f}$ solo. Funciona cuando la función es aproximadamente cuadrática cerca del mínimo, que es el caso cuando la función es dos veces diferenciable en el mínimo y la segunda derivada no es singular allí.

Dada una función ${\ Displaystyle \ Displaystyle f (x)}$ de ${\ Displaystyle N}$ variables a minimizar, su gradiente ${\ Displaystyle \ nabla _ {x} f}$ indica la dirección de aumento máximo. Uno simplemente comienza en la dirección opuesta ( descenso más empinado ):

{\ Displaystyle \ Delta x_ {0} = - \ nabla _ {x} f (x_ {0})}

con una longitud de paso ajustable ${\ Displaystyle \ Displaystyle \ alpha}$ y realiza una búsqueda de línea en esta dirección hasta que alcanza el mínimo de ${\ Displaystyle \ Displaystyle f}$ :

{\ Displaystyle \ Displaystyle \ alpha _ {0}: = \ arg \ min _ {\ alpha} f (x_ {0} + \ alpha \ Delta x_ {0})}

,

{\ Displaystyle \ Displaystyle x_ {1} = x_ {0} + \ alpha _ {0} \ Delta x_ {0}}

Después de esta primera iteración en la dirección más empinada ${\ Displaystyle \ Displaystyle \ Delta x_ {0}}$ , los siguientes pasos constituyen una iteración de moverse a lo largo de una dirección conjugada subsiguiente ${\ Displaystyle \ Displaystyle s_ {n}}$ , dónde ${\ Displaystyle \ Displaystyle s_ {0} = \ Delta x_ {0}}$ :

Calcula la dirección más empinada: ${\ Displaystyle \ Delta x_ {n} = - \ nabla _ {x} f (x_ {n})}$ ,
Calcular ${\ Displaystyle \ Displaystyle \ beta _ {n}}$ según una de las fórmulas siguientes,
Actualice la dirección conjugada: ${\ Displaystyle \ Displaystyle s_ {n} = \ Delta x_ {n} + \ beta _ {n} s_ {n-1}}$
Realizar una búsqueda de línea: optimizar ${\ Displaystyle \ Displaystyle \ alpha _ {n} = \ arg \ min _ {\ alpha} f (x_ {n} + \ alpha s_ {n})}$ ,
Actualizar la posición: ${\ Displaystyle \ Displaystyle x_ {n + 1} = x_ {n} + \ alpha _ {n} s_ {n}}$ ,

Con una función cuadrática pura, el mínimo se alcanza dentro de N iteraciones (excepto el error de redondeo), pero una función no cuadrática hará un progreso más lento. Las direcciones de búsqueda subsiguientes pierden conjugación, lo que requiere que la dirección de búsqueda se restablezca a la dirección de descenso más pronunciada al menos cada N iteraciones, o antes si se detiene el progreso. Sin embargo, restablecer cada iteración convierte el método en el descenso más pronunciado . El algoritmo se detiene cuando encuentra el mínimo, determinado cuando no se avanza después de un reinicio de dirección (es decir, en la dirección de descenso más pronunciada), o cuando se alcanza algún criterio de tolerancia.

Dentro de una aproximación lineal, los parámetros ${\ Displaystyle \ Displaystyle \ alpha}$ y ${\ Displaystyle \ Displaystyle \ beta}$ son los mismos que en el método de gradiente lineal conjugado pero se han obtenido con búsquedas de líneas. El método de gradiente conjugado puede seguir valles estrechos ( mal acondicionados ), donde el método de descenso más empinado se ralentiza y sigue un patrón entrecruzado.

Cuatro de las fórmulas más conocidas para ${\ Displaystyle \ Displaystyle \ beta _ {n}}$ llevan el nombre de sus desarrolladores:

Fletcher – Reeves: ^[1]

{\ Displaystyle \ beta _ {n} ^ {FR} = {\ frac {\ Delta x_ {n} ^ {T} \ Delta x_ {n}} {\ Delta x_ {n-1} ^ {T} \ Delta x_ {n-1}}}.}

Polak – Ribière: ^[2]

{\ Displaystyle \ beta _ {n} ^ {PR} = {\ frac {\ Delta x_ {n} ^ {T} (\ Delta x_ {n} - \ Delta x_ {n-1})} {\ Delta x_ {n-1} ^ {T} \ Delta x_ {n-1}}}.}

Hestenes-Stiefel: ^[3]

{\ Displaystyle \ beta _ {n} ^ {HS} = {\ frac {\ Delta x_ {n} ^ {T} (\ Delta x_ {n} - \ Delta x_ {n-1})} {- s_ { n-1} ^ {T} (\ Delta x_ {n} - \ Delta x_ {n-1})}}.}

Dai – Yuan: ^[4]

{\ Displaystyle \ beta _ {n} ^ {DY} = {\ frac {\ Delta x_ {n} ^ {T} \ Delta x_ {n}} {- s_ {n-1} ^ {T} (\ Delta x_ {n} - \ Delta x_ {n-1})}}.}

.

Estas fórmulas son equivalentes para una función cuadrática, pero para la optimización no lineal, la fórmula preferida es una cuestión de heurística o gusto. Una opción popular es ${\ Displaystyle \ Displaystyle \ beta = \ max \ {0, \ beta ^ {PR} \}}$ , que proporciona un reinicio de dirección automáticamente. ^[5]

Los algoritmos basados en el método de Newton convergen potencialmente mucho más rápido. Allí, tanto la dirección como la longitud del paso se calculan a partir del gradiente como la solución de un sistema lineal de ecuaciones, siendo la matriz de coeficientes la matriz hessiana exacta (para el método de Newton propiamente dicho) o una estimación de la misma (en los métodos de cuasi-Newton , donde el cambio observado en el gradiente durante las iteraciones se utiliza para actualizar la estimación de Hesse). Para problemas de alta dimensión, el cálculo exacto del hessiano suele ser prohibitivamente caro, e incluso su almacenamiento puede ser problemático, requiriendo ${\ Displaystyle O (N ^ {2})}$ memoria (pero consulte el método de cuasi-Newton L-BFGS de memoria limitada ).

El método del gradiente conjugado también se puede derivar utilizando la teoría de control óptimo . ^[6] En esta teoría de optimización acelerada, el método de gradiente conjugado se convierte en un controlador de retroalimentación óptimo no lineal ,

${\ Displaystyle u = k (x, {\ dot {x}}): = - \ gamma _ {a} \ nabla _ {x} f (x) - \ gamma _ {b} {\ dot {x}} }$ para el sistema de doble integrador ,

${\ Displaystyle {\ ddot {x}} = u}$

Las cantidades ${\ Displaystyle \ gamma _ {a}> 0}$ y ${\ Displaystyle \ gamma _ {b}> 0}$ son ganancias de retroalimentación variables. ^[6]

Ver también

Algoritmo de Broyden-Fletcher-Goldfarb-Shanno
Método de gradiente conjugado
L-BFGS (memoria limitada BFGS)
Método de Nelder-Mead
Condiciones de Wolfe

Referencias

^ Fletcher, R .; Reeves, CM (1964). "Minimización de funciones por gradientes conjugados". Computación. J . 7 : 149-154.
^ Polak, E .; Ribière, G. (1969). "Note sur la convergence de méthodes de directions conjuguées". Rev. Française Informat Recherche Opérationelle . 3 (1): 35–43.
^ Hestenes, MR; Stiefel, E. (1952). "Métodos de gradientes conjugados para resolver sistemas lineales". J. Investigación Nat. Rebaba. Estándares . 49 : 409–436.
^ Dai, Y.-H .; Yuan, Y. (1999). "Un método de gradiente conjugado no lineal con una fuerte propiedad de convergencia global". SIAM J. Optim . 10 (1): 177–182. doi : 10.1137 / S1052623497318992 .
^ Shewchuk, JR (agosto de 1994). "Una introducción al método de gradiente conjugado sin el dolor agonizante" (PDF) .
^ ^a ^b Ross, MI (2019). "Una teoría de control óptimo para la optimización acelerada". arXiv : 1902.09004 . Cite journal requiere |journal=( ayuda )

[1] Fletcher, R .; Reeves, CM (1964). "Minimización de funciones por gradientes conjugados". Computación. J . 7 : 149-154.

[2] Polak, E .; Ribière, G. (1969). "Note sur la convergence de méthodes de directions conjuguées". Rev. Française Informat Recherche Opérationelle . 3 (1): 35–43.

[3] Hestenes, MR; Stiefel, E. (1952). "Métodos de gradientes conjugados para resolver sistemas lineales". J. Investigación Nat. Rebaba. Estándares . 49 : 409–436.

[4] Dai, Y.-H .; Yuan, Y. (1999). "Un método de gradiente conjugado no lineal con una fuerte propiedad de convergencia global". SIAM J. Optim . 10 (1): 177–182. doi : 10.1137 / S1052623497318992 .

[5] Shewchuk, JR (agosto de 1994). "Una introducción al método de gradiente conjugado sin el dolor agonizante" (PDF) .

[:0-6] Ross, MI (2019). "Una teoría de control óptimo para la optimización acelerada". arXiv : 1902.09004 . Cite journal requiere |journal=( ayuda )

[1]