Condiciones de Wolfe

En el problema de minimización sin restricciones , las condiciones de Wolfe son un conjunto de desigualdades para realizar búsquedas de líneas inexactas , especialmente en métodos cuasi-Newton , publicados por primera vez por Philip Wolfe en 1969. ^[1]^[2]

En estos métodos la idea es encontrar

{\ Displaystyle \ min _ {x} f (\ mathbf {x})}

para algunos suaves ${\ Displaystyle f: \ mathbb {R} ^ {n} \ to \ mathbb {R}}$ . Cada paso a menudo implica resolver aproximadamente el subproblema.

{\ Displaystyle \ min _ {\ alpha} f (\ mathbf {x} _ {k} + \ alpha \ mathbf {p} _ {k})}

dónde ${\ Displaystyle \ mathbf {x} _ {k}}$ es la mejor suposición actual, ${\ Displaystyle \ mathbf {p} _ {k} \ in \ mathbb {R} ^ {n}}$ es una dirección de búsqueda, y ${\ Displaystyle \ alpha \ in \ mathbb {R}}$ es la longitud del paso.

Las búsquedas de líneas inexactas proporcionan una forma eficiente de calcular una longitud de paso aceptable ${\ Displaystyle \ alpha}$ que reduce la función objetivo 'suficientemente', en lugar de minimizar la función objetivo sobre ${\ Displaystyle \ alpha \ in \ mathbb {R} ^ {+}}$ exactamente. Un algoritmo de búsqueda de líneas puede utilizar las condiciones de Wolfe como requisito para cualquier ${\ Displaystyle \ alpha}$ , antes de encontrar una nueva dirección de búsqueda ${\ Displaystyle \ mathbf {p} _ {k}}$ .

Regla y curvatura de Armijo

Una longitud de paso ${\ Displaystyle \ alpha _ {k}}$ se dice que satisface las condiciones de Wolfe , restringidas a la dirección ${\ Displaystyle \ mathbf {p} _ {k}}$ , si se cumplen las siguientes dos desigualdades:

{\ Displaystyle {\ begin {alineado} {\ textbf {i)}} & \ quad f (\ mathbf {x} _ {k} + \ alpha _ {k} \ mathbf {p} _ {k}) \ leq f (\ mathbf {x} _ {k}) + c_ {1} \ alpha _ {k} \ mathbf {p} _ {k} ^ {\ mathrm {T}} \ nabla f (\ mathbf {x} _ {k}), \\ [6pt] {\ textbf {ii)}} & \ quad {- \ mathbf {p}} _ {k} ^ {\ mathrm {T}} \ nabla f (\ mathbf {x} _ {k} + \ alpha _ {k} \ mathbf {p} _ {k}) \ leq -c_ {2} \ mathbf {p} _ {k} ^ {\ mathrm {T}} \ nabla f (\ mathbf {x} _ {k}), \ end {alineado}}}

con ${\ Displaystyle 0$ . (Al examinar la condición (ii), recuerde que para asegurarse de que ${\ Displaystyle \ mathbf {p} _ {k}}$ es una dirección de descenso, tenemos ${\ Displaystyle \ mathbf {p} _ {k} ^ {\ mathrm {T}} \ nabla f (\ mathbf {x} _ {k}) <0}$ , como en el caso del descenso de gradiente , donde ${\ Displaystyle \ mathbf {p} _ {k} = - \ nabla f (\ mathbf {x} _ {k})}$ o Newton-Raphson , donde ${\ Displaystyle \ mathbf {p} _ {k} = - \ mathbf {H} ^ {- 1} \ nabla f (\ mathbf {x} _ {k})}$ con ${\ Displaystyle \ mathbf {H}}$ positivo definitivo.)

${\ Displaystyle c_ {1}}$ generalmente se elige para ser bastante pequeño mientras ${\ Displaystyle c_ {2}}$ es mucho más grande; Nocedal y Wright dan ejemplos de valores de ${\ Displaystyle c_ {1} = 10 ^ {- 4}}$ y ${\ Displaystyle c_ {2} = 0.9}$ para los métodos de Newton o cuasi-Newton y ${\ Displaystyle c_ {2} = 0.1}$ para el método de gradiente conjugado no lineal . ^{[3] La} desigualdad i) se conoce como regla de Armijo ^[4] y ii) como condición de curvatura ; i) asegura que la longitud del paso ${\ Displaystyle \ alpha _ {k}}$ disminuye ${\ Displaystyle f}$ 'suficientemente', y ii) asegura que la pendiente se ha reducido lo suficiente. Las condiciones i) y ii) se pueden interpretar como que proporcionan respectivamente un límite superior e inferior en los valores de longitud de paso admisibles.

Fuerte condición de Wolfe en la curvatura

Denotar una función univariante ${\ Displaystyle \ varphi}$ restringido a la dirección ${\ Displaystyle \ mathbf {p} _ {k}}$ como ${\ Displaystyle \ varphi (\ alpha) = f (\ mathbf {x} _ {k} + \ alpha \ mathbf {p} _ {k})}$ . Las condiciones de Wolfe pueden dar como resultado un valor para la longitud del paso que no se acerca a un minimizador de ${\ Displaystyle \ varphi}$ . Si modificamos la condición de curvatura a lo siguiente,

{\ Displaystyle {\ textbf {iii)}} \ quad {\ big |} \ mathbf {p} _ {k} ^ {\ mathrm {T}} \ nabla f (\ mathbf {x} _ {k} + \ alpha _ {k} \ mathbf {p} _ {k}) {\ big |} \ leq c_ {2} {\ big |} \ mathbf {p} _ {k} ^ {\ mathrm {T}} \ nabla f (\ mathbf {x} _ {k}) {\ big |}}

entonces i) y iii) juntos forman las llamadas condiciones de Wolfe fuerte , y fuerzan ${\ Displaystyle \ alpha _ {k}}$ estar cerca de un punto crítico de ${\ Displaystyle \ varphi}$ .

Razón fundamental

La principal razón para imponer las condiciones de Wolfe en un algoritmo de optimización donde ${\ Displaystyle \ mathbf {x} _ {k + 1} = \ mathbf {x} _ {k} + \ alpha \ mathbf {p} _ {k}}$ es asegurar la convergencia del gradiente a cero. En particular, si el coseno del ángulo entre ${\ Displaystyle \ mathbf {p} _ {k}}$ y el gradiente,

{\ Displaystyle \ cos \ theta _ {k} = {\ frac {\ nabla f (\ mathbf {x} _ {k}) ^ {\ mathrm {T}} \ mathbf {p} _ {k}} {\ | \ nabla f (\ mathbf {x} _ {k}) \ | \ | \ mathbf {p} _ {k} \ |}}}

está delimitado desde cero y las condiciones i) y ii) se mantienen, entonces ${\ Displaystyle \ nabla f (\ mathbf {x} _ {k}) \ rightarrow 0}$ .

Una motivación adicional, en el caso de un método cuasi-Newton , es que si ${\ Displaystyle \ mathbf {p} _ {k} = - B_ {k} ^ {- 1} \ nabla f (\ mathbf {x} _ {k})}$ , donde la matriz ${\ Displaystyle B_ {k}}$ se actualiza mediante la fórmula BFGS o DFP , si ${\ Displaystyle B_ {k}}$ es positivo definido ii) implica ${\ Displaystyle B_ {k + 1}}$ también es positivo definido.

Comentarios

Si bien las condiciones de Wolfe son más complicadas que la condición de Armijo, a partir de ahora el algoritmo basado en la condición de Armijo (es decir, Descenso de gradiente de retroceso) tiene una mejor garantía teórica, consulte las secciones "Límite superior para las tasas de aprendizaje" y "Garantía teórica" en Búsqueda de línea de retroceso. .

Ver también

Búsqueda de línea de retroceso

Referencias

^ Wolfe, P. (1969). "Condiciones de convergencia para métodos de ascenso". Revisión SIAM . 11 (2): 226–235. doi : 10.1137 / 1011036 . JSTOR 2028111 .
^ Wolfe, P. (1971). "Condiciones de convergencia para los métodos de ascenso. II: Algunas correcciones". Revisión SIAM . 13 (2): 185–188. doi : 10.1137 / 1013035 .
^ Nocedal, Jorge ; Wright, Stephen (1999). Optimización numérica . pag. 38.
^ Armijo, Larry (1966). "Minimización de funciones con primeras derivadas parciales continuas de Lipschitz" . Pacific J. Math . 16 (1): 1-3. doi : 10.2140 / pjm.1966.16.1 .

Otras lecturas

"Métodos de búsqueda de línea". Optimización numérica . Serie Springer en Investigación de Operaciones e Ingeniería Financiera. 2006. págs. 30–32. doi : 10.1007 / 978-0-387-40065-5_3 . ISBN 978-0-387-30303-1.
"Métodos cuasi-Newton". Optimización numérica . Serie Springer en Investigación de Operaciones e Ingeniería Financiera. 2006. págs. 135-163. doi : 10.1007 / 978-0-387-40065-5_6 . ISBN 978-0-387-30303-1.

[1] Wolfe, P. (1969). "Condiciones de convergencia para métodos de ascenso". Revisión SIAM . 11 (2): 226–235. doi : 10.1137 / 1011036 . JSTOR 2028111 .

[2] Wolfe, P. (1971). "Condiciones de convergencia para los métodos de ascenso. II: Algunas correcciones". Revisión SIAM . 13 (2): 185–188. doi : 10.1137 / 1013035 .

[3] Nocedal, Jorge ; Wright, Stephen (1999). Optimización numérica . pag. 38.

[4] Armijo, Larry (1966). "Minimización de funciones con primeras derivadas parciales continuas de Lipschitz" . Pacific J. Math . 16 (1): 1-3. doi : 10.2140 / pjm.1966.16.1 .

[1]