Método de gradiente conjugado

En matemáticas , el método del gradiente conjugado es un algoritmo para la solución numérica de sistemas particulares de ecuaciones lineales , es decir, aquellos cuya matriz es positiva-definida . El método de gradiente conjugado a menudo se implementa como un algoritmo iterativo , aplicable a sistemas dispersos que son demasiado grandes para ser manejados por una implementación directa u otros métodos directos como la descomposición de Cholesky . Los grandes sistemas dispersos a menudo surgen cuando se resuelven numéricamente ecuaciones diferenciales parciales o problemas de optimización.

Una comparación de la convergencia del descenso del gradiente con el tamaño de paso óptimo (en verde) y el vector conjugado (en rojo) para minimizar una función cuadrática asociada con un sistema lineal dado. El gradiente conjugado, asumiendo una aritmética exacta, converge como máximo en n pasos, donde n es el tamaño de la matriz del sistema (aquí n = 2).

El método de gradiente conjugado también se puede utilizar para resolver problemas de optimización sin restricciones , como la minimización de energía . Es comúnmente atribuido a Magnus Hestenes y Eduard Stiefel , ^[1]^[2] quienes lo programaron en el Z4 , ^[3] y lo investigaron extensamente. ^[4]^[5]

El método de gradiente biconjugado proporciona una generalización a matrices no simétricas. Varios métodos de gradiente conjugado no lineal buscan mínimos de ecuaciones no lineales y funciones objetivas de caja negra.

Descripción del problema abordado por gradientes conjugados

Supongamos que queremos resolver el sistema de ecuaciones lineales.

{\ Displaystyle \ mathbf {A} \ mathbf {x} = \ mathbf {b}}

para el vector ${\ Displaystyle \ mathbf {x}}$ , donde lo conocido ${\ Displaystyle n \ times n}$ matriz ${\ Displaystyle \ mathbf {A}}$ es simétrico (es decir, A ^T = A ), positivo-definido (es decir, x ^TAx > 0 para todos los vectores distintos de cero ${\ Displaystyle \ mathbf {x}}$ en R ⁿ ), y real , y ${\ Displaystyle \ mathbf {b}}$ también es conocido. Denotamos la solución única de este sistema por ${\ Displaystyle \ mathbf {x} _ {*}}$ .

Derivación como método directo

El método de gradiente conjugado puede derivarse de varias perspectivas diferentes, incluida la especialización del método de dirección conjugada para la optimización y la variación de la iteración de Arnoldi / Lanczos para problemas de valores propios . A pesar de las diferencias en sus enfoques, estas derivaciones comparten un tema común: probar la ortogonalidad de los residuos y la conjugación de las direcciones de búsqueda. Estas dos propiedades son cruciales para desarrollar la conocida y sucinta formulación del método.

Decimos que los no-cero dos vectores u y v son conjugado (con respecto a ${\ Displaystyle \ mathbf {A}}$ ) Si

{\ Displaystyle \ mathbf {u} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {v} = 0.}

Desde ${\ Displaystyle \ mathbf {A}}$ es simétrico y positivo-definido, el lado izquierdo define un producto interno

{\ Displaystyle \ mathbf {u} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {v} = \ langle \ mathbf {u}, \ mathbf {v} \ rangle _ {\ mathbf {A}} : = \ langle \ mathbf {A} \ mathbf {u}, \ mathbf {v} \ rangle = \ langle \ mathbf {u}, \ mathbf {A} ^ {\ mathsf {T}} \ mathbf {v} \ rangle = \ langle \ mathbf {u}, \ mathbf {A} \ mathbf {v} \ rangle.}

Dos vectores se conjugan si y solo si son ortogonales con respecto a este producto interno. Ser conjugado es una relación simétrica: si ${\ Displaystyle \ mathbf {u}}$ es conjugado a ${\ Displaystyle \ mathbf {v}}$ , luego ${\ Displaystyle \ mathbf {v}}$ es conjugado a ${\ Displaystyle \ mathbf {u}}$ . Suponer que

{\ Displaystyle P = \ {\ mathbf {p} _ {1}, \ dots, \ mathbf {p} _ {n} \}}

es un conjunto de ${\ Displaystyle n}$ vectores mutuamente conjugados con respecto a ${\ Displaystyle \ mathbf {A}}$ , es decir ${\ Displaystyle \ mathbf {p} _ {i} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {j} = \ delta _ {ij}}$ . Luego ${\ Displaystyle P}$ forma una base para ${\ Displaystyle \ mathbb {R} ^ {n}}$ , y podemos expresar la solución ${\ Displaystyle \ mathbf {x} _ {*}}$ de ${\ Displaystyle \ mathbf {Ax} = \ mathbf {b}}$ en esta base:

{\ Displaystyle \ mathbf {x} _ {*} = \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ mathbf {p} _ {i} \ Rightarrow \ mathbf {A} \ mathbf { x} _ {*} = \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ mathbf {A} \ mathbf {p} _ {i}.}

Multiplicar por la izquierda por ${\ Displaystyle \ mathbf {p} _ {k} ^ {\ mathsf {T}}}$ rendimientos

{\ Displaystyle \ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {x} _ {*} = \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {i} \ Rightarrow \ mathbf {p} _ {k} ^ {\ mathsf { T}} \ mathbf {b} = \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ left \ langle \ mathbf {p} _ {k}, \ mathbf {p} _ {i} \ right \ rangle _ {\ mathbf {A}} = \ alpha _ {k} \ left \ langle \ mathbf {p} _ {k}, \ mathbf {p} _ {k} \ right \ rangle _ {\ mathbf {A}} \ Rightarrow}

{\ Displaystyle \ alpha _ {k} = {\ frac {\ langle \ mathbf {p} _ {k}, \ mathbf {b} \ rangle} {\ langle \ mathbf {p} _ {k}, \ mathbf { p} _ {k} \ rangle _ {\ mathbf {A}}}}.}

Esto da el siguiente método ^[4] para resolver la ecuación $Ax = b$ : encuentre una secuencia de ${\ Displaystyle n}$ conjugar direcciones y luego calcular los coeficientes $α k$ .

Como método iterativo

Si elegimos los vectores conjugados ${\ Displaystyle \ mathbf {p} _ {k}}$ cuidadosamente, entonces es posible que no los necesitemos todos para obtener una buena aproximación a la solución ${\ Displaystyle \ mathbf {x} _ {*}}$ . Entonces, queremos considerar el método de gradiente conjugado como un método iterativo. Esto también nos permite resolver aproximadamente sistemas donde n es tan grande que el método directo tomaría demasiado tiempo.

Denotamos la suposición inicial para $x *$ por $x 0$ (podemos suponer sin pérdida de generalidad que $x 0 = 0$ ; de lo contrario, considere el sistema Az = b - Ax _{0 en su} lugar). Comenzando con x ₀ buscamos la solución y en cada iteración necesitamos una métrica que nos diga si estamos más cerca de la solución $x *$ (que desconocemos). Esta métrica proviene del hecho de que la solución $x *$ también es el minimizador único de la siguiente función cuadrática

{\ Displaystyle f (\ mathbf {x}) = {\ tfrac {1} {2}} \ mathbf {x} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {x} - \ mathbf {x } ^ {\ mathsf {T}} \ mathbf {b}, \ qquad \ mathbf {x} \ in \ mathbf {R} ^ {n} \ ,.}

La existencia de un minimizador único es evidente ya que su segunda derivada está dada por una matriz simétrica positiva definida.

{\ Displaystyle \ nabla ^ {2} f (\ mathbf {x}) = \ mathbf {A} \ ,,}

y que el minimizador (use D f ( x ) = 0) resuelve el problema inicial es obvio a partir de su primera derivada

{\ Displaystyle \ nabla f (\ mathbf {x}) = \ mathbf {A} \ mathbf {x} - \ mathbf {b} \ ,.}

Esto sugiere tomar el primer vector base p ₀ como el negativo del gradiente de f en x = x ₀ . El gradiente de f es igual a $Ax - b$ . Comenzando con una suposición inicial x ₀ , esto significa que tomamos p ₀ = b - Ax ₀ . Los otros vectores de la base se conjugarán con el gradiente, de ahí el nombre método de gradiente conjugado . Tenga en cuenta que p ₀ es también el residuo proporcionado por este paso inicial del algoritmo.

Sea r _k el residual en el k- ésimo paso:

{\ Displaystyle \ mathbf {r} _ {k} = \ mathbf {b} - \ mathbf {Ax} _ {k}.}

Como se observó anteriormente, ${\ Displaystyle \ mathbf {r} _ {k}}$ es el gradiente negativo de ${\ Displaystyle f}$ a ${\ Displaystyle \ mathbf {x} _ {k}}$ , por lo que el método de descenso de gradiente requeriría moverse en la dirección r _k . Aquí, sin embargo, insistimos en que las direcciones ${\ Displaystyle \ mathbf {p} _ {k}}$ ser conjugados entre sí. Una forma práctica de hacer cumplir esto es exigir que la siguiente dirección de búsqueda se construya a partir del residual actual y todas las direcciones de búsqueda anteriores. La restricción de conjugación es una restricción de tipo ortonormal y, por lo tanto, el algoritmo puede verse como un ejemplo de ortonormalización de Gram-Schmidt . Esto da la siguiente expresión:

{\ Displaystyle \ mathbf {p} _ {k} = \ mathbf {r} _ {k} - \ sum _ {i }>

(vea la imagen en la parte superior del artículo para ver el efecto de la restricción de conjugación en la convergencia). Siguiendo esta dirección, la siguiente ubicación óptima viene dada por

{\ Displaystyle \ mathbf {x} _ {k + 1} = \ mathbf {x} _ {k} + \ alpha _ {k} \ mathbf {p} _ {k}}

con

{\ Displaystyle \ alpha _ {k} = {\ frac {\ mathbf {p} _ {k} ^ {\ mathsf {T}} (\ mathbf {b} - \ mathbf {Ax} _ {k})} { \ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {k}}} = {\ frac {\ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {r} _ {k}} {\ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {k}}}, }

donde la última igualdad se sigue de la definición de ${\ Displaystyle \ mathbf {r} _ {k}}$ . La expresión para ${\ Displaystyle \ alpha _ {k}}$ se puede derivar si se sustituye la expresión de x _{k +1} en f y se minimiza wrt ${\ Displaystyle \ alpha _ {k}}$

{\ Displaystyle {\ begin {alineado} f (\ mathbf {x} _ {k + 1}) & = f (\ mathbf {x} _ {k} + \ alpha _ {k} \ mathbf {p} _ { k}) =: g (\ alpha _ {k}) \\ g '(\ alpha _ {k}) & {\ overset {!} {=}} 0 \ quad \ Rightarrow \ quad \ alpha _ {k} = {\ frac {\ mathbf {p} _ {k} ^ {\ mathsf {T}} (\ mathbf {b} - \ mathbf {Ax} _ {k})} {\ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {k}}} \,. \ end {alineado}}}

El algoritmo resultante

El algoritmo anterior ofrece la explicación más sencilla del método de gradiente conjugado. Aparentemente, el algoritmo como se indica requiere el almacenamiento de todas las direcciones de búsqueda anteriores y los vectores de residuos, así como muchas multiplicaciones de matriz-vector, y por lo tanto puede ser computacionalmente costoso. Sin embargo, un análisis más detallado del algoritmo muestra que ${\ Displaystyle \ mathbf {r} _ {i}}$ es ortogonal a ${\ Displaystyle \ mathbf {r} _ {j}}$ , es decir ${\ Displaystyle \ mathbf {r} _ {i} ^ {\ mathsf {T}} \ mathbf {r} _ {j} = 0}$ , para i ≠ j. Y ${\ Displaystyle \ mathbf {p} _ {i}}$ es ${\ Displaystyle \ mathbf {A}}$ -ortogonal a ${\ Displaystyle \ mathbf {p} _ {j}}$ , es decir ${\ Displaystyle \ mathbf {p} _ {i} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {j} = 0}$ , por ${\ Displaystyle i \ neq j}$ . Esto puede considerarse que a medida que avanza el algoritmo, ${\ Displaystyle \ mathbf {p} _ {i}}$ y ${\ Displaystyle \ mathbf {r} _ {i}}$ abarcan el mismo subespacio de Krylov . Dónde ${\ Displaystyle \ mathbf {r} _ {i}}$ forman la base ortogonal con respecto al producto interior estándar, y ${\ Displaystyle \ mathbf {p} _ {i}}$ forman la base ortogonal con respecto al producto interno inducido por ${\ Displaystyle \ mathbf {A}}$ . Por lo tanto, ${\ Displaystyle \ mathbf {x} _ {k}}$ puede considerarse como la proyección de ${\ Displaystyle \ mathbf {x}}$ en el subespacio de Krylov.

El algoritmo se detalla a continuación para resolver Ax = b donde ${\ Displaystyle \ mathbf {A}}$ es una matriz real, simétrica y definida positiva. El vector de entrada ${\ Displaystyle \ mathbf {x} _ {0}}$ puede ser una solución inicial aproximada o 0 . Es una formulación diferente del procedimiento exacto descrito anteriormente.

{\ displaystyle {\ begin {alineado} & \ mathbf {r} _ {0}: = \ mathbf {b} - \ mathbf {Ax} _ {0} \\ & {\ hbox {if}} \ mathbf {r } _ {0} {\ text {es lo suficientemente pequeño, luego devuelve}} \ mathbf {x} _ {0} {\ text {como resultado}} \\ & \ mathbf {p} _ {0}: = \ mathbf {r} _ {0} \\ & k: = 0 \\ & {\ text {repeat}} \\ & \ qquad \ alpha _ {k}: = {\ frac {\ mathbf {r} _ {k} ^ {\ mathsf {T}} \ mathbf {r} _ {k}} {\ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {Ap} _ {k}}} \\ & \ qquad \ mathbf {x} _ {k + 1}: = \ mathbf {x} _ {k} + \ alpha _ {k} \ mathbf {p} _ {k} \\ & \ qquad \ mathbf {r} _ {k + 1}: = \ mathbf {r} _ {k} - \ alpha _ {k} \ mathbf {Ap} _ {k} \\ & \ qquad {\ hbox {if}} \ mathbf {r} _ {k + 1} {\ text {es lo suficientemente pequeño, luego sale del bucle}} \\ & \ qquad \ beta _ {k}: = {\ frac {\ mathbf {r} _ {k + 1} ^ {\ mathsf {T}} \ mathbf {r} _ {k + 1}} {\ mathbf {r} _ {k} ^ {\ mathsf {T}} \ mathbf {r} _ {k}}} \\ & \ qquad \ mathbf {p} _ {k + 1}: = \ mathbf {r} _ {k + 1} + \ beta _ {k} \ mathbf {p} _ {k} \\ & \ qquad k: = k +1 \\ & {\ text {end repeat}} \\ & {\ text {return}} \ mathbf {x} _ {k + 1} {\ text {como resultado}} \ end {alineado}}}

Este es el algoritmo más utilizado. La misma fórmula para $β k$ también se utiliza en el método de gradiente conjugado no lineal de Fletcher-Reeves .

Reinicia

Notamos eso ${\ Displaystyle \ mathbf {x} _ {1}}$ se calcula mediante el método de descenso de gradiente aplicado a ${\ Displaystyle \ mathbf {x} _ {0}}$ . Configuración ${\ Displaystyle \ beta _ {k} = 0}$ haría de manera similar ${\ Displaystyle \ mathbf {x} _ {k + 1}}$ calculado por el método de descenso de gradiente de ${\ Displaystyle \ mathbf {x} _ {k}}$ , es decir, se puede utilizar como una implementación simple de un reinicio de las iteraciones de gradiente conjugado. ^{[4] Los} reinicios podrían ralentizar la convergencia, pero pueden mejorar la estabilidad si el método de gradiente conjugado se comporta mal, por ejemplo, debido a un error de redondeo .

Cálculo residual explícito

Las fórmulas ${\ Displaystyle \ mathbf {x} _ {k + 1}: = \ mathbf {x} _ {k} + \ alpha _ {k} \ mathbf {p} _ {k}}$ y ${\ Displaystyle \ mathbf {r} _ {k}: = \ mathbf {b} - \ mathbf {Ax} _ {k}}$ , que ambos se mantienen en aritmética exacta, hacen que las fórmulas ${\ Displaystyle \ mathbf {r} _ {k + 1}: = \ mathbf {r} _ {k} - \ alpha _ {k} \ mathbf {Ap} _ {k}}$ y ${\ Displaystyle \ mathbf {r} _ {k + 1}: = \ mathbf {b} - \ mathbf {Ax} _ {k + 1}}$ matemáticamente equivalente. El primero se utiliza en el algoritmo para evitar una multiplicación extra por ${\ Displaystyle \ mathbf {A}}$ desde el vector ${\ Displaystyle \ mathbf {Ap} _ {k}}$ ya está calculado para evaluar ${\ Displaystyle \ alpha _ {k}}$ . Este último puede ser más preciso, sustituyendo el cálculo explícito ${\ Displaystyle \ mathbf {r} _ {k + 1}: = \ mathbf {b} - \ mathbf {Ax} _ {k + 1}}$ para el implícito por la recursividad sujeta a acumulación de errores de redondeo , por lo que se recomienda para una evaluación ocasional. ^[6]

Cálculo de alfa y beta

En el algoritmo, $α k$ se elige de manera que ${\ Displaystyle \ mathbf {r} _ {k + 1}}$ es ortogonal a ${\ Displaystyle \ mathbf {r} _ {k}}$ . El denominador se simplifica de

{\ Displaystyle \ alpha _ {k} = {\ frac {\ mathbf {r} _ {k} ^ {\ mathsf {T}} \ mathbf {r} _ {k}} {\ mathbf {r} _ {k } ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {k}}} = {\ frac {\ mathbf {r} _ {k} ^ {\ mathsf {T}} \ mathbf { r} _ {k}} {\ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {Ap} _ {k}}}}

desde ${\ Displaystyle \ mathbf {r} _ {k + 1} = \ mathbf {p} _ {k + 1} - \ mathbf {\ beta} _ {k} \ mathbf {p} _ {k}}$ . El $β k$ se elige de manera que ${\ Displaystyle \ mathbf {p} _ {k + 1}}$ es conjugado a ${\ Displaystyle \ mathbf {p} _ {k}}$ . Inicialmente, $β k$ es

{\ Displaystyle \ beta _ {k} = - {\ frac {\ mathbf {r} _ {k + 1} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {k}} { \ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {k}}}}

utilizando

{\ Displaystyle \ mathbf {r} _ {k + 1} = \ mathbf {r} _ {k} - \ alpha _ {k} \ mathbf {A} \ mathbf {p} _ {k}}

y equivalentemente

${\ Displaystyle \ mathbf {A} \ mathbf {p} _ {k} = {\ frac {1} {\ alpha _ {k}}} (\ mathbf {r} _ {k} - \ mathbf {r} _ {k + 1}),}$

el numerador de $β k$ se reescribe como

{\ Displaystyle \ mathbf {r} _ {k + 1} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {k} = {\ frac {1} {\ alpha _ {k} }} \ mathbf {r} _ {k + 1} ^ {\ mathsf {T}} (\ mathbf {r} _ {k} - \ mathbf {r} _ {k + 1}) = - {\ frac { 1} {\ alpha _ {k}}} \ mathbf {r} _ {k + 1} ^ {\ mathsf {T}} \ mathbf {r} _ {k + 1}}

porque ${\ Displaystyle \ mathbf {r} _ {k + 1}}$ y ${\ Displaystyle \ mathbf {r} _ {k}}$ son ortogonales por diseño. El denominador se reescribe como

{\ Displaystyle \ mathbf {p} _ {k} ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {k} = (\ mathbf {r} _ {k} + \ beta _ { k-1} \ mathbf {p} _ {k-1}) ^ {\ mathsf {T}} \ mathbf {A} \ mathbf {p} _ {k} = {\ frac {1} {\ alpha _ { k}}} \ mathbf {r} _ {k} ^ {\ mathsf {T}} (\ mathbf {r} _ {k} - \ mathbf {r} _ {k + 1}) = {\ frac {1 } {\ alpha _ {k}}} \ mathbf {r} _ {k} ^ {\ mathsf {T}} \ mathbf {r} _ {k}}

usando que las direcciones de búsqueda p _k están conjugadas y nuevamente que los residuos son ortogonales. Esto da la $β$ en el algoritmo después de cancelar $α k$ .

Código de ejemplo en MATLAB / GNU Octave

función  x = conjgrad ( A, b, x )   r = b - A * x ;       p = r ;   rsold = r ' * r ;     para i = 1 : longitud ( b )    Ap = A * p ;     alfa = rsvendido / ( p ' * Ap );       x = x + alfa * p ;       r = r - alfa * Ap ;       rsnew = r ' * r ;     si sqrt ( rsnew ) < 1e-10    rotura final p = r + ( rsnew / rsold ) * p ;         rsold = rsnew ;   finalfinal

Ejemplo numérico

Considere el sistema lineal Ax = b dado por

{\ displaystyle \ mathbf {A} \ mathbf {x} = {\ begin {bmatrix} 4 & 1 \\ 1 & 3 \ end {bmatrix}} {\ begin {bmatrix} x_ {1} \\ x_ {2} \ end {bmatrix }} = {\ begin {bmatrix} 1 \\ 2 \ end {bmatrix}},}

Realizaremos dos pasos del método de gradiente conjugado comenzando con la suposición inicial

{\ Displaystyle \ mathbf {x} _ {0} = {\ begin {bmatrix} 2 \\ 1 \ end {bmatrix}}}

para encontrar una solución aproximada al sistema.

Solución

Como referencia, la solución exacta es

{\ Displaystyle \ mathbf {x} = {\ begin {bmatrix} {\ frac {1} {11}} \\\\ {\ frac {7} {11}} \ end {bmatrix}} \ approx {\ begin {bmatrix} 0.0909 \\\\ 0.6364 \ end {bmatrix}}}

Nuestro primer paso es calcular el vector residual r ₀ asociado con x ₀ . Este residual se calcula a partir de la fórmula r ₀ = b - Ax ₀ , y en nuestro caso es igual a

{\ displaystyle \ mathbf {r} _ {0} = {\ begin {bmatrix} 1 \\ 2 \ end {bmatrix}} - {\ begin {bmatrix} 4 & 1 \\ 1 & 3 \ end {bmatrix}} {\ begin { bmatrix} 2 \\ 1 \ end {bmatrix}} = {\ begin {bmatrix} -8 \\ - 3 \ end {bmatrix}} = \ mathbf {p} _ {0}.}

Dado que esta es la primera iteración, usaremos el vector residual r ₀ como nuestra dirección de búsqueda inicial p ₀ ; el método de selección de p _k cambiará en iteraciones posteriores.

Ahora calculamos el escalar $α 0$ usando la relación

{\ displaystyle \ alpha _ {0} = {\ frac {\ mathbf {r} _ {0} ^ {\ mathsf {T}} \ mathbf {r} _ {0}} {\ mathbf {p} _ {0 } ^ {\ mathsf {T}} \ mathbf {Ap} _ {0}}} = {\ frac {{\ begin {bmatrix} -8 & -3 \ end {bmatrix}} {\ begin {bmatrix} -8 \ \ -3 \ end {bmatrix}}} {{\ begin {bmatrix} -8 & -3 \ end {bmatrix}} {\ begin {bmatrix} 4 & 1 \\ 1 & 3 \ end {bmatrix}} {\ begin {bmatrix} - 8 \\ - 3 \ end {bmatrix}}}} = {\ frac {73} {331}}.}

Ahora podemos calcular x ₁ usando la fórmula

{\ Displaystyle \ mathbf {x} _ {1} = \ mathbf {x} _ {0} + \ alpha _ {0} \ mathbf {p} _ {0} = {\ begin {bmatrix} 2 \\ 1 \ end {bmatrix}} + {\ frac {73} {331}} {\ begin {bmatrix} -8 \\ - 3 \ end {bmatrix}} = {\ begin {bmatrix} 0.2356 \\ 0.3384 \ end {bmatrix} }.}

Este resultado completa la primera iteración, el resultado es una solución aproximada "mejorada" para el sistema, x ₁ . Ahora podemos continuar y calcular el siguiente vector residual r ₁ usando la fórmula

{\ Displaystyle \ mathbf {r} _ {1} = \ mathbf {r} _ {0} - \ alpha _ {0} \ mathbf {A} \ mathbf {p} _ {0} = {\ begin {bmatrix} -8 \\ - 3 \ end {bmatrix}} - {\ frac {73} {331}} {\ begin {bmatrix} 4 & 1 \\ 1 & 3 \ end {bmatrix}} {\ begin {bmatrix} -8 \\ - 3 \ end {bmatrix}} = {\ begin {bmatrix} -0.2810 \\ 0.7492 \ end {bmatrix}}.}

Nuestro siguiente paso en el proceso es calcular el $β 0$ escalar que eventualmente se utilizará para determinar la siguiente dirección de búsqueda p ₁ .

{\ Displaystyle \ beta _ {0} = {\ frac {\ mathbf {r} _ {1} ^ {\ mathsf {T}} \ mathbf {r} _ {1}} {\ mathbf {r} _ {0 } ^ {\ mathsf {T}} \ mathbf {r} _ {0}}} = {\ frac {{\ begin {bmatrix} -0.2810 y 0.7492 \ end {bmatrix}} {\ begin {bmatrix} -0.2810 \\ 0.7492 \ end {bmatrix}}} {{\ begin {bmatrix} -8 & -3 \ end {bmatrix}} {\ begin {bmatrix} -8 \\ - 3 \ end {bmatrix}}}} = 0.0088. }

Ahora, usando este escalar $β 0$ , podemos calcular la siguiente dirección de búsqueda p ₁ usando la relación

{\ displaystyle \ mathbf {p} _ {1} = \ mathbf {r} _ {1} + \ beta _ {0} \ mathbf {p} _ {0} = {\ begin {bmatrix} -0,2810 \\ 0,7492 \ end {bmatrix}} + 0.0088 {\ begin {bmatrix} -8 \\ - 3 \ end {bmatrix}} = {\ begin {bmatrix} -0.3511 \\ 0.7229 \ end {bmatrix}}.}

Ahora calculamos el escalar $α 1$ usando nuestro p ₁ recién adquirido usando el mismo método que el usado para $α 0$ .

{\ Displaystyle \ alpha _ {1} = {\ frac {\ mathbf {r} _ {1} ^ {\ mathsf {T}} \ mathbf {r} _ {1}} {\ mathbf {p} _ {1 } ^ {\ mathsf {T}} \ mathbf {Ap} _ {1}}} = {\ frac {{\ begin {bmatrix} -0.2810 y 0.7492 \ end {bmatrix}} {\ begin {bmatrix} -0.2810 \\ 0.7492 \ end {bmatrix}}} {{\ begin {bmatrix} -0.3511 & 0.7229 \ end {bmatrix}} {\ begin {bmatrix} 4 & 1 \\ 1 & 3 \ end {bmatrix}} {\ begin {bmatrix} -0,3511 \\ 0,7229 \ end {bmatrix}}}} = 0,4122.}

Finalmente, encontramos x ₂ usando el mismo método que se usó para encontrar x ₁ .

{\ Displaystyle \ mathbf {x} _ {2} = \ mathbf {x} _ {1} + \ alpha _ {1} \ mathbf {p} _ {1} = {\ begin {bmatrix} 0.2356 \\ 0.3384 \ end {bmatrix}} + 0.4122 {\ begin {bmatrix} -0.3511 \\ 0.7229 \ end {bmatrix}} = {\ begin {bmatrix} 0.0909 \\ 0.6364 \ end {bmatrix}}.}

El resultado, x ₂ , es una aproximación "mejor" a la solución del sistema que x ₁ y x ₀ . Si en este ejemplo se usara aritmética exacta en lugar de precisión limitada, entonces teóricamente se habría alcanzado la solución exacta después de n = 2 iteraciones ( siendo n el orden del sistema).

Propiedades de convergencia

El método del gradiente conjugado teóricamente puede verse como un método directo, ya que en ausencia de error de redondeo produce la solución exacta después de un número finito de iteraciones, que no es mayor que el tamaño de la matriz. En la práctica, nunca se obtiene la solución exacta ya que el método de gradiente conjugado es inestable con respecto a incluso pequeñas perturbaciones, por ejemplo, la mayoría de las direcciones no son en la práctica conjugadas, debido a la naturaleza degenerativa de generar los subespacios de Krylov.

Como método iterativo , el método de gradiente conjugado de forma monótona (en la norma energética) mejora las aproximaciones ${\ Displaystyle \ mathbf {x} _ {k}}$ a la solución exacta y puede alcanzar la tolerancia requerida después de un número relativamente pequeño (en comparación con el tamaño del problema) de iteraciones. La mejora es típicamente lineal y su velocidad está determinada por el número de condición. ${\ Displaystyle \ kappa (A)}$ de la matriz del sistema ${\ Displaystyle A}$ : el mas largo ${\ Displaystyle \ kappa (A)}$ es decir, más lenta es la mejora. ^[7]

Si ${\ Displaystyle \ kappa (A)}$ es grande, el preacondicionamiento se usa comúnmente para reemplazar el sistema original ${\ Displaystyle \ mathbf {Ax} - \ mathbf {b} = 0}$ con ${\ Displaystyle \ mathbf {M} ^ {- 1} (\ mathbf {Ax} - \ mathbf {b}) = 0}$ tal que ${\ Displaystyle \ kappa (\ mathbf {M} ^ {- 1} \ mathbf {A})}$ es más pequeña que ${\ Displaystyle \ kappa (\ mathbf {A})}$ , vea abajo.

Teorema de convergencia

Defina un subconjunto de polinomios como

{\ Displaystyle \ Pi _ {k} ^ {*}: = \ left \ lbrace \ p \ in \ Pi _ {k} \: \ p (0) = 1 \ \ right \ rbrace \ ,,}

dónde ${\ Displaystyle \ Pi _ {k}}$ es el conjunto de polinomios de grado máximo ${\ Displaystyle k}$ .

Dejar ${\ Displaystyle \ left (\ mathbf {x} _ {k} \ right) _ {k}}$ ser las aproximaciones iterativas de la solución exacta ${\ Displaystyle \ mathbf {x} _ {*}}$ , y defina los errores como ${\ Displaystyle \ mathbf {e} _ {k}: = \ mathbf {x} _ {k} - \ mathbf {x} _ {*}}$ . Ahora, la tasa de convergencia se puede aproximar como ^[4]^[8]

{\ Displaystyle {\ begin {alineado} \ left \ | \ mathbf {e} _ {k} \ right \ | _ {\ mathbf {A}} & = \ min _ {p \ in \ Pi _ {k} ^ {*}} \ left \ | p (\ mathbf {A}) \ mathbf {e} _ {0} \ right \ | _ {\ mathbf {A}} \\ & \ leq \ min _ {p \ in \ Pi _ {k} ^ {*}} \, \ max _ {\ lambda \ in \ sigma (\ mathbf {A})} | p (\ lambda) | \ \ left \ | \ mathbf {e} _ {0 } \ right \ | _ {\ mathbf {A}} \\ & \ leq 2 \ left ({\ frac {{\ sqrt {\ kappa (\ mathbf {A})}} - 1} {{\ sqrt {\ kappa (\ mathbf {A})}} + 1}} \ right) ^ {k} \ \ left \ | \ mathbf {e} _ {0} \ right \ | _ {\ mathbf {A}} \ ,, \ end {alineado}}}

dónde ${\ Displaystyle \ sigma (\ mathbf {A})}$ denota el espectro , y ${\ Displaystyle \ kappa (\ mathbf {A})}$ denota el número de condición .

Tenga en cuenta, el límite importante cuando ${\ Displaystyle \ kappa (\ mathbf {A})}$ tiende a ${\ Displaystyle \ infty}$

{\ Displaystyle {\ frac {{\ sqrt {\ kappa (\ mathbf {A})}} - 1} {{\ sqrt {\ kappa (\ mathbf {A})}} + 1}} \ approx 1- { \ frac {2} {\ sqrt {\ kappa (\ mathbf {A})}}} \ quad {\ text {para}} \ quad \ kappa (\ mathbf {A}) \ gg 1 \ ,.}

Este límite muestra una tasa de convergencia más rápida en comparación con los métodos iterativos de Jacobi o Gauss-Seidel que escalan como ${\ Displaystyle \ approx 1 - {\ frac {2} {\ kappa (\ mathbf {A})}}}$ .

No round-off error se asume en el teorema de la convergencia, pero la convergencia unido es comúnmente válido en la práctica como se ha explicado teóricamente ^[5] por Anne Greenbaum .

Convergencia práctica

Si se inicializa al azar, la primera etapa de iteraciones suele ser la más rápida, ya que el error se elimina dentro del subespacio de Krylov que inicialmente refleja un número de condición efectiva más pequeño. La segunda etapa de convergencia suele estar bien definida por la convergencia teórica ligada con ${\ Displaystyle {\ sqrt {\ kappa (\ mathbf {A})}}}$ , pero puede ser superlineal, dependiendo de una distribución del espectro de la matriz ${\ Displaystyle A}$ y la distribución espectral del error. ^[5] En la última etapa, se alcanza la precisión más pequeña posible y la convergencia se detiene o el método puede incluso comenzar a divergir. En aplicaciones informáticas científicas típicas en formato de punto flotante de doble precisión para matrices de gran tamaño, el método de gradiente conjugado utiliza un criterio de detención con una tolerancia que termina las iteraciones durante la primera o segunda etapa.

El método de gradiente conjugado preacondicionado

En la mayoría de los casos, el preacondicionamiento es necesario para garantizar una rápida convergencia del método de gradiente conjugado. El método de gradiente conjugado preacondicionado adopta la siguiente forma: ^[9]

{\ Displaystyle \ mathbf {r} _ {0}: = \ mathbf {b} - \ mathbf {Ax} _ {0}}

{\ Displaystyle \ mathbf {z} _ {0}: = \ mathbf {M} ^ {- 1} \ mathbf {r} _ {0}}

{\ Displaystyle \ mathbf {p} _ {0}: = \ mathbf {z} _ {0}}

{\ Displaystyle k: = 0 \,}

repetir

{\ Displaystyle \ alpha _ {k}: = {\ frac {\ mathbf {r} _ {k} ^ {\ mathsf {T}} \ mathbf {z} _ {k}} {\ mathbf {p} _ { k} ^ {\ mathsf {T}} \ mathbf {Ap} _ {k}}}}

{\ Displaystyle \ mathbf {x} _ {k + 1}: = \ mathbf {x} _ {k} + \ alpha _ {k} \ mathbf {p} _ {k}}

{\ Displaystyle \ mathbf {r} _ {k + 1}: = \ mathbf {r} _ {k} - \ alpha _ {k} \ mathbf {Ap} _ {k}}

si r _{k +1} es suficientemente pequeño , salga del final del bucle si

{\ Displaystyle \ mathbf {z} _ {k + 1}: = \ mathbf {M} ^ {- 1} \ mathbf {r} _ {k + 1}}

{\ Displaystyle \ beta _ {k}: = {\ frac {\ mathbf {r} _ {k + 1} ^ {\ mathsf {T}} \ mathbf {z} _ {k + 1}} {\ mathbf { r} _ {k} ^ {\ mathsf {T}} \ mathbf {z} _ {k}}}}

{\ Displaystyle \ mathbf {p} _ {k + 1}: = \ mathbf {z} _ {k + 1} + \ beta _ {k} \ mathbf {p} _ {k}}

{\ Displaystyle k: = k + 1 \,}

fin de repetir

El resultado es x _{k +1}

La formulación anterior es equivalente a aplicar el método de gradiente conjugado sin preacondicionamiento del sistema ^[10]

{\ Displaystyle \ mathbf {E} ^ {- 1} \ mathbf {A} (\ mathbf {E} ^ {- 1}) ^ {\ mathsf {T}} \ mathbf {\ hat {x}} = \ mathbf {E} ^ {- 1} \ mathbf {b}}

dónde

{\ Displaystyle \ mathbf {EE} ^ {\ mathsf {T}} = \ mathbf {M}, \ qquad \ mathbf {\ hat {x}} = \ mathbf {E} ^ {\ mathsf {T}} \ mathbf {X} .}

La matriz del preacondicionador M tiene que ser simétrica positiva definida y fija, es decir, no puede cambiar de una iteración a otra. Si se viola alguna de estas suposiciones sobre el preacondicionador, el comportamiento del método de gradiente conjugado preacondicionado puede volverse impredecible.

Un ejemplo de un preacondicionador de uso común es la factorización de Cholesky incompleta . ^[11]

El método de gradiente conjugado flexible preacondicionado

En aplicaciones numéricamente desafiantes, se utilizan preacondicionadores sofisticados, que pueden conducir a preacondicionamientos variables, cambiando entre iteraciones. Incluso si el preacondicionador es simétrico positivo definido en cada iteración, el hecho de que pueda cambiar hace que los argumentos anteriores sean inválidos y, en las pruebas prácticas, conduce a una desaceleración significativa de la convergencia del algoritmo presentado anteriormente. Usando la fórmula de Polak-Ribière

{\ Displaystyle \ beta _ {k}: = {\ frac {\ mathbf {r} _ {k + 1} ^ {\ mathsf {T}} \ left (\ mathbf {z} _ {k + 1} - \ mathbf {z} _ {k} \ right)} {\ mathbf {r} _ {k} ^ {\ mathsf {T}} \ mathbf {z} _ {k}}}}

en lugar de la fórmula de Fletcher-Reeves

{\ Displaystyle \ beta _ {k}: = {\ frac {\ mathbf {r} _ {k + 1} ^ {\ mathsf {T}} \ mathbf {z} _ {k + 1}} {\ mathbf { r} _ {k} ^ {\ mathsf {T}} \ mathbf {z} _ {k}}}}

puede mejorar drásticamente la convergencia en este caso. ^[12] Esta versión del método de gradiente conjugado preacondicionado se puede llamar ^[13] flexible, ya que permite el preacondicionamiento variable. También se muestra que la versión flexible ^[14] es robusta incluso si el preacondicionador no es simétrico positivo definido (SPD).

La implementación de la versión flexible requiere almacenar un vector adicional. Para un preacondicionador SPD fijo, ${\ Displaystyle \ mathbf {r} _ {k + 1} ^ {\ mathsf {T}} \ mathbf {z} _ {k} = 0,}$ por tanto, ambas fórmulas para $β k$ son equivalentes en aritmética exacta, es decir, sin el error de redondeo .

La explicación matemática del mejor comportamiento de convergencia del método con la fórmula de Polak-Ribière es que el método es localmente óptimo en este caso, en particular, no converge más lento que el método localmente óptimo de descenso más empinado. ^[15]

Vs. el método de descenso más empinado localmente óptimo

Tanto en el método de gradiente conjugado original como en el preacondicionado, solo es necesario establecer ${\ Displaystyle \ beta _ {k}: = 0}$ para hacerlos localmente óptimos, utilizando la búsqueda de línea , los métodos de descenso más empinados . Con esta sustitución, los vectores $p$ son siempre los mismos que los vectores $z$ , por lo que no es necesario almacenar los vectores $p$ . Por lo tanto, cada iteración de estos métodos de descenso más empinado es un poco más barata en comparación con la de los métodos de gradiente conjugado. Sin embargo, estos últimos convergen más rápido, a menos que se utilice un preacondicionador (muy) variable y / o no SPD , ver más arriba.

Método de gradiente conjugado como controlador de retroalimentación óptimo para integradores dobles

El método del gradiente conjugado también se puede derivar utilizando la teoría de control óptimo . ^[16] En este enfoque, el método de gradiente conjugado cae como un controlador de retroalimentación óptimo ,

{\ Displaystyle u = k (x, v): = - \ gamma _ {a} \ nabla f (x) - \ gamma _ {b} v}

para el sistema de doble integrador ,

{\ Displaystyle {\ dot {x}} = v, \ quad {\ dot {v}} = u}

Las cantidades

{\ Displaystyle \ gamma _ {a}}

y

{\ Displaystyle \ gamma _ {b}}

son ganancias de retroalimentación variables. ^[dieciséis]

Gradiente conjugado en las ecuaciones normales

El método del gradiente conjugado se puede aplicar a un arbitrario n -by- m matriz aplicándolo a ecuaciones normales A ^TA y lado derecho vector A ^Tb , ya que A ^TA es un simétrica positiva-semidefinida matriz para cualquier A . El resultado es un gradiente conjugado en las ecuaciones normales (CGNR).

A ^TAx = A ^Tb

Como método iterativo, no es necesario formar A ^TA explícitamente en la memoria, sino solo realizar las multiplicaciones matriz-vector y transponer las multiplicaciones matriz-vector. Por lo tanto, CGNR es particularmente útil cuando A es una matriz escasa, ya que estas operaciones suelen ser extremadamente eficientes. Sin embargo, la desventaja de formar las ecuaciones normales es que el número de condición κ ( A ^TA ) es igual a κ ² ( A ), por lo que la tasa de convergencia de CGNR puede ser lenta y la calidad de la solución aproximada puede ser sensible al redondeo errores. Encontrar un buen preacondicionador suele ser una parte importante del uso del método CGNR.

Se han propuesto varios algoritmos (por ejemplo, CGLS, LSQR). El algoritmo LSQR supuestamente tiene la mejor estabilidad numérica cuando A está mal acondicionado, es decir, A tiene un número de condición grande .

Método de gradiente conjugado para matrices hermitianas complejas

El método del gradiente conjugado con una modificación trivial es extensible a resolver, dados la matriz A de valores complejos y el vector b, el sistema de ecuaciones lineales ${\ Displaystyle \ mathbf {A} \ mathbf {x} = \ mathbf {b}}$ para el vector de valor complejo x, donde A es hermitiano (es decir, A '= A) y una matriz definida positiva , y el símbolo' denota la transposición conjugada usando el estilo de octava MATLAB / GNU . La modificación trivial es simplemente sustituir la transpuesta conjugada por la transpuesta real en todas partes. Esta sustitución es compatible con versiones anteriores, ya que la transpuesta conjugada se convierte en una transpuesta real en vectores y matrices de valor real. El código de ejemplo proporcionado anteriormente en MATLAB / GNU Octave, por lo tanto, ya funciona para matrices hermitianas complejas que no necesitan modificaciones.

Ver también

Método de gradiente biconjugado (BiCG)
Método residual conjugado
Propagación de creencias gaussianas
Método iterativo: sistemas lineales
Subespacio de Krylov
Método de gradiente conjugado no lineal
Preacondicionamiento
Multiplicación dispersa matriz-vector

Referencias

^ Hestenes, Magnus R .; Stiefel, Eduard (diciembre de 1952). "Métodos de gradientes conjugados para resolver sistemas lineales" (PDF) . Revista de investigación de la Oficina Nacional de Normas . 49 (6): 409. doi : 10.6028 / jres.049.044 .
^ Straeter, TA (1971). "Sobre la extensión de la clase de Davidon-Broyden de rango uno, métodos de minimización cuasi-Newton a un espacio de Hilbert de dimensión infinita con aplicaciones para problemas de control óptimos". Servidor de informes técnicos de la NASA . NASA. hdl : 2060/19710026200 .
^ Speiser, Ambros (2004). "Konrad Zuse und die ERMETH: Ein weltweiter Architektur-Vergleich" [Konrad Zuse y ERMETH: una comparación mundial de arquitecturas]. En Hellige, Hans Dieter (ed.). Geschichten der Informatik. Visionen, Paradigmen, Leitmotive (en alemán). Berlín: Springer. pag. 185. ISBN 3-540-00217-0.
^ a b c d Polyak, Boris (1987). Introducción a la optimización .
^ a b c Greenbaum, Anne (1997). Métodos iterativos para resolver sistemas lineales . doi : 10.1137 / 1.9781611970937 . ISBN 978-0898713961.
^ Shewchuk, Jonathan R (1994). Una introducción al método de gradiente conjugado sin dolor agonizante (PDF) .
^ Saad, Yousef (2003). Métodos iterativos para sistemas lineales dispersos (2ª ed.). Filadelfia, Pa .: Sociedad de Matemáticas Industriales y Aplicadas. págs. 195 . ISBN 978-0-89871-534-7.
^ Hackbusch, W. (21 de junio de 2016). Solución iterativa de grandes sistemas dispersos de ecuaciones (2ª ed.). Suiza: Springer. ISBN 9783319284835. OCLC 952572240 .
^ Barrett, Richard; Berry, Michael; Chan, Tony F .; Demmel, James; Donato, junio; Dongarra, Jack; Eijkhout, Victor; Pozo, Roldan; Romine, Charles; van der Vorst, Henk. Plantillas para la solución de sistemas lineales: bloques de construcción para métodos iterativos (PDF) (2ª ed.). Filadelfia, PA: SIAM. pag. 13 . Consultado el 31 de marzo de 2020 .
^ Golub, Gene H .; Van Loan, Charles F. (2013). Cálculos matriciales (4ª ed.). Prensa de la Universidad Johns Hopkins. segundo. 11.5.2. ISBN 978-1-4214-0794-4.
^ Concus, P .; Golub, GH; Meurant, G. (1985). "Preacondicionamiento de bloques para el método de gradiente conjugado". Revista SIAM de Computación Científica y Estadística . 6 (1): 220–252. doi : 10.1137 / 0906018 .
^ Golub, Gene H .; Ye, Qiang (1999). "Método de gradiente conjugado preacondicionado inexacto con iteración interior-exterior". Revista SIAM de Computación Científica . 21 (4): 1305. CiteSeerX 10.1.1.56.1755 . doi : 10.1137 / S1064827597323415 .
^ Notay, Yvan (2000). "Gradientes conjugados flexibles". Revista SIAM de Computación Científica . 22 (4): 1444–1460. CiteSeerX 10.1.1.35.7473 . doi : 10.1137 / S1064827599362314 .
^ Henricus Bouwmeester, Andrew Dougherty, Andrew V Knyazev. Preacondicionamiento no simétrico para métodos de gradiente conjugado y descenso más pronunciado . Procedia Computer Science, Volumen 51, Páginas 276-285, Elsevier, 2015. doi : 10.1016 / j.procs.2015.05.241
^ Knyazev, Andrew V .; Lashuk, Ilya (2008). "Métodos de descenso más pronunciado y gradiente conjugado con preacondicionamiento variable". Revista SIAM sobre Análisis y Aplicaciones Matriciales . 29 (4): 1267. arXiv : math / 0605767 . doi : 10.1137 / 060675290 . S2CID 17614913 .
^ a b Ross, IM , "Una teoría de control óptimo para la optimización acelerada", arXiv : 1902.09004 , 2019.

Otras lecturas

Atkinson, Kendell A. (1988). "Sección 8.9". Introducción al análisis numérico (2ª ed.). John Wiley e hijos. ISBN 978-0-471-50023-0.
Avriel, Mordecai (2003). Programación no lineal: análisis y métodos . Publicación de Dover. ISBN 978-0-486-43227-4.
Golub, Gene H .; Van Loan, Charles F. (2013). "Capítulo 11". Cálculos matriciales (4ª ed.). Prensa de la Universidad Johns Hopkins. ISBN 978-1-4214-0794-4.
Saad, Yousef (1 de abril de 2003). "Capítulo 6" . Métodos iterativos para sistemas lineales dispersos (2ª ed.). SIAM. ISBN 978-0-89871-534-7.

enlaces externos

"Gradientes conjugados, método de" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]

[1] Hestenes, Magnus R .; Stiefel, Eduard (diciembre de 1952). "Métodos de gradientes conjugados para resolver sistemas lineales" (PDF) . Revista de investigación de la Oficina Nacional de Normas . 49 (6): 409. doi : 10.6028 / jres.049.044 .

[2] Straeter, TA (1971). "Sobre la extensión de la clase de Davidon-Broyden de rango uno, métodos de minimización cuasi-Newton a un espacio de Hilbert de dimensión infinita con aplicaciones para problemas de control óptimos". Servidor de informes técnicos de la NASA . NASA. hdl : 2060/19710026200 .

[3] Speiser, Ambros (2004). "Konrad Zuse und die ERMETH: Ein weltweiter Architektur-Vergleich" [Konrad Zuse y ERMETH: una comparación mundial de arquitecturas]. En Hellige, Hans Dieter (ed.). Geschichten der Informatik. Visionen, Paradigmen, Leitmotive (en alemán). Berlín: Springer. pag. 185. ISBN 3-540-00217-0.

[BP-4] Polyak, Boris (1987). Introducción a la optimización .

[AG-5] Greenbaum, Anne (1997). Métodos iterativos para resolver sistemas lineales . doi : 10.1137 / 1.9781611970937 . ISBN 978-0898713961.

[6] Shewchuk, Jonathan R (1994). Una introducción al método de gradiente conjugado sin dolor agonizante (PDF) .

[saad1996iterative-7] Saad, Yousef (2003). Métodos iterativos para sistemas lineales dispersos (2ª ed.). Filadelfia, Pa .: Sociedad de Matemáticas Industriales y Aplicadas. págs. 195 . ISBN 978-0-89871-534-7.

[8] Hackbusch, W. (21 de junio de 2016). Solución iterativa de grandes sistemas dispersos de ecuaciones (2ª ed.). Suiza: Springer. ISBN 9783319284835. OCLC 952572240 .

[9] Barrett, Richard; Berry, Michael; Chan, Tony F .; Demmel, James; Donato, junio; Dongarra, Jack; Eijkhout, Victor; Pozo, Roldan; Romine, Charles; van der Vorst, Henk. Plantillas para la solución de sistemas lineales: bloques de construcción para métodos iterativos (PDF) (2ª ed.). Filadelfia, PA: SIAM. pag. 13 . Consultado el 31 de marzo de 2020 .

[10] Golub, Gene H .; Van Loan, Charles F. (2013). Cálculos matriciales (4ª ed.). Prensa de la Universidad Johns Hopkins. segundo. 11.5.2. ISBN 978-1-4214-0794-4.

[11] Concus, P .; Golub, GH; Meurant, G. (1985). "Preacondicionamiento de bloques para el método de gradiente conjugado". Revista SIAM de Computación Científica y Estadística . 6 (1): 220–252. doi : 10.1137 / 0906018 .

[12] Golub, Gene H .; Ye, Qiang (1999). "Método de gradiente conjugado preacondicionado inexacto con iteración interior-exterior". Revista SIAM de Computación Científica . 21 (4): 1305. CiteSeerX 10.1.1.56.1755 . doi : 10.1137 / S1064827597323415 .

[13] Notay, Yvan (2000). "Gradientes conjugados flexibles". Revista SIAM de Computación Científica . 22 (4): 1444–1460. CiteSeerX 10.1.1.35.7473 . doi : 10.1137 / S1064827599362314 .

[14] Henricus Bouwmeester, Andrew Dougherty, Andrew V Knyazev. Preacondicionamiento no simétrico para métodos de gradiente conjugado y descenso más pronunciado . Procedia Computer Science, Volumen 51, Páginas 276-285, Elsevier, 2015. doi : 10.1016 / j.procs.2015.05.241

[15] Knyazev, Andrew V .; Lashuk, Ilya (2008). "Métodos de descenso más pronunciado y gradiente conjugado con preacondicionamiento variable". Revista SIAM sobre Análisis y Aplicaciones Matriciales . 29 (4): 1267. arXiv : math / 0605767 . doi : 10.1137 / 060675290 . S2CID 17614913 .

[:0-16] Ross, IM , "Una teoría de control óptimo para la optimización acelerada", arXiv : 1902.09004 , 2019.

[1]