Iteración de poder

En matemáticas , la iteración de potencia (también conocida como método de potencia ) es un algoritmo de valor propio : dada una matriz diagonalizable ${\ Displaystyle A}$ , el algoritmo producirá un número ${\ Displaystyle \ lambda}$ , que es el valor propio más grande (en valor absoluto) de ${\ Displaystyle A}$ y un vector distinto de cero ${\ Displaystyle v}$ , que es un vector propio correspondiente de ${\ Displaystyle \ lambda}$ , es decir, ${\ Displaystyle Av = \ lambda v}$ . El algoritmo también se conoce como la iteración de Von Mises . ^[1]

La iteración de potencia es un algoritmo muy simple, pero puede converger lentamente. La operación del algoritmo que consume más tiempo es la multiplicación de matrices ${\ Displaystyle A}$ por un vector, por lo que es eficaz para una matriz dispersa muy grande con una implementación adecuada.

El método

Animación que visualiza el algoritmo de iteración de potencia en una matriz de 2x2. La matriz está representada por sus dos autovectores. El error se calcula como

{\ displaystyle || {\ text {aproximación}} - {\ text {vector propio más grande}} ||}

El algoritmo de iteración de potencia comienza con un vector ${\ Displaystyle b_ {0}}$ , que puede ser una aproximación al autovector dominante o un vector aleatorio. El método se describe mediante la relación de recurrencia

{\ Displaystyle b_ {k + 1} = {\ frac {Ab_ {k}} {\ | Ab_ {k} \ |}}}

Entonces, en cada iteración, el vector ${\ Displaystyle b_ {k}}$ se multiplica por la matriz ${\ Displaystyle A}$ y normalizado.

Si asumimos ${\ Displaystyle A}$ tiene un valor propio que es estrictamente mayor en magnitud que sus otros valores propios y el vector inicial ${\ Displaystyle b_ {0}}$ tiene un componente distinto de cero en la dirección de un autovector asociado con el autovalor dominante, luego una subsecuencia ${\ Displaystyle \ left (b_ {k} \ right)}$ converge a un vector propio asociado con el valor propio dominante.

Sin los dos supuestos anteriores, la secuencia ${\ Displaystyle \ left (b_ {k} \ right)}$ no necesariamente converge. En esta secuencia,

{\ Displaystyle b_ {k} = e ^ {i \ phi _ {k}} v_ {1} + r_ {k}}

,

dónde ${\ Displaystyle v_ {1}}$ es un vector propio asociado con el valor propio dominante, y ${\ Displaystyle \ | r_ {k} \ | \ rightarrow 0}$ . La presencia del término ${\ Displaystyle e ^ {i \ phi _ {k}}}$ implica que ${\ Displaystyle \ left (b_ {k} \ right)}$ no converge a menos que ${\ Displaystyle e ^ {i \ phi _ {k}} = 1}$ . Bajo los dos supuestos enumerados anteriormente, la secuencia ${\ Displaystyle \ left (\ mu _ {k} \ right)}$ definido por

{\ Displaystyle \ mu _ {k} = {\ frac {b_ {k} ^ {*} Ab_ {k}} {b_ {k} ^ {*} b_ {k}}}}

converge al valor propio dominante (con cociente de Rayleigh ). ^{[ aclaración necesaria ]}

Se puede calcular esto con el siguiente algoritmo (que se muestra en Python con NumPy):

#! / usr / bin / env python3importar  numpy  como  npdef  power_iteration ( A ,  num_simulations :  int ):  # Lo ideal es elegir un vector aleatorio  # Para disminuir la probabilidad de que nuestro vector  # sea ortogonal al autovector  b_k  =  np . al azar . rand ( A . forma [ 1 ]) para  _  en  rango ( núm_simulaciones ):  # calcular el producto matriz por vector Ab  b_k1  =  np . punto ( A ,  b_k ) # calcular la norma  b_k1_norm  =  np . linalg . norma ( b_k1 ) # re normalizar el vector  b_k  =  b_k1  /  b_k1_norm volver  b_kpower_iteration ( np . array ([[ 0.5 ,  0.5 ],  [ 0.2 ,  0.8 ]]),  10 )

El vector ${\ Displaystyle b_ {k}}$ a un vector propio asociado. Idealmente, se debería utilizar el cociente de Rayleigh para obtener el valor propio asociado.

Este algoritmo se utiliza para calcular el PageRank de Google .

El método también se puede utilizar para calcular el radio espectral (el valor propio con la mayor magnitud, para una matriz cuadrada) calculando el cociente de Rayleigh

{\ Displaystyle \ rho (A) = \ max \ left \ {| \ lambda _ {1} |, \ dotsc, | \ lambda _ {n} | \ right \} = {\ frac {b_ {k} ^ { \ top} Ab_ {k}} {b_ {k} ^ {\ top} b_ {k}}} = {\ frac {b_ {k + 1} ^ {\ top} b_ {k}} {b_ {k} ^ {\ top} b_ {k}}}.}

Análisis

Dejar ${\ Displaystyle A}$ descomponerse en su forma canónica de Jordan : ${\ Displaystyle A = VJV ^ {- 1}}$ , donde la primera columna de ${\ Displaystyle V}$ es un vector propio de ${\ Displaystyle A}$ correspondiente al autovalor dominante ${\ Displaystyle \ lambda _ {1}}$ . Dado que el autovalor dominante de ${\ Displaystyle A}$ es único, el primer bloque de Jordania ${\ Displaystyle J}$ es el ${\ Displaystyle 1 \ times 1}$ matriz ${\ Displaystyle [\ lambda _ {1}],}$ dónde ${\ Displaystyle \ lambda _ {1}}$ es el valor propio más grande de A en magnitud. El vector inicial ${\ Displaystyle b_ {0}}$ se puede escribir como una combinación lineal de las columnas de V :

{\ Displaystyle b_ {0} = c_ {1} v_ {1} + c_ {2} v_ {2} + \ cdots + c_ {n} v_ {n}.}

Por suposición, ${\ Displaystyle b_ {0}}$ tiene un componente distinto de cero en la dirección del autovalor dominante, por lo que ${\ Displaystyle c_ {1} \ neq 0}$ .

La relación de recurrencia computacionalmente útil para ${\ Displaystyle b_ {k + 1}}$ se puede reescribir como:

{\ Displaystyle b_ {k + 1} = {\ frac {Ab_ {k}} {\ | Ab_ {k} \ |}} = {\ frac {A ^ {k + 1} b_ {0}} {\ | A ^ {k + 1} b_ {0} \ |}},}

donde la expresión: ${\ Displaystyle {\ frac {A ^ {k + 1} b_ {0}} {\ | A ^ {k + 1} b_ {0} \ |}}}$ es más susceptible al siguiente análisis.

{\ Displaystyle {\ begin {alineado} b_ {k} & = {\ frac {A ^ {k} b_ {0}} {\ | A ^ {k} b_ {0} \ |}} \\ & = { \ frac {\ left (VJV ^ {- 1} \ right) ^ {k} b_ {0}} {\ | \ left (VJV ^ {- 1} \ right) ^ {k} b_ {0} \ |} } \\ & = {\ frac {VJ ^ {k} V ^ {- 1} b_ {0}} {\ | VJ ^ {k} V ^ {- 1} b_ {0} \ |}} \\ & = {\ frac {VJ ^ {k} V ^ {- 1} \ left (c_ {1} v_ {1} + c_ {2} v_ {2} + \ cdots + c_ {n} v_ {n} \ right )} {\ | VJ ^ {k} V ^ {- 1} \ left (c_ {1} v_ {1} + c_ {2} v_ {2} + \ cdots + c_ {n} v_ {n} \ right ) \ |}} \\ & = {\ frac {VJ ^ {k} \ left (c_ {1} e_ {1} + c_ {2} e_ {2} + \ cdots + c_ {n} e_ {n} \ right)} {\ | VJ ^ {k} \ left (c_ {1} e_ {1} + c_ {2} e_ {2} + \ cdots + c_ {n} e_ {n} \ right) \ |} } \\ & = \ left ({\ frac {\ lambda _ {1}} {| \ lambda _ {1} |}} \ right) ^ {k} {\ frac {c_ {1}} {| c_ { 1} |}} {\ frac {v_ {1} + {\ frac {1} {c_ {1}}} V \ izquierda ({\ frac {1} {\ lambda _ {1}}} J \ derecha) ^ {k} \ left (c_ {2} e_ {2} + \ cdots + c_ {n} e_ {n} \ right)} {\ left \ | v_ {1} + {\ frac {1} {c_ { 1}}} V \ left ({\ frac {1} {\ lambda _ {1}}} J \ right) ^ {k} \ left (c_ {2} e_ {2} + \ cdots + c_ {n} e_ {n} \ right) \ right \ |}} \ end {alineado}}}

La expresión anterior se simplifica como ${\ Displaystyle k \ a \ infty}$

{\ Displaystyle \ left ({\ frac {1} {\ lambda _ {1}}} J \ right) ^ {k} = {\ begin {bmatrix} [1] &&&& \\ & \ left ({\ frac { 1} {\ lambda _ {1}}} J_ {2} \ right) ^ {k} &&& \\ && \ ddots & \\ &&& \ left ({\ frac {1} {\ lambda _ {1}}} J_ {m} \ right) ^ {k} \\\ end {bmatrix}} \ rightarrow {\ begin {bmatrix} 1 &&&& \\ & 0 &&& \\ && \ ddots & \\ &&& 0 \\\ end {bmatrix}} \ quad {\ text {as}} \ quad k \ to \ infty.}

El límite se deriva del hecho de que el valor propio de ${\ Displaystyle {\ frac {1} {\ lambda _ {1}}} J_ {i}}$ es menor que 1 en magnitud, por lo que

{\ Displaystyle \ left ({\ frac {1} {\ lambda _ {1}}} J_ {i} \ right) ^ {k} \ to 0 \ quad {\ text {as}} \ quad k \ to \ infty.}

Resulta que:

{\ Displaystyle {\ frac {1} {c_ {1}}} V \ left ({\ frac {1} {\ lambda _ {1}}} J \ right) ^ {k} \ left (c_ {2} e_ {2} + \ cdots + c_ {n} e_ {n} \ right) \ to 0 \ quad {\ text {as}} \ quad k \ to \ infty}

Usando este hecho, ${\ Displaystyle b_ {k}}$ puede escribirse en una forma que enfatice su relación con ${\ Displaystyle v_ {1}}$ cuando k es grande:

{\ Displaystyle {\ begin {alineado} b_ {k} & = \ left ({\ frac {\ lambda _ {1}} {| \ lambda _ {1} |}} \ right) ^ {k} {\ frac {c_ {1}} {| c_ {1} |}} {\ frac {v_ {1} + {\ frac {1} {c_ {1}}} V \ left ({\ frac {1} {\ lambda _ {1}}} J \ right) ^ {k} \ left (c_ {2} e_ {2} + \ cdots + c_ {n} e_ {n} \ right)} {\ left \ | v_ {1} + {\ frac {1} {c_ {1}}} V \ left ({\ frac {1} {\ lambda _ {1}}} J \ right) ^ {k} \ left (c_ {2} e_ { 2} + \ cdots + c_ {n} e_ {n} \ right) \ right \ |}} \\ [6pt] & = e ^ {i \ phi _ {k}} {\ frac {c_ {1}} {| c_ {1} |}} {\ frac {v_ {1}} {\ | v_ {1} \ |}} + r_ {k} \ end {alineado}}}

dónde ${\ Displaystyle e ^ {i \ phi _ {k}} = \ left (\ lambda _ {1} / | \ lambda _ {1} | \ right) ^ {k}}$ y ${\ Displaystyle \ | r_ {k} \ | \ to 0}$ como ${\ Displaystyle k \ a \ infty}$

La secuencia ${\ Displaystyle \ left (b_ {k} \ right)}$ está acotado, por lo que contiene una subsecuencia convergente. Tenga en cuenta que el vector propio correspondiente al valor propio dominante solo es único hasta un escalar, por lo que aunque la secuencia ${\ Displaystyle \ left (b_ {k} \ right)}$ puede no converger, ${\ Displaystyle b_ {k}}$ es casi un vector propio de A para k grandes .

Alternativamente, si A es diagonalizable , entonces la siguiente demostración arroja el mismo resultado

Sean λ ₁ , λ ₂ , ..., λ _m los m autovalores (contados con multiplicidad) de A y sean v ₁ , v ₂ , ..., v _m los autovectores correspondientes. Suponer que ${\ Displaystyle \ lambda _ {1}}$ es el autovalor dominante, de modo que ${\ Displaystyle | \ lambda _ {1} |> | \ lambda _ {j} |}$ por ${\ Displaystyle j> 1}$ .

El vector inicial ${\ Displaystyle b_ {0}}$ puede ser escrito:

{\ Displaystyle b_ {0} = c_ {1} v_ {1} + c_ {2} v_ {2} + \ cdots + c_ {m} v_ {m}.}

Si ${\ Displaystyle b_ {0}}$ se elige al azar (con probabilidad uniforme), luego c ₁ ≠ 0 con probabilidad 1 . Ahora,

{\ Displaystyle {\ begin {alineado} A ^ {k} b_ {0} & = c_ {1} A ^ {k} v_ {1} + c_ {2} A ^ {k} v_ {2} + \ cdots + c_ {m} A ^ {k} v_ {m} \\ & = c_ {1} \ lambda _ {1} ^ {k} v_ {1} + c_ {2} \ lambda _ {2} ^ {k } v_ {2} + \ cdots + c_ {m} \ lambda _ {m} ^ {k} v_ {m} \\ & = c_ {1} \ lambda _ {1} ^ {k} \ left (v_ { 1} + {\ frac {c_ {2}} {c_ {1}}} \ left ({\ frac {\ lambda _ {2}} {\ lambda _ {1}}} \ right) ^ {k} v_ {2} + \ cdots + {\ frac {c_ {m}} {c_ {1}}} \ left ({\ frac {\ lambda _ {m}} {\ lambda _ {1}}} \ right) ^ {k} v_ {m} \ right) \\ & \ to c_ {1} \ lambda _ {1} ^ {k} v_ {1} && \ left | {\ frac {\ lambda _ {j}} {\ lambda _ {1}}} \ right | <1 {\ text {para}} j> 1 \ end {alineado}}}

Por otro lado:

{\ Displaystyle b_ {k} = {\ frac {A ^ {k} b_ {0}} {\ | A ^ {k} b_ {0} \ |}}.}

Por lo tanto, ${\ Displaystyle b_ {k}}$ converge a (un múltiplo de) el vector propio ${\ Displaystyle v_ {1}}$ . La convergencia es geométrica , con razón

{\ Displaystyle \ left | {\ frac {\ lambda _ {2}} {\ lambda _ {1}}} \ right |,}

dónde ${\ Displaystyle \ lambda _ {2}}$ denota el segundo valor propio dominante. Por lo tanto, el método converge lentamente si hay un valor propio cercano en magnitud al valor propio dominante.

Aplicaciones

Aunque el método de iteración de potencia se aproxima solo a un valor propio de una matriz, sigue siendo útil para ciertos problemas de cálculo . Por ejemplo, Google lo usa para calcular el PageRank de documentos en su motor de búsqueda, ^[2] y Twitter lo usa para mostrar a los usuarios recomendaciones sobre a quién seguir. ^[3] El método de iteración de potencia es especialmente adecuado para matrices dispersas , como la matriz web, o como el método sin matriz que no requiere almacenar la matriz de coeficientes. ${\ Displaystyle A}$ explícitamente, pero en su lugar puede acceder a una función que evalúa productos de matriz-vector ${\ Displaystyle Ax}$ . Para matrices no simétricas que están bien acondicionadas, el método de iteración de potencia puede superar a la iteración de Arnoldi más compleja . Para matrices simétricas, el método de iteración de potencia rara vez se usa, ya que su velocidad de convergencia se puede aumentar fácilmente sin sacrificar el pequeño costo por iteración; ver, por ejemplo, la iteración de Lanczos y LOBPCG .

Algunos de los algoritmos de valores propios más avanzados pueden entenderse como variaciones de la iteración de potencia. Por ejemplo, el método de iteración inversa aplica iteración de potencia a la matriz ${\ Displaystyle A ^ {- 1}}$ . Otros algoritmos analizan todo el subespacio generado por los vectores. ${\ Displaystyle b_ {k}}$ . Este subespacio se conoce como subespacio de Krylov . Puede calcularse mediante iteración de Arnoldi o iteración de Lanczos .

Ver también

Referencias

^ Richard von Mises y H. Pollaczek-Geiringer, Praktische Verfahren der Gleichungsauflösung , ZAMM - Zeitschrift für Angewandte Mathematik und Mechanik 9, 152-164 (1929).
^ Ipsen, Ilse y Rebecca M. Wills (5-8 de mayo de 2005). "VII Simposio Internacional IMACS sobre métodos iterativos en informática científica" (PDF) . Fields Institute, Toronto, Canadá.CS1 maint: varios nombres: lista de autores ( enlace )
^ Pankaj Gupta, Ashish Goel, Jimmy Lin, Aneesh Sharma, Dong Wang y Reza Bosagh Zadeh WTF: El sistema a seguir en Twitter , Actas de la 22a conferencia internacional en World Wide Web

[VonMises-1] Richard von Mises y H. Pollaczek-Geiringer, Praktische Verfahren der Gleichungsauflösung , ZAMM - Zeitschrift für Angewandte Mathematik und Mechanik 9, 152-164 (1929).

[2] Ipsen, Ilse y Rebecca M. Wills (5-8 de mayo de 2005). "VII Simposio Internacional IMACS sobre métodos iterativos en informática científica" (PDF) . Fields Institute, Toronto, Canadá.CS1 maint: varios nombres: lista de autores ( enlace )

[twitterwtf-3] Pankaj Gupta, Ashish Goel, Jimmy Lin, Aneesh Sharma, Dong Wang y Reza Bosagh Zadeh WTF: El sistema a seguir en Twitter , Actas de la 22a conferencia internacional en World Wide Web

[1]