Método Kaczmarz

El método de Kaczmarz o el algoritmo de Kaczmarz es un algoritmo iterativo para resolver sistemas de ecuaciones lineales. ${\ Displaystyle Ax = b}$ . Fue descubierto por primera vez por el matemático polaco Stefan Kaczmarz , ^[1] y fue redescubierto en el campo de la reconstrucción de imágenes a partir de proyecciones de Richard Gordon , Robert Bender y Gabor Herman en 1970, donde se denomina Técnica de Reconstrucción Algebraica (ART). ^[2] ART incluye la restricción de positividad, haciéndola no lineal. ^[3]

El método de Kaczmarz es aplicable a cualquier sistema lineal de ecuaciones, pero su ventaja computacional con respecto a otros métodos depende de que el sistema sea escaso . Se ha demostrado que es superior, en algunas aplicaciones de imágenes biomédicas, a otros métodos como el método de retroproyección filtrada . ^[4]

Tiene muchas aplicaciones que van desde la tomografía computarizada (TC) hasta el procesamiento de señales . También se puede obtener aplicando a los hiperplanos, descritos por el sistema lineal, el método de proyecciones sucesivas sobre conjuntos convexos (POCS). ^[5]^[6]

Algoritmo 1: algoritmo de Kaczmarz

Dejar ${\ Displaystyle Ax = b}$ ser un sistema de ecuaciones lineales , sea ${\ Displaystyle m}$ sea el número de filas de A , ${\ Displaystyle a_ {i}}$ ser el ${\ Displaystyle i}$ º fila de complejo -valued matriz ${\ Displaystyle A}$ , y deja ${\ Displaystyle x ^ {0}}$ ser una aproximación inicial arbitraria de valores complejos a la solución de ${\ Displaystyle Ax = b}$ . Para ${\ Displaystyle k = 0,1, \ ldots}$ calcular:

{\ Displaystyle x ^ {k + 1} = x ^ {k} + {\ frac {b_ {i} - \ langle a_ {i}, x ^ {k} \ rangle} {\ | a_ {i} \ | ^ {2}}} {\ overline {a_ {i}}}}

( 1 )

dónde ${\ Displaystyle i = k {\ bmod {m}}, i = 1,2, \ ldots m}$ y ${\ Displaystyle {\ overline {a_ {i}}}}$ denota conjugación compleja de ${\ Displaystyle a_ {i}}$ .

Si el sistema es consistente, ${\ Displaystyle x ^ {k}}$ converge a la solución de norma mínima , siempre que las iteraciones comiencen con el vector cero.

Se puede definir un algoritmo más general utilizando un parámetro de relajación . ${\ Displaystyle \ lambda ^ {k}}$

{\ Displaystyle x ^ {k + 1} = x ^ {k} + \ lambda ^ {k} {\ frac {b_ {i} - \ langle a_ {i}, x ^ {k} \ rangle} {\ | a_ {i} \ | ^ {2}}} {\ overline {a_ {i}}}}

Hay versiones del método que convergen a una solución de mínimos cuadrados ponderados regularizada cuando se aplica a un sistema de ecuaciones inconsistentes y, al menos en lo que respecta al comportamiento inicial, a un costo menor que otros métodos iterativos, como el método de gradiente conjugado. . ^[7]

Algoritmo 2: algoritmo de Kaczmarz aleatorizado

En 2009, Thomas Strohmer y Roman Vershynin ^[8] introdujeron una versión aleatoria del método de Kaczmarz para sistemas lineales sobredeterminados en la que la i -ésima ecuación se selecciona al azar con probabilidad proporcional a ${\ Displaystyle \ | a_ {i} \ | ^ {2}.}$

Este método puede verse como un caso particular de descenso de gradiente estocástico . ^[9]

Bajo tales circunstancias ${\ Displaystyle x_ {k}}$ converge exponencialmente rápido a la solución de ${\ Displaystyle Ax = b,}$ y la tasa de convergencia depende solo del número de condición escalado ${\ Displaystyle \ kappa (A)}$ .

Teorema. Dejar

{\ Displaystyle x}

ser la solución de

{\ Displaystyle Ax = b.}

Entonces el algoritmo 2 converge a

{\ Displaystyle x}

en expectativa, con el error promedio:

{\ Displaystyle \ mathbb {E} \ | x_ {k} -x \ | ^ {2} \ leq \ left (1- \ kappa (A) ^ {- 2} \ right) ^ {k} \ cdot \ | x_ {0} -x \ | ^ {2}.}

Prueba

Tenemos

{\ Displaystyle \ forall z \ in \ mathbb {C} ^ {n}: \ quad \ sum _ {j = 1} ^ {m} | \ langle z, a_ {j} \ rangle | ^ {2} \ geq {\ frac {\ | z \ | ^ {2}} {\ | A ^ {- 1} \ | ^ {2}}}}

( 2 )

Utilizando

{\ Displaystyle \ | A \ | ^ {2} = \ sum _ {j = 1} ^ {m} \ | a_ {j} \ | ^ {2}}

podemos escribir ( 2 ) como

{\ Displaystyle \ forall z \ in \ mathbb {C} ^ {n}: \ quad \ sum _ {j = 1} ^ {m} {\ frac {\ | a_ {j} \ | ^ {2}} { \ | A \ | ^ {2}}} \ left | \ left \ langle z, {\ frac {a_ {j}} {\ | a_ {j} \ |}} \ right \ rangle \ right | ^ {2 } \ geq \ kappa (A) ^ {- 2} {\ | z \ | ^ {2}}}

( 3 )

El punto principal de la demostración es ver el lado izquierdo en ( 3 ) como una expectativa de alguna variable aleatoria. Es decir, recuerde que el espacio de solución del ${\ Displaystyle j-ésimo}$ ecuación de ${\ Displaystyle Ax = b}$ es el hiperplano

{\ Displaystyle \ {y: \ langle y, a_ {j} \ rangle = b_ {j} \},}

cuyo normal es ${\ Displaystyle {\ tfrac {a_ {j}} {\ | a_ {j} \ | ^ {2}}}.}$ Defina un vector aleatorio Z cuyos valores sean las normales a todas las ecuaciones de ${\ Displaystyle Ax = b}$ , con probabilidades como en nuestro algoritmo:

{\ Displaystyle Z = {\ frac {a_ {j}} {\ | a_ {j} \ |}}}

con probabilidad

{\ Displaystyle {\ frac {\ | a_ {j} \ | ^ {2}} {\ | A \ | ^ {2}}} \ qquad \ qquad \ qquad j = 1, \ ldots, m}

Entonces ( 3 ) dice que

{\ Displaystyle \ forall z \ in \ mathbb {C} ^ {n}: \ quad \ mathbb {E} | \ langle z, Z \ rangle | ^ {2} \ geq \ kappa (A) ^ {- 2} {\ | z \ | ^ {2}}}

( 4 )

La proyección ortogonal ${\ Displaystyle P}$ en el espacio de solución de una ecuación aleatoria de ${\ Displaystyle Ax = b}$ es dado por ${\ Displaystyle Pz = z- \ langle zx, Z \ rangle Z.}$

Ahora estamos listos para analizar nuestro algoritmo. Queremos demostrar que el error ${\ Displaystyle {\ | x_ {k} -x \ | ^ {2}}}$ se reduce en cada paso en promedio (condicionado a los pasos anteriores) por al menos el factor de ${\ Displaystyle (1- \ kappa (A) ^ {- 2}).}$ La siguiente aproximación ${\ Displaystyle x_ {k}}$ se calcula a partir de ${\ Displaystyle x_ {k-1}}$ como ${\ Displaystyle x_ {k} = P_ {k} x_ {k-1},}$ dónde ${\ Displaystyle P_ {1}, P_ {2}, \ ldots}$ son realizaciones independientes de la proyección aleatoria ${\ Displaystyle P.}$ El vector ${\ Displaystyle x_ {k-1} -x_ {k}}$ está en el núcleo de ${\ Displaystyle P_ {k}.}$ Es ortogonal al espacio solución de la ecuación en la que ${\ Displaystyle P_ {k}}$ proyectos, que contiene el vector ${\ Displaystyle x_ {k} -x}$ (recordar que ${\ Displaystyle x}$ es la solución a todas las ecuaciones). La ortogonalidad de estos dos vectores produce

{\ Displaystyle \ | x_ {k} -x \ | ^ {2} = \ | x_ {k-1} -x \ | ^ {2} - \ | x_ {k-1} -x_ {k} \ | ^ {2}.}

Para completar la prueba, tenemos que unir ${\ Displaystyle \ | x_ {k-1} -x_ {k} \ | ^ {2}}$ desde abajo. Por la definición de ${\ Displaystyle x_ {k}}$ , tenemos

{\ Displaystyle \ | x_ {k-1} -x_ {k} \ | = \ langle x_ {k-1} -x, Z_ {k} \ rangle}

dónde ${\ Displaystyle Z_ {1}, Z_ {2}, \ ldots}$ son realizaciones independientes del vector aleatorio ${\ Displaystyle Z.}$

Por lo tanto

{\ Displaystyle \ | x_ {k} -x \ | ^ {2} = \ left (1- \ left | \ left \ langle {\ frac {x_ {k-1} -x} {\ | x_ {k- 1} -x \ |}}, Z_ {k} \ right \ rangle \ right | ^ {2} \ right) {\ | x_ {k-1} -x \ | ^ {2}}.}

Ahora tomamos la expectativa de ambos lados condicionada a la elección de los vectores aleatorios ${\ Displaystyle Z_ {1}, \ ldots, Z_ {k-1}}$ (de ahí que arreglemos la elección de las proyecciones aleatorias ${\ Displaystyle P_ {1}, \ ldots, P_ {k-1}}$ y así los vectores aleatorios ${\ Displaystyle x_ {1}, \ ldots, x_ {k-1}}$ y promediamos sobre el vector aleatorio ${\ Displaystyle Z_ {k}}$ ). Luego

{\ Displaystyle \ mathbb {E} _ {Z_ {1}, \ ldots, Z_ {k-1}} {\ | x_ {k} -x \ | ^ {2}} = \ left (1- \ mathbb { E} _ {Z_ {1}, \ ldots, Z_ {k-1}, Z_ {k}} \ left | \ left \ langle {\ frac {x_ {k-1} -x} {\ | x_ {k -1} -x \ |}}, Z_ {k} \ right \ rangle \ right | ^ {2} \ right) {\ | x_ {k-1} -x \ | ^ {2}}.}

Por ( 4 ) y la independencia,

{\ Displaystyle \ mathbb {E} _ {Z_ {1}, \ ldots, Z_ {k-1}} {\ | x_ {k} -x \ | ^ {2}} \ leq (1- \ kappa (A ) ^ {- 2}) {\ | x_ {k-1} -x \ | ^ {2}}.}

Tomando todas las expectativas de ambas partes, llegamos a la conclusión de que

{\ Displaystyle \ mathbb {E} \ | x_ {k} -x \ | ^ {2} \ leq (1- \ kappa (A) ^ {- 2}) \ mathbb {E} {\ | x_ {k- 1} -x \ | ^ {2}}. \ Blacksquare}

La superioridad de esta selección se ilustró con la reconstrucción de una función de banda limitada a partir de sus valores de muestreo espaciados no uniformemente. Sin embargo, se ha señalado ^[10] que el éxito informado por Strohmer y Vershynin depende de las elecciones específicas que se tomaron allí al traducir el problema subyacente, cuya naturaleza geométrica es encontrar un punto común de un conjunto de hiperplanos , en un sistema de ecuaciones algebraicas. Siempre habrá representaciones algebraicas legítimas del problema subyacente para las cuales el método de selección en ^[8] funcionará de manera inferior. ^[8]^[10]^[11]

La iteración de Kaczmarz ( 1 ) tiene una interpretación puramente geométrica: el algoritmo proyecta sucesivamente la iteración actual sobre el hiperplano definido por la siguiente ecuación. Por tanto, cualquier escala de las ecuaciones es irrelevante; también se puede ver en ( 1 ) que cualquier escala (distinta de cero) de las ecuaciones se cancela. Por lo tanto, en RK, uno puede usar ${\ Displaystyle \ | a_ {i} \ |}$ o cualquier otro peso que pueda ser relevante. Específicamente, en el ejemplo de reconstrucción mencionado anteriormente, las ecuaciones se eligieron con probabilidad proporcional a la distancia promedio de cada punto de muestra de sus dos vecinos más cercanos, un concepto introducido por Feichtinger y Gröchenig . Para obtener más información sobre este tema, consulte ^[12]^[13] y las referencias allí contenidas.

Algoritmo 3: algoritmo de Gower-Richtarik

En 2015, Robert M. Gower y Peter Richtarik ^[14] desarrollaron un método iterativo aleatorio versátil para resolver un sistema consistente de ecuaciones lineales ${\ Displaystyle Ax = b}$ que incluye el algoritmo aleatorio de Kaczmarz como caso especial. Otros casos especiales incluyen el descenso de coordenadas aleatorias, el descenso gaussiano aleatorizado y el método de Newton aleatorizado. También surgen como casos especiales versiones en bloque y versiones con muestreo de importancia de todos estos métodos. Se muestra que el método disfruta de una disminución de la tasa exponencial (en expectativa), también conocida como convergencia lineal, en condiciones muy suaves en la forma en que la aleatoriedad ingresa al algoritmo. El método de Gower-Richtarik es el primer algoritmo que descubre una relación de "hermanos" entre estos métodos, algunos de los cuales se propusieron de forma independiente antes, mientras que muchos de los cuales eran nuevos.

Perspectivas sobre Kaczmarz aleatorizado

Las nuevas ideas interesantes sobre el método Kaczmarz aleatorizado que se pueden obtener del análisis del método incluyen:

La tasa general del algoritmo de Gower-Richtarik recupera con precisión la tasa del método Kaczmarz aleatorizado en el caso especial cuando se redujo a ella.
La elección de probabilidades para las que se formuló y analizó originalmente el algoritmo de Kaczmarz aleatorizado (probabilidades proporcionales a los cuadrados de las normas de fila) no es óptima. Las probabilidades óptimas son la solución de cierto programa semidefinido. La complejidad teórica de Kaczmarz aleatorizado con las probabilidades óptimas puede ser arbitrariamente mejor que la complejidad de las probabilidades estándar. Sin embargo, la cantidad en la que es mejor depende de la matriz ${\ Displaystyle A}$ . Hay problemas para los que las probabilidades estándar son óptimas.
Cuando se aplica a un sistema con matriz ${\ Displaystyle A}$ que es positivo definido, el método de Kaczmarz aleatorizado es equivalente al método de descenso de gradiente estocástico (SGD) (con un tamaño de paso muy especial) para minimizar la función cuadrática fuertemente convexa ${\ displaystyle f (x) = {\ tfrac {1} {2}} x ^ {T} Ax-b ^ {T} x.}$ Tenga en cuenta que desde ${\ Displaystyle f}$ es convexo, los minimizadores de ${\ Displaystyle f}$ debe satisfacer ${\ Displaystyle \ nabla f (x) = 0}$ , que es equivalente a ${\ Displaystyle Ax = b.}$ El "tamaño de paso especial" es el tamaño de paso que conduce a un punto que en la línea unidimensional atravesada por el gradiente estocástico minimiza la distancia euclidiana desde el minimizador desconocido (!) De ${\ Displaystyle f}$ , es decir, de ${\ Displaystyle x ^ {*} = A ^ {- 1} b.}$ Esta información se obtiene a partir de una visión dual del proceso iterativo (que se describe a continuación como "Punto de vista de optimización: restricción y aproximación").

Seis formulaciones equivalentes

El método Gower-Richtarik disfruta de seis formulaciones aparentemente diferentes pero equivalentes, que arrojan luz adicional sobre cómo interpretarlo (y, como consecuencia, cómo interpretar sus muchas variantes, incluido el Kaczmarz aleatorio):

1. Punto de vista del boceto: boceto y proyecto
2. Punto de vista de optimización: restricción y aproximación
3. Punto de vista geométrico: intersección aleatoria
4. Punto de vista algebraico 1: resolución lineal aleatoria
5. Punto de vista algebraico 2: actualización aleatoria
6. Punto de vista analítico: punto fijo aleatorio

A continuación, describimos algunos de estos puntos de vista. El método depende de 2 parámetros:

una matriz definida positiva ${\ Displaystyle B}$ dando lugar a un producto interior euclidiano ponderado ${\ Displaystyle \ langle x, y \ rangle _ {B}: = x ^ {T} By}$ y la norma inducida

{\ Displaystyle \ | x \ | _ {B} = \ left (\ langle x, x \ rangle _ {B} \ right) ^ {\ frac {1} {2}},}

y una matriz aleatoria ${\ Displaystyle S}$ con tantas filas como ${\ Displaystyle A}$ (y posiblemente un número aleatorio de columnas).

1. Bosquejo y proyecto

Dado el iterado anterior ${\ Displaystyle x ^ {k},}$ el nuevo punto ${\ Displaystyle x ^ {k + 1}}$ se calcula dibujando una matriz aleatoria ${\ Displaystyle S}$ (de una manera iid a partir de alguna distribución fija), y la configuración

{\ Displaystyle x ^ {k + 1} = {\ underset {x} {\ operatorname {arg \ min}}} \ | xx ^ {k} \ | _ {B} {\ text {sujeto a}} S ^ {T} Ax = S ^ {T} b.}

Es decir, ${\ Displaystyle x ^ {k + 1}}$ se obtiene como la proyección de ${\ Displaystyle x ^ {k}}$ en el sistema esbozado al azar ${\ Displaystyle S ^ {T} Ax = S ^ {T} b}$ . La idea detrás de este método es elegir ${\ Displaystyle S}$ de tal manera que una proyección sobre el sistema esbozado es sustancialmente más simple que la solución del sistema original ${\ Displaystyle Ax = b}$ . El método de Kaczmarz aleatorizado se obtiene seleccionando ${\ Displaystyle B}$ ser la matriz de identidad, y ${\ Displaystyle S}$ ser el ${\ Displaystyle i ^ {th}}$ vector de coordenadas unitarias con probabilidad ${\ Displaystyle p_ {i} = \ | a_ {i} \ | _ {2} ^ {2} / \ | A \ | _ {F} ^ {2}.}$ Diferentes opciones de ${\ Displaystyle B}$ y ${\ Displaystyle S}$ conducir a diferentes variantes del método.

2. Restringir y aproximar

Una formulación aparentemente diferente pero completamente equivalente del método (obtenida a través de la dualidad lagrangiana) es

{\ Displaystyle x ^ {k + 1} = {\ underset {x} {\ operatorname {arg \ min}}} \ left \ | xx ^ {*} \ right \ | _ {B} {\ text {sujeto a }} x = x ^ {k} + B ^ {- 1} A ^ {T} Sy,}

dónde ${\ Displaystyle y}$ también se permite variar, y donde ${\ Displaystyle x ^ {*}}$ es alguna solución del sistema ${\ Displaystyle Ax = b.}$ Por eso, ${\ Displaystyle x ^ {k + 1}}$ se obtiene restringiendo primero la actualización al subespacio lineal abarcado por las columnas de la matriz aleatoria ${\ Displaystyle B ^ {- 1} A ^ {T} S}$ , es decir, a

{\ Displaystyle \ left \ {h: h = B ^ {- 1} A ^ {T} Sy, \ quad y {\ text {puede variar}} \ right \},}

y luego eligiendo el punto ${\ Displaystyle x}$ de este subespacio que se aproxima mejor ${\ Displaystyle x ^ {*}}$ . Esta formulación puede parecer sorprendente ya que parece imposible realizar el paso de aproximación debido al hecho de que ${\ Displaystyle x ^ {*}}$ no se sabe (después de todo, ¡esto es lo que estamos tratando de calcular!). Sin embargo, todavía es posible hacer esto, simplemente porque ${\ Displaystyle x ^ {k + 1}}$ calculado de esta manera es lo mismo que ${\ Displaystyle x ^ {k + 1}}$ calculado a través del boceto y la formulación del proyecto y desde ${\ Displaystyle x ^ {*}}$ no aparece ahí.

5. Actualización aleatoria

La actualización también se puede escribir explícitamente como

{\ Displaystyle x ^ {k + 1} = x ^ {k} -B ^ {- 1} A ^ {T} S \ left (S ^ {T} AB ^ {- 1} A ^ {T} S \ derecha) ^ {\ dagger} S ^ {T} \ left (Ax ^ {k} -b \ right),}

donde por ${\ Displaystyle M ^ {\ dagger}}$ Denotamos el pseudoinverso de la matriz de Moore-Penrose ${\ Displaystyle M}$ . Por lo tanto, el método se puede escribir en la forma ${\ Displaystyle x ^ {k + 1} = x ^ {k} + h ^ {k}}$ , dónde ${\ Displaystyle h ^ {k}}$ es un vector de actualización aleatorio .

Dejando ${\ Displaystyle M = S ^ {T} AB ^ {- 1} A ^ {T} S,}$ se puede demostrar que el sistema ${\ Displaystyle Mi = S ^ {T} (Ax ^ {k} -b)}$ siempre tiene una solución ${\ Displaystyle y ^ {k}}$ , y que para todas estas soluciones el vector ${\ Displaystyle x ^ {k + 1} -B ^ {- 1} A ^ {T} Sy ^ {k}}$ es el mismo. Por lo tanto, no importa cuál de estas soluciones se elija, y el método también se puede escribir como ${\ Displaystyle x ^ {k + 1} = x ^ {k} -B ^ {- 1} A ^ {T} Sy ^ {k}}$ . La pseudo-inversa conduce solo a una solución en particular. El papel de lo pseudo-inverso es doble:

Permite que el método se escriba en el formulario explícito de "actualización aleatoria" como se indicó anteriormente,
Simplifica el análisis a través de la sexta formulación final.

6. Punto fijo aleatorio

Si restamos ${\ Displaystyle x ^ {*}}$ de ambos lados de la fórmula de actualización aleatoria, denotar

{\ Displaystyle Z: = A ^ {T} S \ left (S ^ {T} AB ^ {- 1} A ^ {T} S \ right) ^ {\ dagger} S ^ {T} A,}

y usa el hecho de que ${\ Displaystyle Ax ^ {*} = b,}$ llegamos a la última formulación:

{\ Displaystyle x ^ {k + 1} -x ^ {*} = \ left (IB ^ {- 1} Z \ right) \ left (x ^ {k} -x ^ {*} \ right),}

dónde ${\ Displaystyle I}$ es la matriz de identidad. La matriz de iteración, ${\ Displaystyle IB ^ {- 1} Z,}$ es aleatorio, de ahí el nombre de esta formulación.

Convergencia

Tomando expectativas condicionales en la sexta formulación (condicionada a ${\ Displaystyle x ^ {k}}$ ), obtenemos

{\ Displaystyle \ mathbb {E} \ left. \ left [x ^ {k + 1} -x ^ {*} \ right | x ^ {k} \ right] = \ left (IB ^ {- 1} \ mathbb {E} [Z] \ right) \ left [x ^ {k} -x ^ {*} \ right].}

Tomando de nuevo la expectativa y usando la propiedad de torre de las expectativas, obtenemos

{\ Displaystyle \ mathbb {E} \ left [x ^ {k + 1} -x ^ {*} \ right] = (IB ^ {- 1} \ mathbb {E} [Z]) \ mathbb {E} \ izquierda [x ^ {k} -x ^ {*} \ right].}

Gower y Richtarik ^[14] demuestran que

{\ Displaystyle \ rho: = \ left \ | IB ^ {- {\ frac {1} {2}}} \ mathbb {E} [Z] B ^ {- {\ frac {1} {2}}} \ derecha \ | _ {B} = \ lambda _ {\ max} \ left (IB ^ {- 1} \ mathbb {E} [Z] \ right),}

donde la norma matricial está definida por

{\ Displaystyle \ | M \ | _ {B}: = \ max _ {x \ neq 0} {\ frac {\ | Mx \ | _ {B}} {\ | x \ | _ {B}}}. }

Además, sin ningún supuesto sobre ${\ Displaystyle S}$ uno tiene ${\ Displaystyle 0 \ leq \ rho \ leq 1.}$ Tomando normas y desenrollando la recurrencia, obtenemos

Teorema [Gower y Richtarik 2015]

{\ Displaystyle \ left \ | \ mathbb {E} \ left [x ^ {k} -x ^ {*} \ right] \ right \ | _ {B} \ leq \ rho ^ {k} \ | x ^ { 0} -x ^ {*} \ | _ {B}.}

Observación . Una condición suficiente para que los residuales esperados converjan a 0 es ${\ Displaystyle \ rho <1.}$ Esto se puede lograr si ${\ Displaystyle A}$ tiene un rango de columna completo y en condiciones muy suaves en ${\ Displaystyle S.}$ La convergencia del método también se puede establecer sin la suposición de rango de columna completa de una manera diferente. ^[15]

También es posible mostrar un resultado más fuerte:

Teorema [Gower y Richtarik 2015]

Las normas cuadradas esperadas (en lugar de las normas de expectativas) convergen al mismo ritmo:

{\ Displaystyle \ mathbb {E} \ left \ | \ left [x ^ {k} -x ^ {*} \ right] \ right \ | _ {B} ^ {2} \ leq \ rho ^ {k} \ izquierda \ | x ^ {0} -x ^ {*} \ derecha \ | _ {B} ^ {2}.}

Observación . Este segundo tipo de convergencia es más fuerte debido a la siguiente identidad ^[14] que se aplica a cualquier vector aleatorio ${\ Displaystyle x}$ y cualquier vector fijo ${\ Displaystyle x ^ {*}}$ :

{\ Displaystyle \ left \ | \ mathbb {E} \ left [xx ^ {*} \ right] \ right \ | ^ {2} = \ mathbb {E} \ left [\ left \ | xx ^ {*} \ derecha \ | ^ {2} \ derecha] - \ mathbb {E} \ izquierda [\ | x- \ mathbb {E} [x] \ | ^ {2} \ derecha].}

Convergencia de Kaczmarz aleatorizados

Hemos visto que el método de Kaczmarz aleatorizado aparece como un caso especial del método de Gower-Richtarik para ${\ Displaystyle B = I}$ y ${\ Displaystyle S}$ siendo el ${\ Displaystyle i ^ {th}}$ vector de coordenadas unitarias con probabilidad ${\ Displaystyle p_ {i} = \ | a_ {i} \ | _ {2} ^ {2} / \ | A \ | _ {F} ^ {2},}$ dónde ${\ Displaystyle a_ {i}}$ es el ${\ Displaystyle i ^ {th}}$ fila de ${\ Displaystyle A.}$ Puede comprobarse mediante cálculo directo que

{\ Displaystyle \ rho = \ | IB ^ {- 1} \ mathbb {E} [Z] \ | _ {B} = 1 - {\ frac {\ lambda _ {\ min} (A ^ {T} A) } {\ | A \ | _ {F} ^ {2}}}.}

Otros casos especiales

Notas

↑ Kaczmarz (1937)
^ Gordon, Bender y Herman (1970)
↑ Gordon (2011)
↑ Herman (2009)
^ Censor y Zenios (1997)
^ Aster, Borchers y Thurber (2004)
^ Ver Herman (2009) y referencias allí.
↑ a b c Strohmer y Vershynin (2009)
^ Needell, Srebro y Ward (2009)
↑ a b Censor, Herman y Jiang (2009)
^ Strohmer y Vershynin (2009b)
^ Bass y Gröchenig (2013)
↑ Gordon (2017)
^ a b c Gower & Richtarik (2015) error de harvcoltxt: múltiples objetivos (3 ×): CITEREFGowerRichtarik2015 ( ayuda )
^ Gower, Robert M .; Richtarik, Peter (2015). "Doble ascenso estocástico para la resolución de sistemas lineales". arXiv : 1512.06890 [ math.NA ].

Referencias

Kaczmarz, Stefan (1937), "Angenäherte Auflösung von Systemen linearer Gleichungen" (PDF) , Bulletin International de l'Académie Polonaise des Sciences et des Lettres. Classe des Sciences Mathématiques et Naturelles. Serie A, Sciences Mathématiques , 35 , págs. 355–357
Chong, Edwin KP; Zak, Stanislaw H. (2008), Introducción a la optimización (3ª ed.), John Wiley & Sons, págs. 226–230
Gordon, Richard ; Bender, Robert ; Herman, Gabor (1970), "Técnicas de reconstrucción algebraica (ART) para microscopía electrónica tridimensional y fotografía de rayos X", Journal of Theoretical Biology , 29 (3): 471–481, doi : 10.1016 / 0022-5193 (70) 90109 -8 , PMID 5492997
Gordon, Richard (2011), ¡ Alto al cáncer de mama ahora! Imaginar vías de obtención de imágenes hacia la búsqueda, destrucción, curación y espera vigilante del cáncer de mama premetastasis. En: Breast Cancer - A Lobar Disease, editor: Tibor Tot , Springer, págs. 167–203
Herman, Gabor (2009), Fundamentos de la tomografía computarizada: reconstrucción de imágenes a partir de la proyección (2a ed.), Springer
Censor, Yair ; Zenios, SA (1997), Optimización paralela: teoría, algoritmos y aplicaciones , Nueva York: Oxford University Press
Aster, Richard; Borchers, Brian; Thurber, Clifford (2004), Estimación de parámetros y problemas inversos , Elsevier
Strohmer, Thomas; Vershynin, Roman (2009), "Un algoritmo de Kaczmarz aleatorio para sistemas lineales con convergencia exponencial" (PDF) , Journal of Fourier Analysis and Applications , 15 (2): 262–278, arXiv : math / 0702226 , doi : 10.1007 / s00041 -008-9030-4
Needell, Deanna; Ward, Rachel; Srebro, Nati (2015), "Descenso de gradiente estocástico, muestreo ponderado y el algoritmo aleatorio de Kaczmarz", Programación matemática , 155 : 549–573, arXiv : 1310.5715 , doi : 10.1007 / s10107-015-0864-7
Censor, Yair; Herman, Gabor ; Jiang, M. (2009), "Una nota sobre el comportamiento del algoritmo aleatorio de Kaczmarz de Strohmer y Vershynin", Journal of Fourier Analysis and Applications , 15 (4): 431–436, doi : 10.1007 / s00041-009-9077 -x , PMC 2872793 , PMID 20495623
Strohmer, Thomas; Vershynin, Roman (2009b), "Comentarios sobre el método aleatorio de Kaczmarz", Journal of Fourier Analysis and Applications , 15 (4): 437–440, doi : 10.1007 / s00041-009-9082-0
Bass, Richard F .; Gröchenig, Karlheinz (2013), "Muestreo relevante de funciones limitadas por banda", Illinois Journal of Mathematics , 57 (1): 43–58
Gordon, Dan (2017), "Un enfoque de desaleatorización para recuperar señales de banda limitada en una amplia gama de frecuencias de muestreo aleatorio", Algoritmos numéricos , doi : 10.1007 / s11075-017-0356-3
Vinh Nguyen, Quang; Lumban Gaol, Ford (2011), Actas del Segundo Congreso Internacional de Aplicaciones y Ciencias Computacionales de 2011 , 2 , Springer, págs. 465–469
Gower, Robert; Richtarik, Peter (2015), "Métodos iterativos aleatorios para sistemas lineales", SIAM Journal on Matrix Analysis and Applications , 36 (4): 1660–1690, arXiv : 1506.03296 , doi : 10.1137 / 15M1025487
Gower, Robert; Richtarik, Peter (2015), "Ascenso dual estocástico para resolver sistemas lineales", arXiv : 1512.06890 [ math.NA ]

enlaces externos

[1] Un algoritmo de Kaczmarz aleatorizado con convergencia exponencial
[2] Comentarios sobre el método Kaczmarz aleatorizado

[1] Kaczmarz (1937)

[2] Gordon, Bender y Herman (1970)

[3] Gordon (2011)

[Herman2009-4] Herman (2009)

[5] Censor y Zenios (1997)

[6] Aster, Borchers y Thurber (2004)

[7] Ver Herman (2009) y referencias allí.

[Strohmer_Vershynin_2009-8] Strohmer y Vershynin (2009)

[Needell_Srebro_Ward_2014-9] Needell, Srebro y Ward (2009)

[Censor_Herman_Jiang_2009-10] Censor, Herman y Jiang (2009)

[11] Strohmer y Vershynin (2009b)

[12] Bass y Gröchenig (2013)

[13] Gordon (2017)

[Gower_Richtarik_2015-14] Gower & Richtarik (2015) error de harvcoltxt: múltiples objetivos (3 ×): CITEREFGowerRichtarik2015 ( ayuda )

[gower-richtarik2015.06890-15] Gower, Robert M .; Richtarik, Peter (2015). "Doble ascenso estocástico para la resolución de sistemas lineales". arXiv : 1512.06890 [ math.NA ].

[1]