Cociente de Rayleigh

En matemáticas , el cociente de Rayleigh ^[1] ( / r eɪ . L i / ) para un complejo dado matriz hermitiana M y distinto de cero vector x se define como: ^[2]^[3]

{\ Displaystyle R (M, x) = {x ^ {*} Mx \ over x ^ {*} x}.}

Para matrices y vectores reales, la condición de ser hermitiano se reduce a la de ser simétrico , y la transposición conjugada ${\ Displaystyle x ^ {*}}$ a la transposición habitual ${\ Displaystyle x '}$ . Tenga en cuenta que ${\ Displaystyle R (M, cx) = R (M, x)}$ para cualquier escalar distinto de cero c . Recuerde que una matriz hermitiana (o simétrica real) es diagonalizable solo con valores propios reales . Se puede demostrar que, para una matriz dada, el cociente de Rayleigh alcanza su valor mínimo ${\ Displaystyle \ lambda _ {\ min}}$ (el valor propio más pequeño de M ) cuando x es ${\ Displaystyle v _ {\ min}}$ (el vector propio correspondiente ). ^[4] Del mismo modo, ${\ Displaystyle R (M, x) \ leq \ lambda _ {\ max}}$ y ${\ Displaystyle R (M, v _ {\ max}) = \ lambda _ {\ max}}$ .

El cociente de Rayleigh se utiliza en el teorema mínimo-máximo para obtener valores exactos de todos los valores propios. También se utiliza en algoritmos de valor propio (como la iteración del cociente de Rayleigh ) para obtener una aproximación de valor propio a partir de una aproximación de vector propio.

El rango del cociente de Rayleigh (para cualquier matriz, no necesariamente hermitiana) se llama rango numérico y contiene su espectro . Cuando la matriz es hermitiana, el rango numérico es igual a la norma espectral. Todavía en análisis funcional, ${\ Displaystyle \ lambda _ {\ max}}$ se conoce como radio espectral . En el contexto de C * -álgebras o mecánica cuántica algebraica, la función que a M asocia el cociente de Rayleigh-Ritz R ( M , x ) para una x fija y M que varía a través del álgebra se denominaría "estado vectorial" de el álgebra.

En mecánica cuántica , el cociente de Rayleigh da el valor esperado del observable correspondiente al operador M para un sistema cuyo estado está dado por x .

Si fijamos la matriz compleja M , entonces el mapa del cociente de Rayleigh resultante (considerado como una función de x ) determina completamente M a través de la identidad de polarización ; de hecho, esto sigue siendo cierto incluso si permitimos que M no sea hermitiano. (Sin embargo, si restringimos el campo de escalares a los números reales, entonces el cociente de Rayleigh solo determina la parte simétrica de M ).

Límites para Hermitian ${\ Displaystyle M}$

Como se indicó en la introducción, para cualquier vector x , uno tiene ${\ Displaystyle R (M, x) \ in \ left [\ lambda _ {\ min}, \ lambda _ {\ max} \ right]}$ , dónde ${\ Displaystyle \ lambda _ {\ min}, \ lambda _ {\ max}}$ son, respectivamente, los valores propios más pequeños y más grandes de ${\ Displaystyle M}$ . Esto es inmediato después de observar que el cociente de Rayleigh es un promedio ponderado de los valores propios de M :

{\ Displaystyle R (M, x) = {x ^ {*} Mx \ over x ^ {*} x} = {\ frac {\ sum _ {i = 1} ^ {n} \ lambda _ {i} y_ {i} ^ {2}} {\ sum _ {i = 1} ^ {n} y_ {i} ^ {2}}}}

dónde ${\ Displaystyle (\ lambda _ {i}, v_ {i})}$ es el ${\ Displaystyle i}$ el par propio después de la ortonormalización y ${\ Displaystyle y_ {i} = v_ {i} ^ {*} x}$ es el ${\ Displaystyle i}$ la coordenada de x en la base propia. Entonces es fácil verificar que los límites se alcanzan en los vectores propios correspondientes ${\ Displaystyle v _ {\ min}, v _ {\ max}}$ .

El hecho de que el cociente sea un promedio ponderado de los valores propios se puede utilizar para identificar el segundo, el tercero, ... los valores propios más grandes. Dejar ${\ Displaystyle \ lambda _ {\ max} = \ lambda _ {1} \ geq \ lambda _ {2} \ geq \ cdots \ geq \ lambda _ {n} = \ lambda _ {\ min}}$ sean los valores propios en orden decreciente. Si ${\ Displaystyle n = 2}$ y ${\ Displaystyle x}$ está restringido a ser ortogonal a ${\ Displaystyle v_ {1}}$ , en ese caso ${\ Displaystyle y_ {1} = v_ {1} ^ {*} x = 0}$ , luego ${\ Displaystyle R (M, x)}$ tiene valor máximo ${\ Displaystyle \ lambda _ {2}}$ , que se logra cuando ${\ Displaystyle x = v_ {2}}$ .

Caso especial de matrices de covarianza

Una matriz de covarianza empírica ${\ Displaystyle M}$ se puede representar como el producto ${\ Displaystyle A'A}$ de la matriz de datos ${\ Displaystyle A}$ multiplicado previamente por su transposición ${\ Displaystyle A '}$ . Al ser una matriz semidefinida positiva, ${\ Displaystyle M}$ tiene valores propios no negativos y vectores propios ortogonales (u ortogonalizables), que se pueden demostrar de la siguiente manera.

En primer lugar, que los valores propios ${\ Displaystyle \ lambda _ {i}}$ no son negativos:

{\ Displaystyle Mv_ {i} = A'Av_ {i} = \ lambda _ {i} v_ {i}}

{\ Displaystyle \ Rightarrow v_ {i} 'A'Av_ {i} = v_ {i}' \ lambda _ {i} v_ {i}}

{\ Displaystyle \ Rightarrow \ left \ | Av_ {i} \ right \ | ^ {2} = \ lambda _ {i} \ left \ | v_ {i} \ right \ | ^ {2}}

{\ Displaystyle \ Rightarrow \ lambda _ {i} = {\ frac {\ left \ | Av_ {i} \ right \ | ^ {2}} {\ left \ | v_ {i} \ right \ | ^ {2} }} \ geq 0.}

En segundo lugar, que los vectores propios ${\ Displaystyle v_ {i}}$ son ortogonales entre sí:

{\ Displaystyle {\ begin {align} & Mv_ {i} = \ lambda _ {i} v_ {i} \\ & \ Rightarrow v_ {j} 'Mv_ {i} = v_ {j}' \ lambda _ {i} v_ {i} \\ & \ Rightarrow \ left (Mv_ {j} \ right) 'v_ {i} = \ lambda _ {i} v_ {j}' v_ {i} \\ & \ Rightarrow \ lambda _ {j } v_ {j} 'v_ {i} = \ lambda _ {i} v_ {j}' v_ {i} \\ & \ Rightarrow \ left (\ lambda _ {j} - \ lambda _ {i} \ right) v_ {j} 'v_ {i} = 0 \\ & \ Rightarrow v_ {j}' v_ {i} = 0 \ end {alineado}}}

si los valores propios son diferentes, en el caso de multiplicidad, la base se puede ortogonalizar.

Para establecer ahora que el cociente de Rayleigh es maximizado por el autovector con el autovalor más grande, considere descomponer un vector arbitrario ${\ Displaystyle x}$ sobre la base de los vectores propios ${\ Displaystyle v_ {i}}$ :

{\ Displaystyle x = \ sum _ {i = 1} ^ {n} \ alpha _ {i} v_ {i},}

dónde

{\ Displaystyle \ alpha _ {i} = {\ frac {x'v_ {i}} {{v_ {i}} '{v_ {i}}}} = {\ frac {\ langle x, v_ {i} \ rangle} {\ left \ | v_ {i} \ right \ | ^ {2}}}}

es la coordenada de ${\ Displaystyle x}$ proyectado ortogonalmente sobre ${\ Displaystyle v_ {i}}$ . Por tanto, tenemos:

{\ Displaystyle {\ begin {alineado} R (M, x) & = {\ frac {x'A'Ax} {x'x}} \\ & = {\ frac {{\ Bigl (} \ sum _ { j = 1} ^ {n} \ alpha _ {j} v_ {j} {\ Bigr)} '\ left (A'A \ right) {\ Bigl (} \ sum _ {i = 1} ^ {n} \ alpha _ {i} v_ {i} {\ Bigr)}} {{\ bigl (} \ sum _ {j = 1} ^ {n} \ alpha _ {j} v_ {j} {\ Bigr)} ' {\ Bigl (} \ sum _ {i = 1} ^ {n} \ alpha _ {i} v_ {i} {\ Bigr)}}} \\ & = {\ frac {{\ Bigl (} \ sum _ {j = 1} ^ {n} \ alpha _ {j} v_ {j} {\ Bigr)} '{\ Bigl (} \ sum _ {i = 1} ^ {n} \ alpha _ {i} (A 'A) v_ {i} {\ Bigr)}} {{\ bigl (} \ sum _ {i = 1} ^ {n} \ alpha _ {i} ^ {2} {v_ {i}}' {v_ {i}} {\ Bigr)}}} \\ & = {\ frac {{\ Bigl (} \ sum _ {j = 1} ^ {n} \ alpha _ {j} v_ {j} {\ Bigr) } '{\ Bigl (} \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ lambda _ {i} v_ {i} {\ Bigr)}} {{\ bigl (} \ sum _ {i = 1} ^ {n} \ alpha _ {i} ^ {2} \ | {v_ {i}} \ | ^ {2} {\ Bigr)}}} \ end {alineado}}}

que, por ortonormalidad de los autovectores, se convierte en:

{\ Displaystyle {\ begin {alineado} R (M, x) & = {\ frac {\ sum _ {i = 1} ^ {n} \ alpha _ {i} ^ {2} \ lambda _ {i}} {\ sum _ {i = 1} ^ {n} \ alpha _ {i} ^ {2}}} \\ & = \ sum _ {i = 1} ^ {n} \ lambda _ {i} {\ frac {(x'v_ {i}) ^ {2}} {(x'x) (v_ {i} 'v_ {i}) ^ {2}}} \\ & = \ sum _ {i = 1} ^ {n} \ lambda _ {i} {\ frac {(x'v_ {i}) ^ {2}} {(x'x)}} \ end {alineado}}}

La última representación establece que el cociente de Rayleigh es la suma de los cosenos al cuadrado de los ángulos formados por el vector ${\ Displaystyle x}$ y cada vector propio ${\ Displaystyle v_ {i}}$ , ponderado por los valores propios correspondientes.

Si un vector ${\ Displaystyle x}$ maximiza ${\ Displaystyle R (M, x)}$ , entonces cualquier múltiplo escalar distinto de cero ${\ displaystyle kx}$ también maximiza ${\ Displaystyle R}$ , por lo que el problema se puede reducir al problema de Lagrange de maximizar ${\ Displaystyle \ sum _ {i = 1} ^ {n} \ alpha _ {i} ^ {2} \ lambda _ {i}}$ bajo la restricción de que ${\ Displaystyle \ sum _ {i = 1} ^ {n} \ alpha _ {i} ^ {2} = 1}$ .

Definir: ${\ Displaystyle \ beta _ {i} = \ alpha _ {i} ^ {2}}$ . Este se convierte entonces en un programa lineal , que siempre alcanza su máximo en una de las esquinas del dominio. Un punto máximo tendrá ${\ Displaystyle \ alpha _ {1} = \ pm 1}$ y ${\ Displaystyle \ alpha _ {i} = 0}$ para todos ${\ Displaystyle i> 1}$ (cuando los valores propios se ordenan por magnitud decreciente).

Por tanto, el cociente de Rayleigh se maximiza mediante el vector propio con el valor propio más grande.

Formulación usando multiplicadores de Lagrange

Alternativamente, se puede llegar a este resultado mediante el método de los multiplicadores de Lagrange . La primera parte es para mostrar que el cociente es constante bajo escala ${\ Displaystyle x \ to cx}$ , dónde ${\ Displaystyle c}$ es un escalar

{\ Displaystyle R (M, cx) = {\ frac {(cx) ^ {*} Mcx} {(cx) ^ {*} cx}} = {\ frac {c ^ {*} c} {c ^ { *} c}} {\ frac {x ^ {*} Mx} {x ^ {*} x}} = R (M, x).}

Debido a esta invariancia, es suficiente estudiar el caso especial ${\ Displaystyle \ | x \ | ^ {2} = x ^ {T} x = 1}$ . El problema es entonces encontrar los puntos críticos de la función

{\ Displaystyle R (M, x) = x ^ {T} Mx}

,

sujeto a la restricción ${\ Displaystyle \ | x \ | ^ {2} = x ^ {T} x = 1.}$ En otras palabras, es encontrar los puntos críticos de

{\ Displaystyle {\ mathcal {L}} (x) = x ^ {T} Mx- \ lambda \ left (x ^ {T} x-1 \ right),}

dónde ${\ Displaystyle \ lambda}$ es un multiplicador de Lagrange. Los puntos estacionarios de ${\ Displaystyle {\ mathcal {L}} (x)}$ ocurrir en

{\ displaystyle {\ begin {align} & {\ frac {d {\ mathcal {L}} (x)} {dx}} = 0 \\ & \ Rightarrow 2x ^ {T} M-2 \ lambda x ^ { T} = 0 \\ & \ Rightarrow 2Mx-2 \ lambda x = 0 \\ & \ Rightarrow Mx ​​= \ lambda x \ end {alineado}}}

y

{\ Displaystyle \ por lo tanto R (M, x) = {\ frac {x ^ {T} Mx} {x ^ {T} x}} = \ lambda {\ frac {x ^ {T} x} {x ^ { T} x}} = \ lambda.}

Por lo tanto, los vectores propios ${\ Displaystyle x_ {1}, \ ldots, x_ {n}}$ de ${\ Displaystyle M}$ son los puntos críticos del cociente de Rayleigh y sus valores propios correspondientes ${\ Displaystyle \ lambda _ {1}, \ ldots, \ lambda _ {n}}$ son los valores estacionarios de ${\ Displaystyle {\ mathcal {L}}}$ . Esta propiedad es la base para el análisis de componentes principales y la correlación canónica .

Uso en la teoría de Sturm-Liouville

La teoría de Sturm-Liouville se refiere a la acción del operador lineal

{\ Displaystyle L (y) = {\ frac {1} {w (x)}} \ left (- {\ frac {d} {dx}} \ left [p (x) {\ frac {dy} {dx }} \ derecha] + q (x) y \ derecha)}

en el espacio interior del producto definido por

{\ Displaystyle \ langle {y_ {1}, y_ {2}} \ rangle = \ int _ {a} ^ {b} w (x) y_ {1} (x) y_ {2} (x) \, dx }

de las funciones que satisface algunas especificados condiciones de contorno en una y b . En este caso, el cociente de Rayleigh es

{\ displaystyle {\ frac {\ langle {y, Ly} \ rangle} {\ langle {y, y} \ rangle}} = {\ frac {\ int _ {a} ^ {b} y (x) \ left (- {\ frac {d} {dx}} \ left [p (x) {\ frac {dy} {dx}} \ right] + q (x) y (x) \ right) dx} {\ int _ {a} ^ {b} {w (x) y (x) ^ {2}} dx}}.}

Esto a veces se presenta en una forma equivalente, obtenida separando la integral en el numerador y usando la integración por partes :

{\ Displaystyle {\ begin {alineado} {\ frac {\ langle {y, Ly} \ rangle} {\ langle {y, y} \ rangle}} & = {\ frac {\ left \ {\ int _ {a } ^ {b} y (x) \ left (- {\ frac {d} {dx}} \ left [p (x) y '(x) \ right] \ right) dx \ right \} + \ left \ {\ int _ {a} ^ {b} {q (x) y (x) ^ {2}} \, dx \ right \}} {\ int _ {a} ^ {b} {w (x) y (x) ^ {2}} \, dx}} \\ & = {\ frac {\ left \ {\ left.-y (x) \ left [p (x) y '(x) \ right] \ right | _ {a} ^ {b} \ right \} + \ left \ {\ int _ {a} ^ {b} y '(x) \ left [p (x) y' (x) \ right] \, dx \ right \} + \ left \ {\ int _ {a} ^ {b} {q (x) y (x) ^ {2}} \, dx \ right \}} {\ int _ {a} ^ {b} w (x) y (x) ^ {2} \, dx}} \\ & = {\ frac {\ left \ {\ left.-p (x) y (x) y '(x) \ derecha | _ {a} ^ {b} \ derecha \} + \ izquierda \ {\ int _ {a} ^ {b} \ izquierda [p (x) y '(x) ^ {2} + q (x) y (x) ^ {2} \ right] \, dx \ right \}} {\ int _ {a} ^ {b} {w (x) y (x) ^ {2}} \, dx}}. \ end {alineado}}}

Generalizaciones

Para un par dado ( A , B ) de matrices y un vector x distinto de cero , el cociente de Rayleigh generalizado se define como:
${\ displaystyle R (A, B; x): = {\ frac {x ^ {*} Ax} {x ^ {*} Bx}}.}$
El cociente de Rayleigh generalizado se puede reducir al cociente de Rayleigh ${\ Displaystyle R (D, C ^ {*} x)}$ a través de la transformación ${\ Displaystyle D = C ^ {- 1} A {C ^ {*}} ^ {- 1}}$ dónde ${\ Displaystyle CC ^ {*}}$ es la descomposición de Cholesky de la hermitiana de la matriz definida positiva B .
Para un par dado ( x , y ) de vectores distintos de cero, y una matriz de Hermitian dada H , el cociente de Rayleigh generalizado se puede definir como:
${\ Displaystyle R (H; x, y): = {\ frac {y ^ {*} Hx} {\ sqrt {y ^ {*} y \ cdot x ^ {*} x}}}}$
que coincide con R ( H , x ) cuando x = y . En mecánica cuántica, esta cantidad se denomina "elemento de matriz" o, a veces, "amplitud de transición".

Ver también

Referencias

^ También conocida como relación Rayleigh-Ritz ; nombrado en honor a Walther Ritz y Lord Rayleigh .
^ Cuerno, RA; Johnson, CA (1985). Análisis matricial . Prensa de la Universidad de Cambridge. págs. 176–180. ISBN 0-521-30586-1.
^ Parlett, BN (1998). El problema del valor propio simétrico . Clásicos de Matemática Aplicada. SIAM. ISBN 0-89871-402-8.
^ Costin, Rodica D. (2013). "Notas de mitad de período" (PDF) . Matemáticas 5102 Matemáticas lineales en dimensiones infinitas, notas de clase . La Universidad Estatal de Ohio.

Otras lecturas

Shi Yu, Léon-Charles Tranchevent, Bart Moor, Yves Moreau, Fusión de datos basada en kernel para aprendizaje automático: métodos y aplicaciones en bioinformática y minería de textos , cap. 2, Springer, 2011.

[1] También conocida como relación Rayleigh-Ritz ; nombrado en honor a Walther Ritz y Lord Rayleigh .

[2] Cuerno, RA; Johnson, CA (1985). Análisis matricial . Prensa de la Universidad de Cambridge. págs. 176–180. ISBN 0-521-30586-1.

[3] Parlett, BN (1998). El problema del valor propio simétrico . Clásicos de Matemática Aplicada. SIAM. ISBN 0-89871-402-8.

[4] Costin, Rodica D. (2013). "Notas de mitad de período" (PDF) . Matemáticas 5102 Matemáticas lineales en dimensiones infinitas, notas de clase . La Universidad Estatal de Ohio.

[1]