Métodos numéricos para mínimos cuadrados lineales

Los métodos numéricos para mínimos cuadrados lineales implican el análisis numérico de problemas de mínimos cuadrados lineales .

Introducción

Un enfoque general del problema de mínimos cuadrados ${\ Displaystyle \ operatorname {\, min} \, {\ big \ |} \ mathbf {y} -X {\ boldsymbol {\ beta}} {\ big \ |} ^ {2}}$ se puede describir de la siguiente manera. Supongamos que podemos encontrar un n por m matriz S de tal manera que XS es una proyección ortogonal sobre la imagen de X . Entonces una solución a nuestro problema de minimización viene dada por

{\ Displaystyle {\ boldsymbol {\ beta}} = S \ mathbf {y}}

simplemente porque

{\ Displaystyle X {\ boldsymbol {\ beta}} = X (S \ mathbf {y}) = (XS) \ mathbf {y}}

es exactamente una proyección ortogonal de ${\ Displaystyle \ mathbf {y}}$ en una imagen de X ( vea la imagen a continuación y observe que, como se explica en la siguiente sección, la imagen de X es solo un subespacio generado por los vectores columna de X ). A continuación se describen algunas formas populares de encontrar dicha matriz S.

Invertir la matriz de las ecuaciones normales

La solución algebraica de las ecuaciones normales con una matriz de rango completo X ^TX se puede escribir como

{\ Displaystyle {\ hat {\ boldsymbol {\ beta}}} = (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} = \ mathbf {X} ^ {+} \ mathbf {y}}

donde X ⁺ es el pseudoinverso de X de Moore-Penrose . Aunque esta ecuación es correcta y puede funcionar en muchas aplicaciones, no es computacionalmente eficiente invertir la matriz de ecuaciones normales (la matriz de Gramian ). Se produce una excepción en el suavizado numérico y la diferenciación cuando se requiere una expresión analítica.

Si la matriz X ^TX está bien condicionada y definida positiva , lo que implica que tiene rango completo , las ecuaciones normales se pueden resolver directamente usando la descomposición de Cholesky R ^TR , donde R es una matriz triangular superior , dando:

{\ Displaystyle R ^ {\ rm {T}} R {\ hat {\ boldsymbol {\ beta}}} = X ^ {\ rm {T}} \ mathbf {y}.}

La solución se obtiene en dos etapas, un paso de sustitución hacia adelante , resolviendo para z :

{\ Displaystyle R ^ {\ rm {T}} \ mathbf {z} = X ^ {\ rm {T}} \ mathbf {y},}

seguido de una sustitución hacia atrás, resolviendo para ${\ Displaystyle {\ hat {\ boldsymbol {\ beta}}}}$ :

{\ Displaystyle R {\ hat {\ boldsymbol {\ beta}}} = \ mathbf {z}.}

Ambas sustituciones se ven facilitadas por la naturaleza triangular de R .

Métodos de descomposición ortogonal

Métodos de descomposición ortogonal de la solución del problema de mínimos cuadrados son más lentos que el método de ecuaciones normales pero son más estable numéricamente porque evitan la formación del producto X ^TX .

Los residuos se escriben en notación matricial como

{\ Displaystyle \ mathbf {r} = \ mathbf {y} -X {\ hat {\ boldsymbol {\ beta}}}.}

La matriz X se somete a una descomposición ortogonal, por ejemplo, la descomposición QR como sigue.

{\ Displaystyle X = Q {\ begin {pmatrix} R \\ 0 \ end {pmatrix}} \}

,

donde Q es una matriz ortogonal m × m ( Q ^TQ = I ) y R es una matriz triangular superior n × n con ${\ Displaystyle r_ {ii}> 0}$ .

El vector residual es de izquierda multiplicado por Q ^T .

{\ Displaystyle Q ^ {\ rm {T}} \ mathbf {r} = Q ^ {\ rm {T}} \ mathbf {y} - \ left (Q ^ {\ rm {T}} Q \ right) { \ begin {pmatrix} R \\ 0 \ end {pmatrix}} {\ hat {\ boldsymbol {\ beta}}} = {\ begin {bmatrix} \ left (Q ^ {\ rm {T}} \ mathbf {y } \ right) _ {n} -R {\ hat {\ boldsymbol {\ beta}}} \\\ left (Q ^ {\ rm {T}} \ mathbf {y} \ right) _ {mn} \ end {bmatrix}} = {\ begin {bmatrix} \ mathbf {u} \\\ mathbf {v} \ end {bmatrix}}}

Como Q es ortogonal , la suma de los cuadrados de los residuos, s , se puede escribir como:

{\ Displaystyle s = \ | \ mathbf {r} \ | ^ {2} = \ mathbf {r} ^ {\ rm {T}} \ mathbf {r} = \ mathbf {r} ^ {\ rm {T} } QQ ^ {\ rm {T}} \ mathbf {r} = \ mathbf {u} ^ {\ rm {T}} \ mathbf {u} + \ mathbf {v} ^ {\ rm {T}} \ mathbf {v}}

Dado que v no depende de β , el valor mínimo de s se obtiene cuando el bloque superior, u , es cero. Por tanto, los parámetros se encuentran resolviendo:

{\ Displaystyle R {\ hat {\ boldsymbol {\ beta}}} = \ left (Q ^ {\ rm {T}} \ mathbf {y} \ right) _ {n}.}

Estas ecuaciones se resuelven fácilmente ya que R es triangular superior.

Una descomposición alternativa de X es la descomposición en valor singular (SVD) ^[1]

{\ Displaystyle X = U \ Sigma V ^ {\ rm {T}} \}

,

donde U es m por m matriz ortogonal, V es n por n matriz ortogonal y ${\ Displaystyle \ Sigma}$ es una matriz de m por n con todos sus elementos fuera de la diagonal principal iguales a 0 . El pseudoinverso de ${\ Displaystyle \ Sigma}$ se obtiene fácilmente invirtiendo sus elementos diagonales distintos de cero y transponiendo. Por eso,

{\ Displaystyle \ mathbf {X} \ mathbf {X} ^ {+} = U \ Sigma V ^ {\ rm {T}} V \ Sigma ^ {+} U ^ {\ rm {T}} = UPU ^ { \ rm {T}},}

donde P se obtiene de ${\ Displaystyle \ Sigma}$ reemplazando sus elementos diagonales distintos de cero con unos. Desde ${\ Displaystyle (\ mathbf {X} \ mathbf {X} ^ {+}) ^ {*} = \ mathbf {X} \ mathbf {X} ^ {+}}$ (la propiedad de pseudoinverse), la matriz ${\ Displaystyle UPU ^ {\ rm {T}}}$ es una proyección ortogonal sobre la imagen (columna-espacio) de X . De acuerdo con un enfoque general descrito en la introducción anterior (encuentre XS que es una proyección ortogonal),

{\ Displaystyle S = \ mathbf {X} ^ {+}}

,

y por lo tanto,

{\ Displaystyle \ beta = V \ Sigma ^ {+} U ^ {\ rm {T}} \ mathbf {y}}

es una solución de un problema de mínimos cuadrados. Este método es el más intensivo en computación, pero es particularmente útil si la matriz de ecuaciones normales, X ^TX , está muy mal acondicionada (es decir, si su número de condición multiplicado por el error de redondeo relativo de la máquina es apreciablemente grande). En ese caso, incluir los valores singulares más pequeños en la inversión simplemente agrega ruido numérico a la solución. Esto se puede curar con el enfoque de SVD truncado, dando una respuesta más estable y exacta, estableciendo explícitamente en cero todos los valores singulares por debajo de un cierto umbral e ignorándolos, un proceso estrechamente relacionado con el análisis factorial .

Discusión

Los métodos numéricos para mínimos cuadrados lineales son importantes porque los modelos de regresión lineal se encuentran entre los tipos de modelos más importantes, tanto como modelos estadísticos formales como para la exploración de conjuntos de datos. La mayoría de los paquetes informáticos estadísticos contienen recursos para el análisis de regresión que utilizan cálculos lineales de mínimos cuadrados. Por lo tanto, es apropiado que se haya dedicado un esfuerzo considerable a la tarea de asegurar que estos cálculos se lleven a cabo de manera eficiente y con la debida consideración al error de redondeo .

Los análisis estadísticos individuales rara vez se realizan de forma aislada, sino que forman parte de una secuencia de pasos de investigación. Algunos de los temas involucrados en la consideración de métodos numéricos para mínimos cuadrados lineales se relacionan con este punto. Por tanto, los temas importantes pueden ser

Cálculos en los que se consideran varios modelos similares, y a menudo anidados , para el mismo conjunto de datos. Es decir, cuando se deben considerar modelos con la misma variable dependiente pero diferentes conjuntos de variables independientes , para esencialmente el mismo conjunto de puntos de datos.
Cálculos para análisis que ocurren en una secuencia, a medida que aumenta el número de puntos de datos.
Consideraciones especiales para conjuntos de datos muy extensos.

El ajuste de modelos lineales por mínimos cuadrados a menudo, pero no siempre, surge en el contexto del análisis estadístico . Por lo tanto, puede ser importante que las consideraciones de eficiencia de cálculo para tales problemas se extiendan a todas las cantidades auxiliares requeridas para tales análisis y no se restrinjan a la solución formal del problema de mínimos cuadrados lineales.

Los cálculos matriciales, como cualquier otro, se ven afectados por errores de redondeo . Wilkinson proporcionó un resumen inicial de estos efectos, con respecto a la elección de métodos de cálculo para la inversión de matrices. ^[2]

Ver también

Referencias

^ Lawson, CL; Hanson, RJ (1974). Resolver problemas de mínimos cuadrados . Englewood Cliffs, Nueva Jersey: Prentice-Hall. ISBN 0-13-822585-0.
^ Wilkinson, JH (1963) "Capítulo 3: Cálculos matriciales", Errores de redondeo en procesos algebraicos , Londres: Oficina de papelería de Su Majestad (Laboratorio nacional de física, Notas en ciencias aplicadas, No 32)

Otras lecturas

Ake Bjorck, Métodos numéricos para problemas de mínimos cuadrados , SIAM, 1996.
RW Farebrother, Cálculos de mínimos cuadrados lineales , CRC Press, 1988.
Barlow, Jesse L. (1993), "Capítulo 9: Aspectos numéricos de la resolución de problemas de mínimos cuadrados lineales", en Rao, CR (ed.), Computational Statistics , Handbook of Statistics, 9 , North-Holland, ISBN 0-444-88096-8
Björck, Åke (1996). Métodos numéricos para problemas de mínimos cuadrados . Filadelfia: SIAM. ISBN 0-89871-360-9.
Goodall, Colin R. (1993), "Capítulo 13: Computación usando la descomposición QR", en Rao, CR (ed.), Computational Statistics , Handbook of Statistics, 9 , North-Holland, ISBN 0-444-88096-8
Laboratorio Nacional de Física (1961), "Capítulo 1: Ecuaciones y matrices lineales: Métodos directos", Métodos informáticos modernos , Notas sobre ciencias aplicadas, 16 (2ª ed.), Oficina de papelería de Su Majestad
Laboratorio Nacional de Física (1961), "Capítulo 2: Ecuaciones y matrices lineales: Métodos directos en computadoras automáticas", Métodos de computación modernos , Notas sobre ciencias aplicadas, 16 (2a ed.), Oficina de papelería de Su Majestad

[1] Lawson, CL; Hanson, RJ (1974). Resolver problemas de mínimos cuadrados . Englewood Cliffs, Nueva Jersey: Prentice-Hall. ISBN 0-13-822585-0.

[2] Wilkinson, JH (1963) "Capítulo 3: Cálculos matriciales", Errores de redondeo en procesos algebraicos , Londres: Oficina de papelería de Su Majestad (Laboratorio nacional de física, Notas en ciencias aplicadas, No 32)

[1]