Mínimos cuadrados generalizados

En estadística , los mínimos cuadrados generalizados ( GLS ) es una técnica para estimar los parámetros desconocidos en un modelo de regresión lineal cuando existe un cierto grado de correlación entre los residuos en un modelo de regresión . En estos casos, mínimos cuadrados ordinarios y mínimos cuadrados ponderados pueden ser estadísticamente ineficaz , o incluso dar engañosas inferencias . El GLS fue descrito por primera vez por Alexander Aitken en 1936. ^[1]

Esquema del método

En modelos de regresión lineal estándar observamos datos ${\ Displaystyle \ {y_ {i}, x_ {ij} \} _ {i = 1, \ dots, n, j = 2, \ dots, k}}$ en n unidades estadísticas . Los valores de respuesta se colocan en un vector ${\ Displaystyle \ mathbf {y} = \ left (y_ {1}, \ dots, y_ {n} \ right) ^ {\ mathsf {T}}}$ , y los valores del predictor se colocan en la matriz de diseño. ${\ Displaystyle \ mathbf {X} = \ left (\ mathbf {x} _ {1} ^ {\ mathsf {T}}, \ dots, \ mathbf {x} _ {n} ^ {\ mathsf {T}} \ right) ^ {\ mathsf {T}}}$ , dónde ${\ Displaystyle \ mathbf {x} _ {i} = \ left (1, x_ {i2}, \ dots, x_ {ik} \ right)}$ es un vector de las k variables predictoras (incluida una constante) para la i- ésima unidad. El modelo fuerza la media condicional de ${\ Displaystyle \ mathbf {y}}$ dado ${\ Displaystyle \ mathbf {X}}$ ser una función lineal de ${\ Displaystyle \ mathbf {X}}$ , y asume la varianza condicional del término de error dado ${\ Displaystyle \ mathbf {X}}$ es una matriz de covarianza no singular conocida ${\ Displaystyle \ mathbf {\ Omega}}$ . Esto generalmente se escribe como

{\ Displaystyle \ mathbf {y} = \ mathbf {X} \ mathbf {\ beta} + \ mathbf {\ varepsilon}, \ qquad \ operatorname {E} [\ varepsilon \ mid \ mathbf {X}] = 0, \ \ operatorname {Cov} [\ varepsilon \ mid \ mathbf {X}] = \ mathbf {\ Omega}.}

Aquí ${\ Displaystyle \ beta \ in \ mathbb {R} ^ {k}}$ es un vector de constantes desconocidas (conocidas como “coeficientes de regresión”) que deben estimarse a partir de los datos.

Suponer ${\ Displaystyle \ mathbf {b}}$ es una estimación candidata para ${\ Displaystyle \ mathbf {\ beta}}$ . Entonces el vector residual para ${\ Displaystyle \ mathbf {b}}$ estarán ${\ Displaystyle \ mathbf {y} - \ mathbf {X} \ mathbf {b}}$ . Estimaciones del método de mínimos cuadrados generalizados ${\ Displaystyle \ mathbf {\ beta}}$ minimizando la longitud de Mahalanobis al cuadrado de este vector residual:

{\ Displaystyle \ mathbf {\ hat {\ beta}} = {\ underset {b} {\ operatorname {argmin}}} \, (\ mathbf {y} - \ mathbf {X} \ mathbf {b}) ^ { \ mathsf {T}} \, \ mathbf {\ Omega} ^ {- 1} (\ mathbf {y} - \ mathbf {X} \ mathbf {b}),}

Dado que el objetivo es una forma cuadrática en ${\ Displaystyle \ mathbf {b}}$ , el estimador tiene una fórmula explícita:

{\ Displaystyle \ mathbf {\ hat {\ beta}} = \ left (\ mathbf {X} ^ {\ mathsf {T}} \ mathbf {\ Omega} ^ {- 1} \ mathbf {X} \ right) ^ {-1} \ mathbf {X} ^ {\ mathsf {T}} \ mathbf {\ Omega} ^ {- 1} \ mathbf {y}.}

Propiedades

El estimador GLS es insesgado , consistente , eficiente y asintóticamente normal con ${\ Displaystyle \ operatorname {E} [{\ hat {\ beta}} \ mid \ mathbf {X}] = \ beta}$ y ${\ Displaystyle \ operatorname {Cov} [{\ hat {\ beta}} \ mid \ mathbf {X}] = (\ mathbf {X} ^ {\ mathsf {T}} \ Omega ^ {- 1} \ mathbf { X}) ^ {- 1}}$ . GLS es equivalente a aplicar mínimos cuadrados ordinarios a una versión transformada linealmente de los datos. Para ver esto, factor ${\ Displaystyle \ mathbf {\ Omega} = \ mathbf {C} \ mathbf {C} ^ {\ mathsf {T}}}$ , por ejemplo utilizando la descomposición de Cholesky . Entonces, si pre-multiplicamos ambos lados de la ecuación ${\ Displaystyle \ mathbf {y} = \ mathbf {X} \ mathbf {\ beta} + \ mathbf {\ varepsilon}}$ por ${\ Displaystyle \ mathbf {C} ^ {- 1}}$ , obtenemos un modelo lineal equivalente ${\ Displaystyle \ mathbf {y} ^ {*} = \ mathbf {X} ^ {*} \ mathbf {\ beta} + \ mathbf {\ varepsilon} ^ {*}}$ dónde ${\ Displaystyle \ mathbf {y} ^ {*} = \ mathbf {C} ^ {- 1} \ mathbf {y}}$ , ${\ Displaystyle \ mathbf {X} ^ {*} = \ mathbf {C} ^ {- 1} \ mathbf {X}}$ , y ${\ Displaystyle \ mathbf {\ varepsilon} ^ {*} = \ mathbf {C} ^ {- 1} \ mathbf {\ varepsilon}}$ . En este modelo ${\ Displaystyle \ operatorname {Var} [\ varepsilon ^ {*} \ mid \ mathbf {X}] = \ mathbf {C} ^ {- 1} \ mathbf {\ Omega} \ left (\ mathbf {C} ^ { -1} \ right) ^ {\ mathsf {T}} = \ mathbf {I}}$ , dónde ${\ Displaystyle \ mathbf {I}}$ es la matriz de identidad . Por lo tanto, podemos estimar de manera eficiente ${\ Displaystyle \ mathbf {\ beta}}$ aplicando mínimos cuadrados ordinarios (MCO) a los datos transformados, lo que requiere minimizar

{\ Displaystyle \ left (\ mathbf {y} ^ {*} - \ mathbf {X} ^ {*} \ mathbf {\ beta} \ right) ^ {\ mathsf {T}} (\ mathbf {y} ^ { *} - \ mathbf {X} ^ {*} \ mathbf {\ beta}) = (\ mathbf {y} - \ mathbf {X} \ mathbf {b}) ^ {\ mathsf {T}} \, \ mathbf {\ Omega} ^ {- 1} (\ mathbf {y} - \ mathbf {X} \ mathbf {b}).}

Esto tiene el efecto de estandarizar la escala de los errores y “descorrelacionarlos”. Dado que MCO se aplica a datos con errores homocedásticos, se aplica el teorema de Gauss-Markov y, por lo tanto, la estimación de GLS es el mejor estimador lineal insesgado para β .

Mínimos cuadrados ponderados

Un caso especial de GLS llamado mínimos cuadrados ponderados (WLS) ocurre cuando todas las entradas fuera de la diagonal de Ω son 0. Esta situación surge cuando las varianzas de los valores observados son desiguales (es decir, hay heterocedasticidad presente), pero donde no existen correlaciones entre las variaciones observadas. El peso de la unidad i es proporcional al recíproco de la varianza de la respuesta de la unidad i . ^[2]

Mínimos cuadrados generalizados factibles

Si la covarianza de los errores ${\ Displaystyle \ Omega}$ es desconocido, se puede obtener una estimación consistente de ${\ Displaystyle \ Omega}$ , decir ${\ Displaystyle {\ widehat {\ Omega}}}$ , ^[3] utilizando una versión implementable de GLS conocida como estimador de mínimos cuadrados generalizados factibles ( FGLS ). En FGLS, el modelado procede en dos etapas: (1) el modelo es estimado por MCO u otro estimador consistente (pero ineficiente), y los residuales se usan para construir un estimador consistente de la matriz de covarianza de errores (para hacerlo, a menudo se necesita para examinar el modelo agregando restricciones adicionales, por ejemplo, si los errores siguen un proceso de series de tiempo, un estadístico generalmente necesita algunos supuestos teóricos sobre este proceso para asegurarse de que esté disponible un estimador consistente); y (2) utilizando el estimador consistente de la matriz de covarianza de los errores, se pueden implementar ideas GLS.

Mientras que GLS es más eficiente que OLS bajo heterocedasticidad o autocorrelación , esto no es cierto para FGLS. El estimador factible es, siempre que la matriz de covarianza de errores se calcule de manera consistente, asintóticamente más eficiente, pero para una muestra de tamaño pequeño o mediano, en realidad puede ser menos eficiente que MCO. Por eso, algunos autores prefieren utilizar MCO y reformular sus inferencias simplemente considerando un estimador alternativo para la varianza del estimador robusto a la heteroscedasticidad o autocorrelación en serie. Pero para muestras grandes, se prefiere FGLS sobre OLS bajo heterocedasticidad o correlación serial. ^[3] ^[4] Una nota de advertencia es que el estimador FGLS no siempre es consistente. Un caso en el que FGLS puede ser inconsistente es si hay efectos fijos específicos individuales. ^[5]

En general, este estimador tiene propiedades diferentes a GLS. Para muestras grandes (es decir, asintóticamente) todas las propiedades son (en condiciones apropiadas) comunes con respecto a GLS, pero para muestras finitas se desconocen las propiedades de los estimadores FGLS: varían dramáticamente con cada modelo en particular y, como regla general, sus distribuciones exactas. no se puede derivar analíticamente. Para muestras finitas, FGLS puede ser incluso menos eficiente que OLS en algunos casos. Por lo tanto, aunque GLS puede ser factible, no siempre es prudente aplicar este método cuando la muestra es pequeña. Un método que a veces se utiliza para mejorar la precisión de los estimadores en muestras finitas es iterar, es decir, tomar los residuales de FGLS para actualizar el estimador de covarianza de errores y luego actualizar la estimación de FGLS, aplicando la misma idea de manera iterativa hasta que los estimadores varíen menos que algunos. tolerancia. Pero este método no necesariamente mejora mucho la eficiencia del estimador si la muestra original era pequeña. Una opción razonable cuando las muestras no son demasiado grandes es aplicar MCO, pero descartando el estimador de varianza clásico

{\ Displaystyle \ sigma ^ {2} * (X'X) ^ {- 1}}

(que es inconsistente en este marco) y usando un estimador HAC (Heteroscedasticidad y Autocorrelación Consistente). Por ejemplo, en el contexto de autocorrelación podemos usar el estimador de Bartlett (a menudo conocido como estimador de Newey-West ya que estos autores popularizaron el uso de este estimador entre los econometristas en su artículo de Econometrica de 1987 ), y en el contexto heterocedástico podemos usar el estimador de Eicker-White . Este enfoque es mucho más seguro y es el camino apropiado a seguir, a menos que la muestra sea grande, y "grande" es a veces un problema resbaladizo (por ejemplo, si la distribución de errores es asimétrica, la muestra requerida sería mucho mayor).

El estimador de mínimos cuadrados ordinarios (MCO) se calcula como de costumbre mediante

{\ Displaystyle {\ widehat {\ beta}} _ {\ text {OLS}} = (X'X) ^ {- 1} X'y}

y estimaciones de los residuos ${\ Displaystyle {\ widehat {u}} _ {j} = (YX {\ widehat {\ beta}} _ {\ text {OLS}}) _ {j}}$ están construidos.

Para simplificar, considere el modelo de errores heterocedásticos. Suponga que la matriz de varianza-covarianza ${\ Displaystyle \ Omega}$ del vector de error es diagonal, o de manera equivalente, que los errores de distintas observaciones no están correlacionados. Entonces, cada entrada diagonal puede ser estimada por los residuos ajustados ${\ Displaystyle {\ widehat {u}} _ {j}}$ entonces ${\ Displaystyle {\ widehat {\ Omega}} _ {OLS}}$ puede ser construido por

{\ displaystyle {\ widehat {\ Omega}} _ {\ text {OLS}} = \ operatorname {diag} ({\ widehat {\ sigma}} _ {1} ^ {2}, {\ widehat {\ sigma} } _ {2} ^ {2}, \ dots, {\ widehat {\ sigma}} _ {n} ^ {2}).}

Es importante notar que los residuos cuadrados no se pueden usar en la expresión anterior; necesitamos un estimador de las varianzas de errores. Para ello, podemos utilizar un modelo de heterocedasticidad paramétrico o un estimador no paramétrico. Una vez cumplido este paso, podemos proceder:

Estimar ${\ Displaystyle \ beta _ {FGLS1}}$ utilizando ${\ Displaystyle {\ widehat {\ Omega}} _ {\ text {OLS}}}$ usando ^[4] mínimos cuadrados ponderados

{\ displaystyle {\ widehat {\ beta}} _ {FGLS1} = (X '{\ widehat {\ Omega}} _ {\ text {OLS}} ^ {- 1} X) ^ {- 1} X' { \ widehat {\ Omega}} _ {\ text {OLS}} ^ {- 1} y}

El procedimiento puede repetirse. La primera iteración viene dada por

{\ Displaystyle {\ widehat {u}} _ {FGLS1} = YX {\ widehat {\ beta}} _ {FGLS1}}

{\ displaystyle {\ widehat {\ Omega}} _ {FGLS1} = \ operatorname {diag} ({\ widehat {\ sigma}} _ {FGLS1,1} ^ {2}, {\ widehat {\ sigma}} _ {FGLS1,2} ^ {2}, \ dots, {\ widehat {\ sigma}} _ {FGLS1, n} ^ {2})}

{\ displaystyle {\ widehat {\ beta}} _ {FGLS2} = (X '{\ widehat {\ Omega}} _ {FGLS1} ^ {- 1} X) ^ {- 1} X' {\ widehat {\ Omega}} _ {FGLS1} ^ {- 1} y}

Esta estimación de ${\ Displaystyle {\ widehat {\ Omega}}}$ se puede iterar hasta la convergencia.

En condiciones de regularidad, cualquiera de los estimadores FGLS (o el de cualquiera de sus iteraciones, si iteramos un número finito de veces) se distribuye asintóticamente como

{\ displaystyle {\ sqrt {n}} ({\ hat {\ beta}} _ {FGLS} - \ beta) \ {\ xrightarrow {d}} \ {\ mathcal {N}} \! \ left (0, \, V \ derecha).}

donde n es el tamaño de la muestra y

{\ Displaystyle V = \ operatorname {p-lim} (X '\ Omega ^ {- 1} X / T)}

aquí p-lim significa límite de probabilidad

Ver también

Referencias

^ Aitken, AC (1936). "Sobre mínimos cuadrados y combinaciones lineales de observaciones". Actas de la Royal Society of Edinburgh . 55 : 42–48.
^ Strutz, T. (2016). Ajuste de datos e incertidumbre (una introducción práctica a los mínimos cuadrados ponderados y más) . Springer Vieweg. ISBN 978-3-658-11455-8., Capítulo 3
↑ ^a ^b Baltagi, BH (2008). Econometría (4ª ed.). Nueva York: Springer.
↑ a b Greene, WH (2003). Análisis econométrico (5ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
^ Hansen, Christian B. (2007). "Inferencia de mínimos cuadrados generalizada en modelos de panel y multinivel con correlación serial y efectos fijos". Revista de Econometría . 140 (2): 670–694. doi : 10.1016 / j.jeconom.2006.07.011 .

Otras lecturas

Amemiya, Takeshi (1985). "Teoría de mínimos cuadrados generalizada" . Econometría avanzada . Prensa de la Universidad de Harvard. ISBN 0-674-00560-0.
Johnston, John (1972). "Mínimos cuadrados generalizados" . Métodos econométricos (Segunda ed.). Nueva York: McGraw-Hill. págs. 208–242.
Kmenta, Jan (1986). "Modelo de regresión lineal generalizada y sus aplicaciones" . Elements of Econometrics (Segunda ed.). Nueva York: Macmillan. págs. 607–650. ISBN 0-472-10886-7.

[1] Aitken, AC (1936). "Sobre mínimos cuadrados y combinaciones lineales de observaciones". Actas de la Royal Society of Edinburgh . 55 : 42–48.

[2] Strutz, T. (2016). Ajuste de datos e incertidumbre (una introducción práctica a los mínimos cuadrados ponderados y más) . Springer Vieweg. ISBN 978-3-658-11455-8., Capítulo 3

[Baltagi2008-3] Baltagi, BH (2008). Econometría (4ª ed.). Nueva York: Springer.

[Greene2003-4] Greene, WH (2003). Análisis econométrico (5ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.

[5] Hansen, Christian B. (2007). "Inferencia de mínimos cuadrados generalizada en modelos de panel y multinivel con correlación serial y efectos fijos". Revista de Econometría . 140 (2): 670–694. doi : 10.1016 / j.jeconom.2006.07.011 .

[1]