Teorema de Gauss-Markov

En las estadísticas , el teorema de Gauss-Markov (o simplemente teorema de Gauss para algunos autores) ^[1] establece que el de mínimos cuadrados ordinarios (MCO) tiene la más baja varianza del muestreo dentro de la clase de los lineales imparciales estimadores , si los errores en la regresión lineal Los modelos no están correlacionados , tienen varianzas iguales y un valor esperado de cero. ^[2] Los errores no necesitan ser normales , ni necesitan ser independientes y distribuidos de forma idéntica.(solo no correlacionado con media cero y homocedástico con varianza finita). El requisito de que el estimador sea insesgado no puede descartarse, ya que existen estimadores sesgados con menor varianza. Véase, por ejemplo, el estimador de James-Stein (que también reduce la linealidad), la regresión de crestas o simplemente cualquier estimador degenerado .

El teorema lleva el nombre de Carl Friedrich Gauss y Andrey Markov , aunque el trabajo de Gauss es significativamente anterior al de Markov. ^[3] Pero mientras Gauss obtuvo el resultado bajo el supuesto de independencia y normalidad, Markov redujo los supuestos a la forma indicada anteriormente. ^[4] Alexander Aitken dio una generalización adicional a los errores no esféricos . ^[5]

Declaración

Supongamos que tenemos en notación matricial,

{\ Displaystyle {\ underline {y}} = X {\ underline {\ beta}} + {\ underline {\ varepsilon}}, \ quad ({\ underline {y}}, {\ underline {\ varepsilon}} \ in \ mathbb {R} ^ {n}, {\ underline {\ beta}} \ in \ mathbb {R} ^ {K} {\ text {y}} X \ in \ mathbb {R} ^ {n \ times K})}

expandiéndose a,

{\ Displaystyle y_ {i} = \ sum _ {j = 1} ^ {K} \ beta _ {j} X_ {ij} + \ varepsilon _ {i} \ quad \ forall i = 1,2, \ ldots, norte}

dónde ${\ Displaystyle \ beta _ {j}}$ son parámetros no aleatorios pero no observables, ${\ Displaystyle X_ {ij}}$ son no aleatorias y observables (denominadas "variables explicativas"), ${\ Displaystyle \ varepsilon _ {i}}$ son aleatorios, y entonces ${\ Displaystyle y_ {i}}$ son aleatorios. Las variables aleatorias ${\ Displaystyle \ varepsilon _ {i}}$ se denominan "perturbación", "ruido" o simplemente "error" (se contrastará con "residual" más adelante en el artículo; ver errores y residuales en las estadísticas ). Tenga en cuenta que para incluir una constante en el modelo anterior, se puede optar por introducir la constante como una variable ${\ Displaystyle \ beta _ {K + 1}}$ con una última columna recién introducida de X que es la unidad, es decir, ${\ Displaystyle X_ {i (K + 1)} = 1}$ para todos ${\ Displaystyle i}$ . Tenga en cuenta que aunque ${\ Displaystyle y_ {i},}$ como respuestas de muestra, son observables, las siguientes declaraciones y argumentos, incluidos supuestos, pruebas y los demás asumen bajo la única condición de saber ${\ Displaystyle X_ {ij},}$ pero no ${\ Displaystyle y_ {i}.}$

Los supuestos de Gauss-Markov se refieren al conjunto de variables aleatorias de error, ${\ Displaystyle \ varepsilon _ {i}}$ :

Tienen media cero: ${\ Displaystyle \ operatorname {E} [\ varepsilon _ {i}] = 0.}$
Son homocedásticos , es decir, todos tienen la misma varianza finita: ${\ Displaystyle \ operatorname {Var} (\ varepsilon _ {i}) = \ sigma ^ {2} <\ infty}$ para todos ${\ Displaystyle i}$ y
Los distintos términos de error no están correlacionados: ${\ Displaystyle {\ text {Cov}} (\ varepsilon _ {i}, \ varepsilon _ {j}) = 0, \ forall i \ neq j.}$

Un estimador lineal de ${\ Displaystyle \ beta _ {j}}$ es una combinación lineal

{\ Displaystyle {\ widehat {\ beta}} _ {j} = c_ {1j} y_ {1} + \ cdots + c_ {nj} y_ {n}}

en el que los coeficientes ${\ Displaystyle c_ {ij}}$ no se les permite depender de los coeficientes subyacentes ${\ Displaystyle \ beta _ {j}}$ , ya que no son observables, pero se permite que dependan de los valores ${\ Displaystyle X_ {ij}}$ , ya que estos datos son observables. (La dependencia de los coeficientes de cada ${\ Displaystyle X_ {ij}}$ es típicamente no lineal; el estimador es lineal en cada ${\ Displaystyle y_ {i}}$ y por lo tanto en cada azar ${\ Displaystyle \ varepsilon,}$ razón por la cual se trata de una regresión "lineal" ). Se dice que el estimador es insesgado si y solo si

{\ Displaystyle \ operatorname {E} \ left [{\ widehat {\ beta}} _ {j} \ right] = \ beta _ {j}}

independientemente de los valores de ${\ Displaystyle X_ {ij}}$ . Ahora deja ${\ Displaystyle \ sum \ nolimits _ {j = 1} ^ {K} \ lambda _ {j} \ beta _ {j}}$ ser una combinación lineal de los coeficientes. Entonces el error cuadrático medio de la estimación correspondiente es

{\ Displaystyle \ operatorname {E} \ left [\ left (\ sum _ {j = 1} ^ {K} \ lambda _ {j} \ left ({\ widehat {\ beta}} _ {j} - \ beta _ {j} \ derecha) \ derecha) ^ {2} \ derecha],}

en otras palabras, es la expectativa del cuadrado de la suma ponderada (entre parámetros) de las diferencias entre los estimadores y los parámetros correspondientes a estimar. (Dado que estamos considerando el caso en el que todas las estimaciones de los parámetros son insesgadas, este error cuadrático medio es el mismo que la varianza de la combinación lineal). El mejor estimador lineal insesgado (AZUL) del vector ${\ Displaystyle \ beta}$ de parámetros ${\ Displaystyle \ beta _ {j}}$ es uno con el error cuadrático medio más pequeño para cada vector ${\ Displaystyle \ lambda}$ de parámetros de combinación lineal. Esto es equivalente a la condición de que

{\ Displaystyle \ operatorname {Var} \ left ({\ widetilde {\ beta}} \ right) - \ operatorname {Var} \ left ({\ widehat {\ beta}} \ right)}

es una matriz semidefinida positiva para cualquier otro estimador lineal insesgado ${\ displaystyle {\ widetilde {\ beta}}}$ .

El estimador de mínimos cuadrados ordinarios (MCO) es la función

{\ displaystyle {\ widehat {\ beta}} = (X'X) ^ {- 1} X'y}

de ${\ Displaystyle y}$ y ${\ Displaystyle X}$ (dónde ${\ Displaystyle X '}$ denota la transposición de ${\ Displaystyle X}$ ) que minimiza la suma de cuadrados de los residuos (cantidades de predicción errónea):

{\ Displaystyle \ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {y}} _ {i} \ right) ^ {2} = \ sum _ {i = 1} ^ {n} \ left (y_ {i} - \ sum _ {j = 1} ^ {K} {\ widehat {\ beta}} _ {j} X_ {ij} \ right) ^ {2}.}

El teorema ahora establece que el estimador MCO es AZUL. La idea principal de la prueba es que el estimador de mínimos cuadrados no está correlacionado con cada estimador lineal insesgado de cero, es decir, con cada combinación lineal. ${\ Displaystyle a_ {1} y_ {1} + \ cdots + a_ {n} y_ {n}}$ cuyos coeficientes no dependen de lo no observable ${\ Displaystyle \ beta}$ pero cuyo valor esperado es siempre cero.

Observación

La prueba de que el MCO efectivamente MINIMIZA la suma de cuadrados de los residuos puede proceder de la siguiente manera con un cálculo de la matriz de Hesse y mostrando que es positiva definida.

La función MSE que queremos minimizar es

${\ Displaystyle f (\ beta _ {0}, \ beta _ {1}, \ dots, \ beta _ {p}) = \ sum _ {i = 1} ^ {n} (y_ {i} - \ beta _ {0} - \ beta _ {1} x_ {i1} - \ dots - \ beta _ {p} x_ {ip}) ^ {2}}$

para un modelo de regresión múltiple con p variables. La primera derivada es

${\ displaystyle {\ begin {alineado} {\ frac {d} {d {\ overrightarrow {\ beta}}}} f & = - 2X ^ {T} ({\ overrightarrow {y}} - X {\ overrightarrow {\ beta}}) \\ & = - 2 {\ begin {bmatrix} \ sum _ {i = 1} ^ {n} (y_ {i} - \ dots - \ beta _ {p} x_ {ip}) \\ \ sum _ {i = 1} ^ {n} x_ {i1} (y_ {i} - \ puntos - \ beta _ {p} x_ {ip}) \\\ vdots \\\ sum _ {i = 1} ^ {n} x_ {ip} (y_ {i} - \ puntos - \ beta _ {p} x_ {ip}) \ end {bmatrix}} \\ & = {\ overrightarrow {0}} _ {p + 1 } \ end {alineado}}}$

, donde X es la matriz de diseño

${\ displaystyle X = {\ begin {bmatrix} 1 & x_ {11} & \ dots & x_ {1p} \\ 1 & x_ {21} & \ dots & x_ {2p} \\ && \ dots \\ 1 & x_ {n1} & \ dots & x_ {np} \ end {bmatrix}} \ in \ mathbb {R} ^ {n \ times (p + 1)}; \ qquad n \ geqslant p + 1}$

La matriz de Hesse de segundas derivadas es

${\ Displaystyle {\ mathcal {H}} = 2 {\ begin {bmatrix} n & \ sum _ {i = 1} ^ {n} x_ {i1} & \ dots & \ sum _ {i = 1} ^ {n } x_ {ip} \\\ sum _ {i = 1} ^ {n} x_ {i1} & \ sum _ {i = 1} ^ {n} x_ {i1} ^ {2} & \ dots & \ sum _ {i = 1} ^ {n} x_ {i1} x_ {ip} \\\ vdots & \ vdots & \ ddots & \ vdots \\\ sum _ {i = 1} ^ {n} x_ {ip} & \ sum _ {i = 1} ^ {n} x_ {ip} x_ {i1} & \ dots & \ sum _ {i = 1} ^ {n} x_ {ip} ^ {2} \ end {bmatrix}} = 2X ^ {T} X}$

Suponiendo que las columnas de ${\ Displaystyle X}$ son linealmente independientes de modo que ${\ Displaystyle X ^ {T} X}$ es invertible, deja ${\ displaystyle X = {\ begin {bmatrix} {\ overrightarrow {v_ {1}}} y {\ overrightarrow {v_ {2}}} & \ dots & {\ overrightarrow {v}} _ {p + 1} \ end {bmatrix}}}$ , luego

${\ Displaystyle k_ {1} {\ overrightarrow {v_ {1}}} + \ dots + k_ {p + 1} {\ overrightarrow {v}} _ {p + 1} = 0 \ iff k_ {1} = \ puntos = k_ {p + 1} = 0}$

Ahora deja ${\ displaystyle {\ overrightarrow {k}} = (k_ {1}, \ dots, k_ {p + 1}) ^ {T} \ in \ mathbb {R} ^ {(p + 1) \ times 1}}$ ser un vector propio de ${\ Displaystyle {\ mathcal {H}}}$ .

${\ displaystyle {\ overrightarrow {k}} \ neq {\ overrightarrow {0}} \implica (k_ {1} {\ overrightarrow {v_ {1}}} + \ dots + k_ {p + 1} {\ overrightarrow { v}} _ {p + 1}) ^ {2}> 0}$

En términos de multiplicación de vectores, esto significa

${\ displaystyle {\ begin {bmatrix} k_ {1} & \ dots & k_ {p + 1} \ end {bmatrix}} {\ begin {bmatrix} {\ overrightarrow {v_ {1}}} \\\ vdots \\ {\ overrightarrow {v}} _ {p + 1} \ end {bmatrix}} {\ begin {bmatrix} {\ overrightarrow {v_ {1}}} & \ dots & {\ overrightarrow {v}} _ {p + 1} \ end {bmatrix}} {\ begin {bmatrix} k_ {1} \\\ vdots \\ k_ {p + 1} \ end {bmatrix}} = {\ overrightarrow {k}} ^ {T} {\ mathcal {H}} {\ overrightarrow {k}} = \ lambda {\ overrightarrow {k}} ^ {T} {\ overrightarrow {k}}> 0}$

dónde ${\ Displaystyle \ lambda}$ es el valor propio correspondiente a ${\ displaystyle {\ overrightarrow {k}}}$ . Es más,

${\ displaystyle {\ overrightarrow {k}} ^ {T} {\ overrightarrow {k}} = \ sum _ {i = 1} ^ {p + 1} k_ {i} ^ {2}> 0 \ implica \ lambda > 0}$

Finalmente, como vector propio ${\ displaystyle {\ overrightarrow {k}}}$ fue arbitrario, significa todos los valores propios de ${\ Displaystyle {\ mathcal {H}}}$ son positivos, por lo tanto ${\ Displaystyle {\ mathcal {H}}}$ es positivo definido. Por lo tanto,

${\ displaystyle {\ overrightarrow {\ beta}} = (X ^ {T} X) ^ {- 1} X ^ {T} Y}$

es de hecho un mínimo local.

Prueba

Dejar ${\ displaystyle {\ tilde {\ beta}} = Cy}$ ser otro estimador lineal de ${\ Displaystyle \ beta}$ con ${\ Displaystyle C = (X'X) ^ {- 1} X '+ D}$ dónde ${\ Displaystyle D}$ es un ${\ Displaystyle K \ times n}$ matriz distinta de cero. Como nos restringimos a estimadores insesgados , el error cuadrático medio mínimo implica una varianza mínima. Por lo tanto, el objetivo es mostrar que dicho estimador tiene una varianza no menor que la de ${\ displaystyle {\ widehat {\ beta}},}$ el estimador MCO. Calculamos:

{\ Displaystyle {\ begin {alineado} \ operatorname {E} \ left [{\ tilde {\ beta}} \ right] & = \ operatorname {E} [Cy] \\ & = \ operatorname {E} \ left [ \ left ((X'X) ^ {- 1} X '+ D \ right) (X \ beta + \ varepsilon) \ right] \\ & = \ left ((X'X) ^ {- 1} X' + D \ right) X \ beta + \ left ((X'X) ^ {- 1} X '+ D \ right) \ operatorname {E} [\ varepsilon] \\ & = \ left ((X'X) ^ {- 1} X '+ D \ right) X \ beta && \ operatorname {E} [\ varepsilon] = 0 \\ & = (X'X) ^ {- 1} X'X \ beta + DX \ beta \\ & = (I_ {K} + DX) \ beta. \\\ end {alineado}}}

Por tanto, dado que ${\ Displaystyle \ beta}$ es la ONU observable, ${\ Displaystyle {\ tilde {\ beta}}}$ es imparcial si y solo si ${\ Displaystyle DX = 0}$ . Luego:

{\ Displaystyle {\ begin {alineado} \ operatorname {Var} \ left ({\ tilde {\ beta}} \ right) & = \ operatorname {Var} (Cy) \\ & = C {\ text {Var}} (y) C '\\ & = \ sigma ^ {2} CC' \\ & = \ sigma ^ {2} \ left ((X'X) ^ {- 1} X '+ D \ right) \ left ( X (X'X) ^ {- 1} + D '\ right) \\ & = \ sigma ^ {2} \ left ((X'X) ^ {- 1} X'X (X'X) ^ { -1} + (X'X) ^ {- 1} X'D '+ DX (X'X) ^ {- 1} + DD' \ right) \\ & = \ sigma ^ {2} (X'X ) ^ {- 1} + \ sigma ^ {2} (X'X) ^ {- 1} (DX) '+ \ sigma ^ {2} DX (X'X) ^ {- 1} + \ sigma ^ { 2} DD '\\ & = \ sigma ^ {2} (X'X) ^ {- 1} + \ sigma ^ {2} DD' && DX = 0 \\ & = \ operatorname {Var} \ left ({\ widehat {\ beta}} \ right) + \ sigma ^ {2} DD '&& \ sigma ^ {2} (X'X) ^ {- 1} = \ operatorname {Var} \ left ({\ widehat {\ beta }} \ derecha) \ end {alineado}}}

Dado que DD ' es una matriz semidefinita positiva, ${\ Displaystyle \ operatorname {Var} \ left ({\ tilde {\ beta}} \ right)}$ excede ${\ Displaystyle \ operatorname {Var} \ left ({\ widehat {\ beta}} \ right)}$ por una matriz semidefinida positiva.

Observaciones sobre la prueba

Como se ha dicho antes, la condición de ${\ Displaystyle \ operatorname {Var} \ left ({\ tilde {\ beta}} \ right) - \ operatorname {Var} \ left ({\ widehat {\ beta}} \ right)}$ es una matriz semidefinida positiva es equivalente a la propiedad de que el mejor estimador lineal insesgado de ${\ Displaystyle \ ell ^ {t} \ beta}$ es ${\ Displaystyle \ ell ^ {t} {\ widehat {\ beta}}}$ (mejor en el sentido de que tiene una varianza mínima). Para ver esto, deja ${\ Displaystyle \ ell ^ {t} {\ tilde {\ beta}}}$ otro estimador lineal insesgado de ${\ Displaystyle \ ell ^ {t} \ beta}$ .

{\ Displaystyle {\ begin {alineado} \ operatorname {Var} \ left (\ ell ^ {t} {\ tilde {\ beta}} \ right) & = \ ell ^ {t} \ operatorname {Var} \ left ( {\ tilde {\ beta}} \ right) \ ell \\ & = \ sigma ^ {2} \ ell ^ {t} (X'X) ^ {- 1} \ ell + \ ell ^ {t} DD ^ {t} \ ell \\ & = \ operatorname {Var} \ left (\ ell ^ {t} {\ widehat {\ beta}} \ right) + (D ^ {t} \ ell) ^ {t} (D ^ {t} \ ell) && \ sigma ^ {2} \ ell ^ {t} (X'X) ^ {- 1} \ ell = \ operatorname {Var} \ left (\ ell ^ {t} {\ widehat {\ beta}} \ right) \\ & = \ operatorname {Var} \ left (\ ell ^ {t} {\ widehat {\ beta}} \ right) + \ | D ^ {t} \ ell \ | \ \ & \ geqslant \ operatorname {Var} \ left (\ ell ^ {t} {\ widehat {\ beta}} \ right) \ end {alineado}}}

Además, la igualdad es válida si y solo si ${\ Displaystyle D ^ {t} \ ell = 0}$ . Calculamos

{\ Displaystyle {\ begin {alineado} \ ell ^ {t} {\ tilde {\ beta}} & = \ ell ^ {t} \ left (((X'X) ^ {- 1} X '+ D) Y \ right) && {\ text {desde arriba}} \\ & = \ ell ^ {t} (X'X) ^ {- 1} X'Y + \ ell ^ {t} DY \\ & = \ ell ^ {t} {\ widehat {\ beta}} + (D ^ {t} \ ell) ^ {t} Y \\ & = \ ell ^ {t} {\ widehat {\ beta}} && D ^ {t} \ ell = 0 \ end {alineado}}}

Esto prueba que la igualdad es válida si y solo si ${\ Displaystyle \ ell ^ {t} {\ tilde {\ beta}} = \ ell ^ {t} {\ widehat {\ beta}}}$ lo que da la unicidad del estimador MCO como AZUL.

Estimador de mínimos cuadrados generalizados

Los mínimos cuadrados generalizados (GLS), desarrollados por Aitken , ^[5] amplían el teorema de Gauss-Markov al caso donde el vector de error tiene una matriz de covarianza no escalar. ^[6] El estimador de Aitken también es AZUL.

Teorema de Gauss-Markov como se indica en econometría

En la mayoría de los tratamientos de MCO, los regresores (parámetros de interés) en la matriz de diseño ${\ Displaystyle \ mathbf {X}}$ se supone que se fijan en muestras repetidas. Este supuesto se considera inapropiado para una ciencia predominantemente no experimental como la econometría . ^[7] En cambio, los supuestos del teorema de Gauss-Markov están condicionados a ${\ Displaystyle \ mathbf {X}}$ .

Linealidad

Se supone que la variable dependiente es una función lineal de las variables especificadas en el modelo. La especificación debe ser lineal en sus parámetros. Esto no significa que deba haber una relación lineal entre las variables independientes y dependientes. Las variables independientes pueden adoptar formas no lineales siempre que los parámetros sean lineales. La ecuacion ${\ Displaystyle y = \ beta _ {0} + \ beta _ {1} x ^ {2},}$ califica como lineal mientras ${\ Displaystyle y = \ beta _ {0} + \ beta _ {1} ^ {2} x}$ se puede transformar para que sea lineal reemplazando ${\ Displaystyle \ beta _ {1} ^ {2}}$ por otro parámetro, digamos ${\ Displaystyle \ gamma}$ . Una ecuación con un parámetro dependiente de una variable independiente no califica como lineal, por ejemplo ${\ Displaystyle y = \ beta _ {0} + \ beta _ {1} (x) \ cdot x}$ , dónde ${\ Displaystyle \ beta _ {1} (x)}$ es una función de ${\ Displaystyle x}$ .

Las transformaciones de datos se utilizan a menudo para convertir una ecuación en una forma lineal. Por ejemplo, la función Cobb-Douglas, a menudo utilizada en economía, no es lineal:

{\ displaystyle Y = AL ^ {\ alpha} K ^ {1- \ alpha} e ^ {\ varepsilon}}

Pero se puede expresar en forma lineal tomando el logaritmo natural de ambos lados: ^[8]

{\ Displaystyle \ ln Y = \ ln A + \ alpha \ ln L + (1- \ alpha) \ ln K + \ varepsilon = \ beta _ {0} + \ beta _ {1} \ ln L + \ beta _ {2} \ En K + \ varepsilon}

Esta suposición también cubre cuestiones de especificación: asumiendo que se ha seleccionado la forma funcional adecuada y no hay variables omitidas .

Sin embargo, se debe tener en cuenta que los parámetros que minimizan los residuos de la ecuación transformada no necesariamente minimizan los residuos de la ecuación original.

Exogeneidad estricta

Para todos ${\ Displaystyle n}$ observaciones, la expectativa, condicionada a los regresores, del término de error es cero: ^[9]

{\ Displaystyle \ operatorname {E} [\, \ varepsilon _ {i} \ mid \ mathbf {X}] = \ operatorname {E} [\, \ varepsilon _ {i} \ mid \ mathbf {x_ {1}} , \ puntos, \ mathbf {x_ {n}}] = 0.}

dónde ${\ Displaystyle \ mathbf {x} _ {i} = {\ begin {bmatrix} x_ {i1} & x_ {i2} & \ dots & x_ {ik} \ end {bmatrix}} ^ {\ mathsf {T}}}$ es el vector de datos de regresores para la i- ésima observación, y en consecuencia ${\ Displaystyle \ mathbf {X} = {\ begin {bmatrix} \ mathbf {x_ {1} ^ {\ mathsf {T}}} & \ mathbf {x_ {2} ^ {\ mathsf {T}}} & \ puntos & \ mathbf {x_ {n} ^ {\ mathsf {T}}} \ end {bmatrix}} ^ {\ mathsf {T}}}$ es la matriz de datos o matriz de diseño.

Geométricamente, esta suposición implica que ${\ Displaystyle \ mathbf {x} _ {i}}$ y ${\ Displaystyle \ varepsilon _ {i}}$ son ortogonales entre sí, de modo que su producto interno (es decir, su momento transversal) es cero.

{\ Displaystyle \ operatorname {E} [\, \ mathbf {x} _ {j} \ cdot \ varepsilon _ {i} \,] = {\ begin {bmatrix} \ operatorname {E} [\, {x} _ {j1} \ cdot \ varepsilon _ {i} \,] \\\ nombre de operador {E} [\, {x} _ {j2} \ cdot \ varepsilon _ {i} \,] \\\ vdots \\\ nombre de operador {E} [\, {x} _ {jk} \ cdot \ varepsilon _ {i} \,] \ end {bmatrix}} = \ mathbf {0} \ quad {\ text {para todos}} i, j \ Posada}

Este supuesto se viola si las variables explicativas son estocásticas, por ejemplo cuando se miden con error , o son endógenas . ^{[10] La} endogeneidad puede ser el resultado de la simultaneidad , donde la causalidad fluye hacia adelante y hacia atrás entre la variable dependiente y la independiente. Las técnicas de variables instrumentales se utilizan comúnmente para abordar este problema.

Rango completo

La matriz de datos de muestra ${\ Displaystyle \ mathbf {X}}$ debe tener rango de columna completo .

{\ Displaystyle \ operatorname {rango} (\ mathbf {X}) = k}

De lo contrario ${\ Displaystyle \ mathbf {X'X}}$ no es invertible y el estimador MCO no se puede calcular.

Una violación de este supuesto es la multicolinealidad perfecta , es decir, algunas variables explicativas son linealmente dependientes. Un escenario en el que esto ocurrirá se llama "trampa de variable ficticia", cuando no se omite una variable ficticia base, lo que resulta en una correlación perfecta entre las variables ficticias y el término constante. ^[11]

La multicolinealidad (siempre que no sea "perfecta") puede estar presente dando como resultado una estimación menos eficiente, pero aún insesgada. Las estimaciones serán menos precisas y muy sensibles a determinados conjuntos de datos. ^{[12] La} multicolinealidad se puede detectar a partir del número de condición o del factor de inflación de la varianza , entre otras pruebas.

Errores esféricos

El producto externo del vector de error debe ser esférico.

{\ Displaystyle \ operatorname {E} [\, {\ boldsymbol {\ varepsilon}} {\ boldsymbol {\ varepsilon ^ {\ mathsf {T}}}} \ mid \ mathbf {X}] = \ operatorname {Var} [ \, {\ boldsymbol {\ varepsilon}} \ mid \ mathbf {X}] = {\ begin {bmatrix} \ sigma ^ {2} & 0 & \ dots & 0 \\ 0 & \ sigma ^ {2} & \ dots & 0 \\ \ vdots & \ vdots & \ ddots & \ vdots \\ 0 & 0 & \ dots & \ sigma ^ {2} \ end {bmatrix}} = \ sigma ^ {2} \ mathbf {I} \ quad {\ text {with}} \ sigma ^ {2}> 0}

Esto implica que el término de error tiene una varianza uniforme ( homocedasticidad ) y ninguna dependencia serial. ^[13] Si se viola este supuesto, OLS sigue siendo imparcial, pero ineficiente. El término "errores esféricos" describirá la distribución normal multivariante: si ${\ Displaystyle \ operatorname {Var} [\, {\ boldsymbol {\ varepsilon}} \ mid \ mathbf {X}] = \ sigma ^ {2} \ mathbf {I}}$ en la densidad normal multivariante, entonces la ecuación ${\ Displaystyle f (\ varepsilon) = c}$ es la fórmula para una bola centrada en μ con radio σ en un espacio n-dimensional. ^[14]

La heterocedasticidad ocurre cuando la cantidad de error se correlaciona con una variable independiente. Por ejemplo, en una regresión sobre gastos e ingresos en alimentos, el error se correlaciona con los ingresos. Las personas de bajos ingresos generalmente gastan una cantidad similar en alimentos, mientras que las personas de altos ingresos pueden gastar una cantidad muy grande o tan poco como lo que gastan las personas de bajos ingresos. La heterocedástica también puede ser causada por cambios en las prácticas de medición. Por ejemplo, a medida que las oficinas de estadística mejoran sus datos, el error de medición disminuye, por lo que el término de error disminuye con el tiempo.

Este supuesto se viola cuando hay autocorrelación . La autocorrelación se puede visualizar en un gráfico de datos cuando es más probable que una observación determinada se encuentre por encima de una línea ajustada si las observaciones adyacentes también se encuentran por encima de la línea de regresión ajustada. La autocorrelación es común en los datos de series de tiempo donde una serie de datos puede experimentar "inercia". Si una variable dependiente tarda un poco en absorber completamente un impacto. La autocorrelación espacial también puede ocurrir en áreas geográficas que probablemente tengan errores similares. La autocorrelación puede ser el resultado de una especificación incorrecta, como la elección de la forma funcional incorrecta. En estos casos, corregir la especificación es una forma posible de lidiar con la autocorrelación.

En presencia de errores esféricos, se puede demostrar que el estimador de mínimos cuadrados generalizados es AZUL. ^[6]

Ver también

Variables aleatorias independientes e idénticamente distribuidas
Regresión lineal
Incertidumbre de medicion

Otras estadísticas no sesgadas

Mejor predicción lineal insesgada (BLUP)
Estimador insesgado de varianza mínima (MVUE)

Referencias

^ Véase el capítulo 7 de Johnson, RA; Wichern, DW (2002). Análisis estadístico multivariado aplicado . 5 . Prentice Hall.
^ Theil, Henri (1971). "Mejor predicción y estimación lineal imparcial". Principios de Econometría . Nueva York: John Wiley & Sons. pp. 119 -124. ISBN 0-471-85845-5.
^ Plackett, RL (1949). "Una nota histórica sobre el método de mínimos cuadrados". Biometrika . 36 (3/4): 458–460. doi : 10.2307 / 2332682 .
^ David, FN; Neyman, J. (1938). "Extensión del teorema de Markoff sobre mínimos cuadrados". Memorias de investigación estadística . 2 : 105-116. OCLC 4025782 .
^ a b Aitken, AC (1935). "En mínimos cuadrados y combinaciones lineales de observaciones". Actas de la Royal Society of Edinburgh . 55 : 42–48. doi : 10.1017 / S0370164600014346 .
^ a b Huang, David S. (1970). Métodos de regresión y econométricos . Nueva York: John Wiley & Sons. pp. 127 -147. ISBN 0-471-41754-8.
^ Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 13. ISBN 0-691-01018-8.
^ Walters, AA (1970). Introducción a la econometría . Nueva York: WW Norton. pag. 275. ISBN 0-393-09931-8.
^ Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 7. ISBN 0-691-01018-8.
^ Johnston, John (1972). Métodos econométricos (Segunda ed.). Nueva York: McGraw-Hill. págs. 267-291 . ISBN 0-07-032679-7.
^ Wooldridge, Jeffrey (2012). Econometría introductoria (Quinta ed. Internacional). Del suroeste. pag. 220 . ISBN 978-1-111-53439-4.
^ Johnston, John (1972). Métodos econométricos (Segunda ed.). Nueva York: McGraw-Hill. págs. 159-168 . ISBN 0-07-032679-7.
^ Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 10. ISBN 0-691-01018-8.
^ Ramanathan, Ramu (1993). "Perturbaciones no esféricas". Métodos estadísticos en econometría . Prensa académica. págs. 330 –351. ISBN 0-12-576830-3.

Otras lecturas

Davidson, James (2000). "Análisis estadístico del modelo de regresión". Teoría econométrica . Oxford: Blackwell. págs. 17–36. ISBN 0-631-17837-6.
Goldberger, Arthur (1991). "Regresión clásica". Un curso de econometría . Cambridge: Prensa de la Universidad de Harvard. pp. 160 -169. ISBN 0-674-17544-1.
Theil, Henri (1971). "Mínimos cuadrados y el modelo lineal estándar". Principios de Econometría . Nueva York: John Wiley & Sons. pp. 101 -162. ISBN 0-471-85845-5.

enlaces externos

Usos más antiguos conocidos de algunas de las palabras de las matemáticas: G (breve historia y explicación del nombre)
Prueba del teorema de Gauss Markov para la regresión lineal múltiple (hace uso del álgebra matricial)
Una prueba del teorema de Gauss Markov usando geometría

[1] Véase el capítulo 7 de Johnson, RA; Wichern, DW (2002). Análisis estadístico multivariado aplicado . 5 . Prentice Hall.

[2] Theil, Henri (1971). "Mejor predicción y estimación lineal imparcial". Principios de Econometría . Nueva York: John Wiley & Sons. pp. 119 -124. ISBN 0-471-85845-5.

[3] Plackett, RL (1949). "Una nota histórica sobre el método de mínimos cuadrados". Biometrika . 36 (3/4): 458–460. doi : 10.2307 / 2332682 .

[4] David, FN; Neyman, J. (1938). "Extensión del teorema de Markoff sobre mínimos cuadrados". Memorias de investigación estadística . 2 : 105-116. OCLC 4025782 .

[Aitken1935-5] Aitken, AC (1935). "En mínimos cuadrados y combinaciones lineales de observaciones". Actas de la Royal Society of Edinburgh . 55 : 42–48. doi : 10.1017 / S0370164600014346 .

[Huang1970-6] Huang, David S. (1970). Métodos de regresión y econométricos . Nueva York: John Wiley & Sons. pp. 127 -147. ISBN 0-471-41754-8.

[7] Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 13. ISBN 0-691-01018-8.

[8] Walters, AA (1970). Introducción a la econometría . Nueva York: WW Norton. pag. 275. ISBN 0-393-09931-8.

[9] Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 7. ISBN 0-691-01018-8.

[10] Johnston, John (1972). Métodos econométricos (Segunda ed.). Nueva York: McGraw-Hill. págs. 267-291 . ISBN 0-07-032679-7.

[11] Wooldridge, Jeffrey (2012). Econometría introductoria (Quinta ed. Internacional). Del suroeste. pag. 220 . ISBN 978-1-111-53439-4.

[12] Johnston, John (1972). Métodos econométricos (Segunda ed.). Nueva York: McGraw-Hill. págs. 159-168 . ISBN 0-07-032679-7.

[13] Hayashi, Fumio (2000). Econometría . Prensa de la Universidad de Princeton. pag. 10. ISBN 0-691-01018-8.

[14] Ramanathan, Ramu (1993). "Perturbaciones no esféricas". Métodos estadísticos en econometría . Prensa académica. págs. 330 –351. ISBN 0-12-576830-3.

[1]