Pruebas que involucran mínimos cuadrados ordinarios

El propósito de esta página es proporcionar materiales complementarios para el artículo de mínimos cuadrados ordinarios , reduciendo la carga del artículo principal con matemáticas y mejorando su accesibilidad, mientras que al mismo tiempo se mantiene la integridad de la exposición.

Derivación de las ecuaciones normales

Definir el ${\ Displaystyle i}$ th residual a ser

{\ Displaystyle r_ {i} = y_ {i} - \ sum _ {j = 1} ^ {n} X_ {ij} \ beta _ {j}.}

Entonces el objetivo ${\ Displaystyle S}$ puede ser reescrito

{\ Displaystyle S = \ sum _ {i = 1} ^ {m} r_ {i} ^ {2}.}

Dado que S es convexo, se minimiza cuando su vector de gradiente es cero (esto se sigue por definición: si el vector de gradiente no es cero, hay una dirección en la que podemos movernos para minimizarlo aún más, ver máximos y mínimos ) Los elementos del vector de gradiente son las derivadas parciales de S con respecto a los parámetros:

{\ Displaystyle {\ frac {\ parcial S} {\ parcial \ beta _ {j}}} = 2 \ sum _ {i = 1} ^ {m} r_ {i} {\ frac {\ parcial r_ {i} } {\ parcial \ beta _ {j}}} \ qquad (j = 1,2, \ dots, n).}

Los derivados son

{\ Displaystyle {\ frac {\ parcial r_ {i}} {\ parcial \ beta _ {j}}} = - X_ {ij}.}

La sustitución de las expresiones de los residuos y las derivadas en las ecuaciones de gradiente da

{\ Displaystyle {\ frac {\ parcial S} {\ parcial \ beta _ {j}}} = 2 \ sum _ {i = 1} ^ {m} \ left (y_ {i} - \ sum _ {k = 1} ^ {n} X_ {ik} \ beta _ {k} \ right) (- X_ {ij}) \ qquad (j = 1,2, \ dots, n).}

Así que si ${\ Displaystyle {\ widehat {\ beta}}}$ minimiza S , tenemos

{\ Displaystyle 2 \ sum _ {i = 1} ^ {m} \ left (y_ {i} - \ sum _ {k = 1} ^ {n} X_ {ik} {\ widehat {\ beta}} _ { k} \ derecha) (- X_ {ij}) = 0 \ qquad (j = 1,2, \ puntos, n).}

Tras el reordenamiento, obtenemos las ecuaciones normales :

{\ Displaystyle \ sum _ {i = 1} ^ {m} \ sum _ {k = 1} ^ {n} X_ {ij} X_ {ik} {\ widehat {\ beta}} _ {k} = \ sum _ {i = 1} ^ {m} X_ {ij} y_ {i} \ qquad (j = 1,2, \ dots, n).}

Las ecuaciones normales se escriben en notación matricial como

{\ Displaystyle (\ mathbf {X} ^ {\ mathrm {T}} \ mathbf {X}) {\ widehat {\ boldsymbol {\ beta}}} = \ mathbf {X} ^ {\ mathrm {T}} \ mathbf {y}}

(donde X ^T es la transpuesta de la matriz de X ).

La solución de las ecuaciones normales produce el vector ${\ displaystyle {\ widehat {\ boldsymbol {\ beta}}}}$ de los valores óptimos de los parámetros.

Derivación directamente en términos de matrices

Las ecuaciones normales se pueden derivar directamente de una representación matricial del problema de la siguiente manera. El objetivo es minimizar

{\ Displaystyle S ({\ boldsymbol {\ beta}}) = {\ bigl \ |} \ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}} {\ bigr \ |} ^ {2} = (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}) ^ {\ rm {T}} (\ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}} ) = \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} - {\ boldsymbol {\ beta}} ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} - \ mathbf {y} ^ {\ rm {T}} \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ beta}} ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ boldsymbol {\ beta}}.}

Aquí ${\ displaystyle ({\ boldsymbol {\ beta}} ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y}) ^ {\ rm {T}} = \ mathbf {y} ^ {\ rm {T}} \ mathbf {X} {\ boldsymbol {\ beta}}}$ tiene la dimensión 1x1 (el número de columnas de ${\ Displaystyle \ mathbf {y}}$ ), por lo que es un escalar e igual a su propia transposición, por lo tanto ${\ Displaystyle {\ boldsymbol {\ beta}} ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} = \ mathbf {y} ^ {\ rm {T} } \ mathbf {X} {\ boldsymbol {\ beta}}}$ y la cantidad a minimizar se convierte en

{\ displaystyle S ({\ boldsymbol {\ beta}}) = \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} -2 {\ boldsymbol {\ beta}} ^ {\ rm {T} } \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ beta}} ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ boldsymbol {\ beta}}.}

Diferenciando esto con respecto a ${\ displaystyle {\ boldsymbol {\ beta}}}$ y igualar a cero para satisfacer las condiciones de primer orden da

{\ Displaystyle - \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} + (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) {\ boldsymbol {\ beta} } = 0,}

que es equivalente a las ecuaciones normales dadas anteriormente. Una condición suficiente para el cumplimiento de las condiciones de segundo orden para un mínimo es que ${\ Displaystyle \ mathbf {X}}$ tener rango de columna completo, en cuyo caso ${\ Displaystyle \ mathbf {X} ^ {\ rm {T}} \ mathbf {X}}$ es positivo definido .

Derivación sin cálculo

Cuándo ${\ Displaystyle \ mathbf {X} ^ {\ rm {T}} \ mathbf {X}}$ es positivo definido, la fórmula para el valor de minimización de ${\ displaystyle {\ boldsymbol {\ beta}}}$ puede derivarse sin el uso de derivados. La cantidad

{\ displaystyle S ({\ boldsymbol {\ beta}}) = \ mathbf {y} ^ {\ rm {T}} \ mathbf {y} -2 {\ boldsymbol {\ beta}} ^ {\ rm {T} } \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} + {\ boldsymbol {\ beta}} ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} \ mathbf {X} {\ boldsymbol {\ beta}}}

Se puede escribir como

{\ displaystyle \ langle {\ boldsymbol {\ beta}}, {\ boldsymbol {\ beta}} \ rangle -2 \ langle {\ boldsymbol {\ beta}}, (\ mathbf {X} ^ {\ rm {T} } \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} \ rangle + \ langle (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y}, (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {-1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} \ rangle + C,}

dónde ${\ Displaystyle C}$ depende solo de ${\ Displaystyle \ mathbf {y}}$ y ${\ Displaystyle \ mathbf {X}}$ , y ${\ Displaystyle \ langle \ cdot, \ cdot \ rangle}$ es el producto interno definido por

{\ Displaystyle \ langle x, y \ rangle = x ^ {\ rm {T}} (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) y.}

Resulta que ${\ displaystyle S ({\ boldsymbol {\ beta}})}$ es igual a

{\ Displaystyle \ langle {\ boldsymbol {\ beta}} - (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T }} \ mathbf {y}, {\ boldsymbol {\ beta}} - (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} \ rangle + C}

y por lo tanto minimizado exactamente cuando

{\ Displaystyle {\ boldsymbol {\ beta}} - (\ mathbf {X} ^ {\ rm {T}} \ mathbf {X}) ^ {- 1} \ mathbf {X} ^ {\ rm {T}} \ mathbf {y} = 0.}

Generalización para ecuaciones complejas

En general, los coeficientes de las matrices ${\ Displaystyle \ mathbf {X}, {\ boldsymbol {\ beta}}}$ y ${\ Displaystyle \ mathbf {y}}$ puede ser complejo. Al usar una transposición hermitiana en lugar de una simple transposición, es posible encontrar un vector ${\ displaystyle {\ boldsymbol {\ widehat {\ beta}}}}$ que minimiza ${\ displaystyle S ({\ boldsymbol {\ beta}})}$ , al igual que en el caso de la matriz real. Para obtener las ecuaciones normales seguimos un camino similar al de las derivaciones anteriores:

{\ Displaystyle \ Displaystyle S ({\ boldsymbol {\ beta}}) = \ langle \ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}}, \ mathbf {y} - \ mathbf {X} {\ boldsymbol {\ beta}} \ rangle = \ langle \ mathbf {y}, \ mathbf {y} \ rangle - {\ overline {\ langle \ mathbf {X} {\ boldsymbol {\ beta}}, \ mathbf { y} \ rangle}} - {\ overline {\ langle \ mathbf {y}, \ mathbf {X} {\ boldsymbol {\ beta}} \ rangle}} + \ langle \ mathbf {X} {\ boldsymbol {\ beta }}, \ mathbf {X} {\ boldsymbol {\ beta}} \ rangle = \ mathbf {y} ^ {\ rm {T}} {\ overline {\ mathbf {y}}} - {\ boldsymbol {\ beta }} ^ {\ daga} \ mathbf {X} ^ {\ daga} \ mathbf {y} - \ mathbf {y} ^ {\ daga} \ mathbf {X} {\ boldsymbol {\ beta}} + {\ boldsymbol {\ beta}} ^ {\ rm {T}} \ mathbf {X} ^ {\ rm {T}} {\ overline {\ mathbf {X}}} {\ overline {\ boldsymbol {\ beta}}}, }

dónde ${\ Displaystyle \ daga}$ significa transposición hermitiana.

Ahora deberíamos tomar derivadas de ${\ displaystyle S ({\ boldsymbol {\ beta}})}$ con respecto a cada uno de los coeficientes ${\ Displaystyle \ beta _ {j}}$ , pero primero separamos las partes reales e imaginarias para tratar los factores conjugados en la expresión anterior. Para el ${\ Displaystyle \ beta _ {j}}$ tenemos

{\ Displaystyle \ beta _ {j} = \ beta _ {j} ^ {R} + i \ beta _ {j} ^ {I}}

y los derivados se transforman en

{\ Displaystyle {\ frac {\ parcial S} {\ parcial \ beta _ {j}}} = {\ frac {\ parcial S} {\ parcial \ beta _ {j} ^ {R}}} {\ frac { \ parcial \ beta _ {j} ^ {R}} {\ parcial \ beta _ {j}}} + {\ frac {\ parcial S} {\ parcial \ beta _ {j} ^ {I}}} {\ frac {\ parcial \ beta _ {j} ^ {I}} {\ parcial \ beta _ {j}}} = {\ frac {\ parcial S} {\ parcial \ beta _ {j} ^ {R}}} -i {\ frac {\ parcial S} {\ parcial \ beta _ {j} ^ {I}}} \ quad (j = 1,2,3, \ ldots, n).}

Después de reescribir ${\ displaystyle S ({\ boldsymbol {\ beta}})}$ en forma de resumen y escritura ${\ Displaystyle \ beta _ {j}}$ explícitamente, podemos calcular ambas derivadas parciales con el resultado:

{\ Displaystyle {\ begin {alineado} {\ frac {\ parcial S} {\ parcial \ beta _ {j} ^ {R}}} = {} & - \ sum _ {i = 1} ^ {m} { \ Big (} {\ overline {X}} _ {ij} y_ {i} + {\ overline {y}} _ {i} X_ {ij} {\ Big)} + 2 \ sum _ {i = 1} ^ {m} X_ {ij} {\ overline {X}} _ {ij} \ beta _ {j} ^ {R} + \ sum _ {i = 1} ^ {m} \ sum _ {k \ neq j } ^ {n} {\ Big (} X_ {ij} {\ overline {X}} _ {ik} {\ overline {\ beta}} _ {k} + \ beta _ {k} X_ {ik} {\ overline {X}} _ {ij} {\ Big)}, \\ [8pt] & {} - i {\ frac {\ partial S} {\ partial \ beta _ {j} ^ {I}}} = \ suma _ {i = 1} ^ {m} {\ Big (} {\ overline {X}} _ {ij} y_ {i} - {\ overline {y}} _ {i} X_ {ij} {\ Big )} - 2i \ sum _ {i = 1} ^ {m} X_ {ij} {\ overline {X}} _ {ij} \ beta _ {j} ^ {I} + \ sum _ {i = 1} ^ {m} \ sum _ {k \ neq j} ^ {n} {\ Big (} X_ {ij} {\ overline {X}} _ {ik} {\ overline {\ beta}} _ {k} - \ beta _ {k} X_ {ik} {\ overline {X}} _ {ij} {\ Big)}, \ end {alineado}}}

que, después de sumarlo y compararlo con cero (condición de minimización para ${\ displaystyle {\ boldsymbol {\ widehat {\ beta}}}}$ ) rinde

{\ Displaystyle \ sum _ {i = 1} ^ {m} X_ {ij} {\ overline {y}} _ {i} = \ sum _ {i = 1} ^ {m} \ sum _ {k = 1 } ^ {n} X_ {ij} {\ overline {X}} _ {ik} {\ overline {\ widehat {\ beta}}} _ {k} \ qquad (j = 1,2,3, \ ldots, norte).}

En forma de matriz:

{\ displaystyle {\ textbf {X}} ^ {\ rm {T}} {\ overline {\ textbf {y}}} = {\ textbf {X}} ^ {\ rm {T}} {\ overline {{ \ big (} {\ textbf {X}} {\ boldsymbol {\ widehat {\ beta}}} {\ big)}}} \ quad {\ text {o}} \ quad {\ big (} {\ textbf { X}} ^ {\ dagger} {\ textbf {X}} {\ big)} {\ boldsymbol {\ widehat {\ beta}}} = {\ textbf {X}} ^ {\ dagger} {\ textbf {y }}.}

Estimador de mínimos cuadrados para β

Usando la notación matricial, la suma de los residuos cuadrados viene dada por

{\ Displaystyle S (\ beta) = (yX \ beta) ^ {T} (yX \ beta).}

Dado que esta es una expresión cuadrática, el vector que da el mínimo global se puede encontrar a través del cálculo de matrices diferenciando con respecto al vector ${\ Displaystyle \ beta}$ (usando el diseño del denominador) y estableciendo igual a cero:

{\ displaystyle 0 = {\ frac {dS} {d \ beta}} ({\ widehat {\ beta}}) = {\ frac {d} {d \ beta}} {\ bigg (} y ^ {T} y- \ beta ^ {T} X ^ {T} yy ^ {T} X \ beta + \ beta ^ {T} X ^ {T} X \ beta {\ bigg)} {\ bigg |} _ {\ beta = {\ widehat {\ beta}}} = - 2X ^ {T} y + 2X ^ {T} X {\ widehat {\ beta}}}

Por supuesto, la matriz X tiene rango de columna completo y, por lo tanto, X ^T X es invertible y el estimador de mínimos cuadrados para β está dado por

{\ Displaystyle {\ widehat {\ beta}} = (X ^ {T} X) ^ {- 1} X ^ {T} y}

Imparcialidad y varianza de ${\ Displaystyle {\ widehat {\ beta}}}$

Plug y = Xβ + ε en la fórmula para ${\ Displaystyle {\ widehat {\ beta}}}$ y luego use la ley de la expectativa total :

{\ Displaystyle {\ begin {alineado} \ operatorname {E} [\, {\ widehat {\ beta}}] & = \ operatorname {E} {\ Big [} (X ^ {T} X) ^ {- 1 } X ^ {T} (X \ beta + \ varepsilon) {\ Big]} \\ & = \ beta + \ operatorname {E} {\ Big [} (X ^ {T} X) ^ {- 1} X ^ {T} \ varepsilon {\ Big]} \\ & = \ beta + \ operatorname {E} {\ Big [} \ operatorname {E} {\ Big [} (X ^ {T} X) ^ {- 1 } X ^ {T} \ varepsilon \ mid X {\ Big]} {\ Big]} \\ & = \ beta + \ operatorname {E} {\ Big [} (X ^ {T} X) ^ {- 1 } X ^ {T} \ operatorname {E} [\ varepsilon \ mid X] {\ Big]} & = \ beta, \ end {alineado}}}

donde E [ ε | X ] = 0 por supuestos del modelo. Dado que el valor esperado de ${\ Displaystyle {\ widehat {\ beta}}}$ es igual al parámetro que estima, ${\ Displaystyle \ beta}$ , es un estimador insesgado de ${\ Displaystyle \ beta}$ .

Para la varianza, sea la matriz de covarianza de ${\ Displaystyle \ varepsilon}$ ser ${\ Displaystyle \ operatorname {E} [\, \ varepsilon \ varepsilon ^ {T} \,] = \ sigma ^ {2} I}$ (dónde ${\ Displaystyle I}$ es la identidad ${\ Displaystyle m \, \ times \, m}$ matriz), y sea X una constante conocida. Luego,

{\ Displaystyle {\ begin {alineado} \ operatorname {E} [\, ({\ widehat {\ beta}} - \ beta) ({\ widehat {\ beta}} - \ beta) ^ {T}] & = \ operatorname {E} {\ Big [} ((X ^ {T} X) ^ {- 1} X ^ {T} \ varepsilon) ((X ^ {T} X) ^ {- 1} X ^ {T } \ varepsilon) ^ {T} {\ Big]} \\ & = \ operatorname {E} {\ Big [} (X ^ {T} X) ^ {- 1} X ^ {T} \ varepsilon \ varepsilon ^ {T} X (X ^ {T} X) ^ {- 1} {\ Big]} \\ & = (X ^ {T} X) ^ {- 1} X ^ {T} \ operatorname {E} { \ Big [} \ varepsilon \ varepsilon ^ {T} {\ Big]} X (X ^ {T} X) ^ {- 1} \\ & = (X ^ {T} X) ^ {- 1} X ^ {T} \ sigma ^ {2} X (X ^ {T} X) ^ {- 1} \\ & = \ sigma ^ {2} (X ^ {T} X) ^ {- 1} X ^ {T } X (X ^ {T} X) ^ {- 1} \\ & = \ sigma ^ {2} (X ^ {T} X) ^ {- 1}, \ end {alineado}}}

donde usamos el hecho de que ${\ Displaystyle {\ widehat {\ beta}} - \ beta}$ es solo una transformación afín de ${\ Displaystyle \ varepsilon}$ por la matriz ${\ Displaystyle (X ^ {T} X) ^ {- 1} X ^ {T}}$ .

Para un modelo de regresión lineal simple, donde ${\ Displaystyle \ beta = [\ beta _ {0}, \ beta _ {1}] ^ {T}}$ ( ${\ Displaystyle \ beta _ {0}}$ es la y interceptación y ${\ Displaystyle \ beta _ {1}}$ es la pendiente), se obtiene

{\ Displaystyle {\ begin {alineado} \ sigma ^ {2} (X ^ {T} X) ^ {- 1} & = \ sigma ^ {2} \ left ({\ begin {pmatrix} 1 & 1 & \ cdots \\ x_ {1} & x_ {2} & \ cdots \ end {pmatrix}} {\ begin {pmatrix} 1 & x_ {1} \\ 1 & x_ {2} \\\ vdots & \ vdots \, \, \, \ end {pmatrix }} \ right) ^ {- 1} \\ [6pt] & = \ sigma ^ {2} \ left (\ sum _ {i = 1} ^ {m} {\ begin {pmatrix} 1 & x_ {i} \\ x_ {i} & x_ {i} ^ {2} \ end {pmatrix}} \ right) ^ {- 1} \\ [6pt] & = \ sigma ^ {2} {\ begin {pmatrix} m & \ sum x_ { i} \\\ sum x_ {i} & \ sum x_ {i} ^ {2} \ end {pmatrix}} ^ {- 1} \\ [6pt] & = \ sigma ^ {2} \ cdot {\ frac {1} {m \ sum x_ {i} ^ {2} - (\ sum x_ {i}) ^ {2}}} {\ begin {pmatrix} \ sum x_ {i} ^ {2} & - \ sum x_ {i} \\ - \ sum x_ {i} & m \ end {pmatrix}} \\ [6pt] & = \ sigma ^ {2} \ cdot {\ frac {1} {m \ sum {(x_ {i } - {\ bar {x}}) ^ {2}}}} {\ begin {pmatrix} \ sum x_ {i} ^ {2} & - \ sum x_ {i} \\ - \ sum x_ {i} & m \ end {pmatrix}} \\ [8pt] \ operatorname {Var} ({\ widehat {\ beta}} _ {1}) & = {\ frac {\ sigma ^ {2}} {\ sum _ {i = 1} ^ {m} (x_ {i} - {\ bar {x}}) ^ {2}}}. \ End {alineado}}}

Valor esperado y sesgo de ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$

Primero, ingresaremos la expresión para y en el estimador, y usaremos el hecho de que X'M = MX = 0 (la matriz M se proyecta en el espacio ortogonal a X ):

{\ displaystyle {\ widehat {\ sigma}} ^ {\, 2} = {\ tfrac {1} {n}} y'My = {\ tfrac {1} {n}} (X \ beta + \ varepsilon) 'M (X \ beta + \ varepsilon) = {\ tfrac {1} {n}} \ varepsilon' M \ varepsilon}

Ahora podemos reconocer ε ′ Mε como una matriz de 1 × 1, dicha matriz es igual a su propia traza . Esto es útil porque por las propiedades del operador de rastreo, tr ( AB ) = tr ( BA ), y podemos usar esto para separar la perturbación ε de la matriz M que es una función de los regresores X :

{\ Displaystyle \ operatorname {E} \, {\ widehat {\ sigma}} ^ {\, 2} = {\ tfrac {1} {n}} \ operatorname {E} {\ big [} \ operatorname {tr} (\ varepsilon 'M \ varepsilon) {\ big]} = {\ tfrac {1} {n}} \ operatorname {tr} {\ big (} \ operatorname {E} [M \ varepsilon \ varepsilon'] {\ big )}}

Usando la ley de la expectativa iterada, esto se puede escribir como

{\ Displaystyle \ operatorname {E} \, {\ widehat {\ sigma}} ^ {\, 2} = {\ tfrac {1} {n}} \ operatorname {tr} {\ Big (} \ operatorname {E} {\ big [} M \, \ operatorname {E} [\ varepsilon \ varepsilon '| X] {\ big]} {\ Big)} = {\ tfrac {1} {n}} \ operatorname {tr} {\ big (} \ operatorname {E} [\ sigma ^ {2} MI] {\ big)} = {\ tfrac {1} {n}} \ sigma ^ {2} \ operatorname {E} {\ big [} \ nombre de operador {tr} \, M {\ big]}}

Recordemos que M = I - P donde P es la proyección sobre el espacio lineal abarcado por columnas de la matriz X . Según las propiedades de una matriz de proyección , tiene p = valores propios de rango ( X ) iguales a 1, y todos los demás valores propios son iguales a 0. La traza de una matriz es igual a la suma de sus valores característicos, por lo que tr ( P ) = p y tr ( M ) = n - p . Por lo tanto,

{\ Displaystyle \ operatorname {E} \, {\ widehat {\ sigma}} ^ {\, 2} = {\ frac {np} {n}} \ sigma ^ {2}}

Dado que el valor esperado de ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$ no es igual al parámetro que estima, ${\ Displaystyle \ sigma ^ {\, 2}}$ , es un estimador sesgado de ${\ Displaystyle \ sigma ^ {\, 2}}$ . Observe que en la sección posterior "Máxima probabilidad" mostramos que bajo el supuesto adicional de que los errores se distribuyen normalmente, el estimador ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$ es proporcional a una distribución chi-cuadrado con n - p grados de libertad, de la cual se seguiría inmediatamente la fórmula para el valor esperado. Sin embargo, el resultado que hemos mostrado en esta sección es válido independientemente de la distribución de los errores y, por lo tanto, tiene importancia por sí mismo.

Consistencia y normalidad asintótica de ${\ Displaystyle {\ widehat {\ beta}}}$

Estimador ${\ Displaystyle {\ widehat {\ beta}}}$ Se puede escribir como

{\ displaystyle {\ widehat {\ beta}} = {\ big (} {\ tfrac {1} {n}} X'X {\ big)} ^ {- 1} {\ tfrac {1} {n}} X'y = \ beta + {\ big (} {\ tfrac {1} {n}} X'X {\ big)} ^ {- 1} {\ tfrac {1} {n}} X '\ varepsilon = \ beta \; + \; {\ bigg (} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} x '_ {i} {\ bigg)} ^ {\! \! - 1} {\ bigg (} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} \ varepsilon _ {i} {\ bigg)} }

Podemos usar la ley de los grandes números para establecer que

{\ Displaystyle {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} x '_ {i} \ {\ xrightarrow {p}} \ \ operatorname {E} [ x_ {i} x_ {i} '] = {\ frac {Q_ {xx}} {n}}, \ qquad {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} \ varepsilon _ {i} \ {\ xrightarrow {p}} \ \ operatorname {E} [x_ {i} \ varepsilon _ {i}] = 0}

Por el teorema de Slutsky y teorema de la aplicación continua de estos resultados se pueden combinar para establecer la consistencia de estimador ${\ Displaystyle {\ widehat {\ beta}}}$ :

{\ displaystyle {\ widehat {\ beta}} \ {\ xrightarrow {p}} \ \ beta + nQ_ {xx} ^ {- 1} \ cdot 0 = \ beta}

El teorema del límite central nos dice que

{\ Displaystyle {\ frac {1} {\ sqrt {n}}} \ sum _ {i = 1} ^ {n} x_ {i} \ varepsilon _ {i} \ {\ xrightarrow {d}} \ {\ mathcal {N}} {\ big (} 0, \, V {\ big)},}

dónde

{\ displaystyle V = \ operatorname {Var} [x_ {i} \ varepsilon _ {i}] = \ operatorname {E} [\, \ varepsilon _ {i} ^ {2} x_ {i} x '_ {i } \,] = \ operatorname {E} {\ big [} \, \ operatorname {E} [\ varepsilon _ {i} ^ {2} \ mid x_ {i}] \; x_ {i} x '_ { i} \, {\ big]} = \ sigma ^ {2} {\ frac {Q_ {xx}} {n}}}

Aplicando el teorema de Slutsky de nuevo tendremos

{\ Displaystyle {\ sqrt {n}} ({\ widehat {\ beta}} - \ beta) = {\ bigg (} {\ frac {1} {n}} \ sum _ {i = 1} ^ {n } x_ {i} x '_ {i} {\ bigg)} ^ {\! \! - 1} {\ bigg (} {\ frac {1} {\ sqrt {n}}} \ sum _ {i = 1} ^ {n} x_ {i} \ varepsilon _ {i} {\ bigg)} \ {\ xrightarrow {d}} \ Q_ {xx} ^ {- 1} n \ cdot {\ mathcal {N}} { \ big (} 0, \ sigma ^ {2} {\ frac {Q_ {xx}} {n}} {\ big)} = {\ mathcal {N}} {\ big (} 0, \ sigma ^ {2 } Q_ {xx} ^ {- 1} n {\ big)}}

Enfoque de máxima verosimilitud

La estimación de máxima verosimilitud es una técnica genérica para estimar los parámetros desconocidos en un modelo estadístico mediante la construcción de una función logarítmica de verosimilitud correspondiente a la distribución conjunta de los datos, luego maximizando esta función sobre todos los posibles valores de los parámetros. Para aplicar este método, tenemos que hacer una suposición sobre la distribución de y dada X para que se pueda construir la función logarítmica de verosimilitud. La conexión de la estimación de máxima verosimilitud con MCO surge cuando esta distribución se modela como una normal multivariante .

Específicamente, se supone que los errores ε tienen distribución normal multivariante con media 0 y varianza matriz σ ²I . Entonces la distribución de y condicionalmente en X es

{\ Displaystyle y \ mid X \ \ sim \ {\ mathcal {N}} (X \ beta, \, \ sigma ^ {2} I)}

y la función de probabilidad logarítmica de los datos será

{\ Displaystyle {\ begin {alineado} {\ mathcal {L}} (\ beta, \ sigma ^ {2} \ mid X) & = \ ln {\ bigg (} {\ frac {1} {(2 \ pi ) ^ {n / 2} (\ sigma ^ {2}) ^ {n / 2}}} e ^ {- {\ frac {1} {2}} (yX \ beta) '(\ sigma ^ {2} I) ^ {- 1} (yX \ beta)} {\ bigg)} \\ [6pt] & = - {\ frac {n} {2}} \ ln 2 \ pi - {\ frac {n} {2 }} \ ln \ sigma ^ {2} - {\ frac {1} {2 \ sigma ^ {2}}} (yX \ beta) '(yX \ beta) \ end {alineado}}}

Diferenciando esta expresión con respecto a β y σ ² encontraremos las estimaciones de ML de estos parámetros:

{\ displaystyle {\ begin {alineado} {\ frac {\ parcial {\ mathcal {L}}} {\ parcial \ beta '}} & = - {\ frac {1} {2 \ sigma ^ {2}}} {\ Big (} -2X'y + 2X'X \ beta {\ Big)} = 0 \ quad \ Rightarrow \ quad {\ widehat {\ beta}} = (X'X) ^ {- 1} X'y \\ [6pt] {\ frac {\ parcial {\ mathcal {L}}} {\ parcial \ sigma ^ {2}}} & = - {\ frac {n} {2}} {\ frac {1} { \ sigma ^ {2}}} + {\ frac {1} {2 \ sigma ^ {4}}} (yX \ beta) '(yX \ beta) = 0 \ quad \ Rightarrow \ quad {\ widehat {\ sigma }} ^ {\, 2} = {\ frac {1} {n}} (yX {\ widehat {\ beta}}) '(yX {\ widehat {\ beta}}) = {\ frac {1} { n}} S ({\ widehat {\ beta}}) \ end {alineado}}}

Podemos comprobar que este es realmente un máximo observando la matriz hessiana de la función logarítmica de verosimilitud.

Distribución de muestra finita

Dado que hemos asumido en esta sección que se sabe que la distribución de los términos de error es normal, es posible derivar las expresiones explícitas para las distribuciones de los estimadores ${\ Displaystyle {\ widehat {\ beta}}}$ y ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$ :

{\ Displaystyle {\ widehat {\ beta}} = (X'X) ^ {- 1} X'y = (X'X) ^ {- 1} X '(X \ beta + \ varepsilon) = \ beta + (X'X) ^ {- 1} X '{\ mathcal {N}} (0, \ sigma ^ {2} I)}

de modo que por las propiedades de transformación afines de la distribución normal multivariante

{\ Displaystyle {\ widehat {\ beta}} \ mid X \ \ sim \ {\ mathcal {N}} (\ beta, \, \ sigma ^ {2} (X'X) ^ {- 1}).}

Del mismo modo, la distribución de ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$ sigue desde

{\ Displaystyle {\ begin {alineado} {\ widehat {\ sigma}} ^ {\, 2} & = {\ tfrac {1} {n}} (yX (X'X) ^ {- 1} X'y ) '(yX (X'X) ^ {- 1} X'y) \\ [5pt] & = {\ tfrac {1} {n}} (Mi)' Mi \\ [5pt] & = {\ tfrac {1} {n}} (X \ beta + \ varepsilon) 'M (X \ beta + \ varepsilon) \\ [5pt] & = {\ tfrac {1} {n}} \ varepsilon' M \ varepsilon, \ final {alineado}}}

dónde ${\ Displaystyle M = IX (X'X) ^ {- 1} X '}$ es la matriz de proyección simétrica en el subespacio ortogonal a X , y por lo tanto MX = X ′ M = 0. Hemos argumentado antes que esta matriz tiene un rango n - p , y por lo tanto por las propiedades de la distribución chi-cuadrado ,

{\ Displaystyle {\ tfrac {n} {\ sigma ^ {2}}} {\ widehat {\ sigma}} ^ {\, 2} \ mid X = (\ varepsilon / \ sigma) 'M (\ varepsilon / \ sigma) \ \ sim \ \ chi _ {np} ^ {2}}

Además, los estimadores ${\ Displaystyle {\ widehat {\ beta}}}$ y ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$ resultan ser independientes (condicionales a X ), hecho que es fundamental para la construcción de las clásicas pruebas t y F. La independencia se puede ver fácilmente a partir de lo siguiente: el estimador ${\ Displaystyle {\ widehat {\ beta}}}$ representa los coeficientes de descomposición vectorial de ${\ Displaystyle {\ widehat {y}} = X {\ widehat {\ beta}} = Py = X \ beta + P \ varepsilon}$ por la base de columnas de X , como tal ${\ Displaystyle {\ widehat {\ beta}}}$ es una función de Pε . Al mismo tiempo, el estimador ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$ es una norma del vector Mε dividido por n , por lo que este estimador es una función de Mε . Ahora, las variables aleatorias ( Pε , Mε ) son conjuntamente normales como una transformación lineal de ε , y tampoco están correlacionadas porque PM = 0. Por las propiedades de la distribución normal multivariada, esto significa que Pε y Mε son independientes, y por lo tanto estimadores ${\ Displaystyle {\ widehat {\ beta}}}$ y ${\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}$ será independiente también.

Derivación de estimadores de regresión lineal simple

Buscamos ${\ displaystyle {\ widehat {\ alpha}}}$ y ${\ Displaystyle {\ widehat {\ beta}}}$ que minimizan la suma de errores cuadrados (SSE):

{\ Displaystyle \ min _ {{\ widehat {\ alpha}}, {\ widehat {\ beta}}} \, \ operatorname {SSE} \ left ({\ widehat {\ alpha}}, {\ widehat {\ beta }} \ right) \ equiv \ min _ {{\ widehat {\ alpha}}, {\ widehat {\ beta}}} \ sum _ {i = 1} ^ {n} \ left (y_ {i} - { \ widehat {\ alpha}} - {\ widehat {\ beta}} x_ {i} \ right) ^ {2}}

Para encontrar un mínimo, tome derivadas parciales con respecto a ${\ displaystyle {\ widehat {\ alpha}}}$ y ${\ Displaystyle {\ widehat {\ beta}}}$

{\ displaystyle {\ begin {alineado} & {\ frac {\ parcial} {\ parcial {\ widehat {\ alpha}}}} \ left (\ operatorname {SSE} \ left ({\ widehat {\ alpha}}, {\ widehat {\ beta}} \ right) \ right) = - 2 \ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {\ alpha}} - {\ widehat { \ beta}} x_ {i} \ right) = 0 \\ [4pt] \ Rightarrow {} & \ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ widehat {\ alpha} } - {\ widehat {\ beta}} x_ {i} \ right) = 0 \\ [4pt] \ Rightarrow {} & \ sum _ {i = 1} ^ {n} y_ {i} = \ sum _ { i = 1} ^ {n} {\ widehat {\ alpha}} + {\ widehat {\ beta}} \ sum _ {i = 1} ^ {n} x_ {i} \\ [4pt] \ Rightarrow {} & \ sum _ {i = 1} ^ {n} y_ {i} = n {\ widehat {\ alpha}} + {\ widehat {\ beta}} \ sum _ {i = 1} ^ {n} x_ { i} \\ [4pt] \ Rightarrow {} & {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} y_ {i} = {\ widehat {\ alpha}} + {\ frac {1} {n}} {\ widehat {\ beta}} \ sum _ {i = 1} ^ {n} x_ {i} \\ [4pt] \ Rightarrow {} & {\ bar {y}} = {\ widehat {\ alpha}} + {\ widehat {\ beta}} {\ bar {x}} \ end {alineado}}}

Antes de tomar derivada parcial con respecto a ${\ Displaystyle {\ widehat {\ beta}}}$ , sustituye el resultado anterior por ${\ displaystyle {\ widehat {\ alpha}}.}$

{\ Displaystyle \ min _ {{\ widehat {\ alpha}}, {\ widehat {\ beta}}} \ sum _ {i = 1} ^ {n} \ left [y_ {i} - \ left ({\ bar {y}} - {\ widehat {\ beta}} {\ bar {x}} \ right) - {\ widehat {\ beta}} x_ {i} \ right] ^ {2} = \ min _ {{ \ widehat {\ alpha}}, {\ widehat {\ beta}}} \ sum _ {i = 1} ^ {n} \ left [\ left (y_ {i} - {\ bar {y}} \ right) - {\ widehat {\ beta}} \ left (x_ {i} - {\ bar {x}} \ right) \ right] ^ {2}}

Ahora, tome la derivada con respecto a ${\ Displaystyle {\ widehat {\ beta}}}$ :

{\ displaystyle {\ begin {alineado} & {\ frac {\ parcial} {\ parcial {\ widehat {\ beta}}}} \ left (\ operatorname {SSE} \ left ({\ widehat {\ alpha}}, {\ widehat {\ beta}} \ right) \ right) = - 2 \ sum _ {i = 1} ^ {n} \ left [\ left (y_ {i} - {\ bar {y}} \ right) - {\ widehat {\ beta}} \ left (x_ {i} - {\ bar {x}} \ right) \ right] \ left (x_ {i} - {\ bar {x}} \ right) = 0 \\\ Flecha derecha {} & \ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ bar {y}} \ right) \ left (x_ {i} - {\ bar {x }} \ right) - {\ widehat {\ beta}} \ sum _ {i = 1} ^ {n} \ left (x_ {i} - {\ bar {x}} \ right) ^ {2} = 0 \\\ Flecha derecha {} & {\ widehat {\ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} \ left (y_ {i} - {\ bar {y}} \ right) \ left (x_ {i} - {\ bar {x}} \ right)} {\ sum _ {i = 1} ^ {n} \ left (x_ {i} - {\ bar {x}} \ right) ^ {2}}} = {\ frac {\ operatorname {Cov} (x, y)} {\ operatorname {Var} (x)}} \ end {alineado}}}

Y finalmente sustituye ${\ Displaystyle {\ widehat {\ beta}}}$ para determinar ${\ displaystyle {\ widehat {\ alpha}}}$

{\ displaystyle {\ widehat {\ alpha}} = {\ bar {y}} - {\ widehat {\ beta}} {\ bar {x}}}