El propósito de esta página es proporcionar materiales complementarios para el artículo de mínimos cuadrados ordinarios , reduciendo la carga del artículo principal con matemáticas y mejorando su accesibilidad, mientras que al mismo tiempo se mantiene la integridad de la exposición.
Derivación de las ecuaciones normalesDefinir el
th residual a ser
![{\displaystyle r_{i}=y_{i}-\sum _{j=1}^{n}X_{ij}\beta _{j}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Entonces el objetivo
puede ser reescrito
![S=\sum _{i=1}^{m}r_{i}^{2}.](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Dado que S es convexo, se minimiza cuando su vector de gradiente es cero (esto se sigue por definición: si el vector de gradiente no es cero, hay una dirección en la que podemos movernos para minimizarlo aún más, ver máximos y mínimos ) Los elementos del vector de gradiente son las derivadas parciales de S con respecto a los parámetros:
![{\displaystyle {\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i=1}^{m}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}\qquad (j=1,2,\dots ,n).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Los derivados son
![{\frac {\partial r_{i}}{\partial \beta _{j}}}=-X_{ij}.](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La sustitución de las expresiones de los residuos y las derivadas en las ecuaciones de gradiente da
![{\displaystyle {\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i=1}^{m}\left(y_{i}-\sum _{k=1}^{n}X_{ik}\beta _{k}\right)(-X_{ij})\qquad (j=1,2,\dots ,n).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Así que si
minimiza S , tenemos
![{\displaystyle 2\sum _{i=1}^{m}\left(y_{i}-\sum _{k=1}^{n}X_{ik}{\widehat {\beta }}_{k}\right)(-X_{ij})=0\qquad (j=1,2,\dots ,n).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Tras el reordenamiento, obtenemos las ecuaciones normales :
![{\displaystyle \sum _{i=1}^{m}\sum _{k=1}^{n}X_{ij}X_{ik}{\widehat {\beta }}_{k}=\sum _{i=1}^{m}X_{ij}y_{i}\qquad (j=1,2,\dots ,n).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Las ecuaciones normales se escriben en notación matricial como
(donde X T es la transpuesta de la matriz de X ).
La solución de las ecuaciones normales produce el vector
de los valores óptimos de los parámetros.
Derivación directamente en términos de matrices
Las ecuaciones normales se pueden derivar directamente de una representación matricial del problema de la siguiente manera. El objetivo es minimizar
![S({\boldsymbol {\beta }})={\bigl \|}\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}{\bigr \|}^{2}=(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})=\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} -\mathbf {y} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}.](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Aquí
tiene la dimensión 1x1 (el número de columnas de
), por lo que es un escalar e igual a su propia transposición, por lo tanto
y la cantidad a minimizar se convierte en
![S({\boldsymbol {\beta }})=\mathbf {y} ^{\rm {T}}\mathbf {y} -2{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}.](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Diferenciando esto con respecto a
y igualar a cero para satisfacer las condiciones de primer orden da
![-\mathbf {X} ^{\rm {T}}\mathbf {y} +(\mathbf {X} ^{\rm {T}}\mathbf {X} ){\boldsymbol {\beta }}=0,](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
que es equivalente a las ecuaciones normales dadas anteriormente. Una condición suficiente para el cumplimiento de las condiciones de segundo orden para un mínimo es que
tener rango de columna completo, en cuyo caso
es positivo definido .
Derivación sin cálculo
Cuándo
es positivo definido, la fórmula para el valor de minimización de
puede derivarse sin el uso de derivados. La cantidad
![S({\boldsymbol {\beta }})=\mathbf {y} ^{\rm {T}}\mathbf {y} -2{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}\mathbf {X} {\boldsymbol {\beta }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Se puede escribir como
![\langle {\boldsymbol {\beta }},{\boldsymbol {\beta }}\rangle -2\langle {\boldsymbol {\beta }},(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +\langle (\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} ,(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +C,](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
depende solo de
y
, y
es el producto interno definido por
![\langle x,y\rangle =x^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )y.](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Resulta que
es igual a
![\langle {\boldsymbol {\beta }}-(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} ,{\boldsymbol {\beta }}-(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} \rangle +C](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y por lo tanto minimizado exactamente cuando
![{\boldsymbol {\beta }}-(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} =0.](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Generalización para ecuaciones complejas
En general, los coeficientes de las matrices
y
puede ser complejo. Al usar una transposición hermitiana en lugar de una simple transposición, es posible encontrar un vector
que minimiza
, al igual que en el caso de la matriz real. Para obtener las ecuaciones normales seguimos un camino similar al de las derivaciones anteriores:
![{\displaystyle \displaystyle S({\boldsymbol {\beta }})=\langle \mathbf {y} -\mathbf {X} {\boldsymbol {\beta }},\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\rangle =\langle \mathbf {y} ,\mathbf {y} \rangle -{\overline {\langle \mathbf {X} {\boldsymbol {\beta }},\mathbf {y} \rangle }}-{\overline {\langle \mathbf {y} ,\mathbf {X} {\boldsymbol {\beta }}\rangle }}+\langle \mathbf {X} {\boldsymbol {\beta }},\mathbf {X} {\boldsymbol {\beta }}\rangle =\mathbf {y} ^{\rm {T}}{\overline {\mathbf {y} }}-{\boldsymbol {\beta }}^{\dagger }\mathbf {X} ^{\dagger }\mathbf {y} -\mathbf {y} ^{\dagger }\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\beta }}^{\rm {T}}\mathbf {X} ^{\rm {T}}{\overline {\mathbf {X} }}{\overline {\boldsymbol {\beta }}},}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
significa transposición hermitiana.
Ahora deberíamos tomar derivadas de
con respecto a cada uno de los coeficientes
, pero primero separamos las partes reales e imaginarias para tratar los factores conjugados en la expresión anterior. Para el
tenemos
![{\displaystyle \beta _{j}=\beta _{j}^{R}+i\beta _{j}^{I}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y los derivados se transforman en
![{\displaystyle {\frac {\partial S}{\partial \beta _{j}}}={\frac {\partial S}{\partial \beta _{j}^{R}}}{\frac {\partial \beta _{j}^{R}}{\partial \beta _{j}}}+{\frac {\partial S}{\partial \beta _{j}^{I}}}{\frac {\partial \beta _{j}^{I}}{\partial \beta _{j}}}={\frac {\partial S}{\partial \beta _{j}^{R}}}-i{\frac {\partial S}{\partial \beta _{j}^{I}}}\quad (j=1,2,3,\ldots ,n).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Después de reescribir
en forma de resumen y escritura
explícitamente, podemos calcular ambas derivadas parciales con el resultado:
![{\displaystyle {\begin{aligned}{\frac {\partial S}{\partial \beta _{j}^{R}}}={}&-\sum _{i=1}^{m}{\Big (}{\overline {X}}_{ij}y_{i}+{\overline {y}}_{i}X_{ij}{\Big )}+2\sum _{i=1}^{m}X_{ij}{\overline {X}}_{ij}\beta _{j}^{R}+\sum _{i=1}^{m}\sum _{k\neq j}^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta }}_{k}+\beta _{k}X_{ik}{\overline {X}}_{ij}{\Big )},\\[8pt]&{}-i{\frac {\partial S}{\partial \beta _{j}^{I}}}=\sum _{i=1}^{m}{\Big (}{\overline {X}}_{ij}y_{i}-{\overline {y}}_{i}X_{ij}{\Big )}-2i\sum _{i=1}^{m}X_{ij}{\overline {X}}_{ij}\beta _{j}^{I}+\sum _{i=1}^{m}\sum _{k\neq j}^{n}{\Big (}X_{ij}{\overline {X}}_{ik}{\overline {\beta }}_{k}-\beta _{k}X_{ik}{\overline {X}}_{ij}{\Big )},\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
que, después de sumarlo y compararlo con cero (condición de minimización para
) rinde
![{\displaystyle \sum _{i=1}^{m}X_{ij}{\overline {y}}_{i}=\sum _{i=1}^{m}\sum _{k=1}^{n}X_{ij}{\overline {X}}_{ik}{\overline {\widehat {\beta }}}_{k}\qquad (j=1,2,3,\ldots ,n).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
En forma de matriz:
![{\displaystyle {\textbf {X}}^{\rm {T}}{\overline {\textbf {y}}}={\textbf {X}}^{\rm {T}}{\overline {{\big (}{\textbf {X}}{\boldsymbol {\widehat {\beta }}}{\big )}}}\quad {\text{ or }}\quad {\big (}{\textbf {X}}^{\dagger }{\textbf {X}}{\big )}{\boldsymbol {\widehat {\beta }}}={\textbf {X}}^{\dagger }{\textbf {y}}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Estimador de mínimos cuadrados para βUsando la notación matricial, la suma de los residuos cuadrados viene dada por
![{\displaystyle S(\beta )=(y-X\beta )^{T}(y-X\beta ).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Dado que esta es una expresión cuadrática, el vector que da el mínimo global se puede encontrar a través del cálculo de matrices diferenciando con respecto al vector
(usando el diseño del denominador) y estableciendo igual a cero:
![{\displaystyle 0={\frac {dS}{d\beta }}({\widehat {\beta }})={\frac {d}{d\beta }}{\bigg (}y^{T}y-\beta ^{T}X^{T}y-y^{T}X\beta +\beta ^{T}X^{T}X\beta {\bigg )}{\bigg |}_{\beta ={\widehat {\beta }}}=-2X^{T}y+2X^{T}X{\widehat {\beta }}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por supuesto, la matriz X tiene rango de columna completo y, por lo tanto, X T X es invertible y el estimador de mínimos cuadrados para β está dado por
![{\displaystyle {\widehat {\beta }}=(X^{T}X)^{-1}X^{T}y}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Imparcialidad y varianza de ![{\ Displaystyle {\ widehat {\ beta}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Plug y = Xβ + ε en la fórmula para
y luego use la ley de la expectativa total :
![{\displaystyle {\begin{aligned}\operatorname {E} [\,{\widehat {\beta }}]&=\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}(X\beta +\varepsilon ){\Big ]}\\&=\beta +\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon {\Big ]}\\&=\beta +\operatorname {E} {\Big [}\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon \mid X{\Big ]}{\Big ]}\\&=\beta +\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}\operatorname {E} [\varepsilon \mid X]{\Big ]}&=\beta ,\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde E [ ε | X ] = 0 por supuestos del modelo. Dado que el valor esperado de
es igual al parámetro que estima,
, es un estimador insesgado de
.
Para la varianza, sea la matriz de covarianza de
ser
(dónde
es la identidad
matriz), y sea X una constante conocida. Luego,
![{\displaystyle {\begin{aligned}\operatorname {E} [\,({\widehat {\beta }}-\beta )({\widehat {\beta }}-\beta )^{T}]&=\operatorname {E} {\Big [}((X^{T}X)^{-1}X^{T}\varepsilon )((X^{T}X)^{-1}X^{T}\varepsilon )^{T}{\Big ]}\\&=\operatorname {E} {\Big [}(X^{T}X)^{-1}X^{T}\varepsilon \varepsilon ^{T}X(X^{T}X)^{-1}{\Big ]}\\&=(X^{T}X)^{-1}X^{T}\operatorname {E} {\Big [}\varepsilon \varepsilon ^{T}{\Big ]}X(X^{T}X)^{-1}\\&=(X^{T}X)^{-1}X^{T}\sigma ^{2}X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}\\&=\sigma ^{2}(X^{T}X)^{-1},\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde usamos el hecho de que
es solo una transformación afín de
por la matriz
.
Para un modelo de regresión lineal simple, donde
(
es la y interceptación y
es la pendiente), se obtiene
![{\displaystyle {\begin{aligned}\sigma ^{2}(X^{T}X)^{-1}&=\sigma ^{2}\left({\begin{pmatrix}1&1&\cdots \\x_{1}&x_{2}&\cdots \end{pmatrix}}{\begin{pmatrix}1&x_{1}\\1&x_{2}\\\vdots &\vdots \,\,\,\end{pmatrix}}\right)^{-1}\\[6pt]&=\sigma ^{2}\left(\sum _{i=1}^{m}{\begin{pmatrix}1&x_{i}\\x_{i}&x_{i}^{2}\end{pmatrix}}\right)^{-1}\\[6pt]&=\sigma ^{2}{\begin{pmatrix}m&\sum x_{i}\\\sum x_{i}&\sum x_{i}^{2}\end{pmatrix}}^{-1}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\sum x_{i}^{2}-(\sum x_{i})^{2}}}{\begin{pmatrix}\sum x_{i}^{2}&-\sum x_{i}\\-\sum x_{i}&m\end{pmatrix}}\\[6pt]&=\sigma ^{2}\cdot {\frac {1}{m\sum {(x_{i}-{\bar {x}})^{2}}}}{\begin{pmatrix}\sum x_{i}^{2}&-\sum x_{i}\\-\sum x_{i}&m\end{pmatrix}}\\[8pt]\operatorname {Var} ({\widehat {\beta }}_{1})&={\frac {\sigma ^{2}}{\sum _{i=1}^{m}(x_{i}-{\bar {x}})^{2}}}.\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Valor esperado y sesgo de ![{\ Displaystyle {\ widehat {\ sigma}} ^ {\, 2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Primero, ingresaremos la expresión para y en el estimador, y usaremos el hecho de que X'M = MX = 0 (la matriz M se proyecta en el espacio ortogonal a X ):
![{\displaystyle {\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}y'My={\tfrac {1}{n}}(X\beta +\varepsilon )'M(X\beta +\varepsilon )={\tfrac {1}{n}}\varepsilon 'M\varepsilon }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ahora podemos reconocer ε ′ Mε como una matriz de 1 × 1, dicha matriz es igual a su propia traza . Esto es útil porque por las propiedades del operador de rastreo, tr ( AB ) = tr ( BA ), y podemos usar esto para separar la perturbación ε de la matriz M que es una función de los regresores X :
![{\displaystyle \operatorname {E} \,{\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}\operatorname {E} {\big [}\operatorname {tr} (\varepsilon 'M\varepsilon ){\big ]}={\tfrac {1}{n}}\operatorname {tr} {\big (}\operatorname {E} [M\varepsilon \varepsilon ']{\big )}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Usando la ley de la expectativa iterada, esto se puede escribir como
![{\displaystyle \operatorname {E} \,{\widehat {\sigma }}^{\,2}={\tfrac {1}{n}}\operatorname {tr} {\Big (}\operatorname {E} {\big [}M\,\operatorname {E} [\varepsilon \varepsilon '|X]{\big ]}{\Big )}={\tfrac {1}{n}}\operatorname {tr} {\big (}\operatorname {E} [\sigma ^{2}MI]{\big )}={\tfrac {1}{n}}\sigma ^{2}\operatorname {E} {\big [}\operatorname {tr} \,M{\big ]}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Recordemos que M = I - P donde P es la proyección sobre el espacio lineal abarcado por columnas de la matriz X . Según las propiedades de una matriz de proyección , tiene p = valores propios de rango ( X ) iguales a 1, y todos los demás valores propios son iguales a 0. La traza de una matriz es igual a la suma de sus valores característicos, por lo que tr ( P ) = p y tr ( M ) = n - p . Por lo tanto,
![{\displaystyle \operatorname {E} \,{\widehat {\sigma }}^{\,2}={\frac {n-p}{n}}\sigma ^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Dado que el valor esperado de
no es igual al parámetro que estima,
, es un estimador sesgado de
. Observe que en la sección posterior "Máxima probabilidad" mostramos que bajo el supuesto adicional de que los errores se distribuyen normalmente, el estimador
es proporcional a una distribución chi-cuadrado con n - p grados de libertad, de la cual se seguiría inmediatamente la fórmula para el valor esperado. Sin embargo, el resultado que hemos mostrado en esta sección es válido independientemente de la distribución de los errores y, por lo tanto, tiene importancia por sí mismo.
Consistencia y normalidad asintótica de ![{\ Displaystyle {\ widehat {\ beta}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Estimador
Se puede escribir como
![{\displaystyle {\widehat {\beta }}={\big (}{\tfrac {1}{n}}X'X{\big )}^{-1}{\tfrac {1}{n}}X'y=\beta +{\big (}{\tfrac {1}{n}}X'X{\big )}^{-1}{\tfrac {1}{n}}X'\varepsilon =\beta \;+\;{\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}x_{i}x'_{i}{\bigg )}^{\!\!-1}{\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}x_{i}\varepsilon _{i}{\bigg )}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Podemos usar la ley de los grandes números para establecer que
![{\frac {1}{n}}\sum _{{i=1}}^{n}x_{i}x'_{i}\ {\xrightarrow {p}}\ \operatorname {E}[x_{i}x_{i}']={\frac {Q_{{xx}}}{n}},\qquad {\frac {1}{n}}\sum _{{i=1}}^{n}x_{i}\varepsilon _{i}\ {\xrightarrow {p}}\ \operatorname {E}[x_{i}\varepsilon _{i}]=0](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por el teorema de Slutsky y teorema de la aplicación continua de estos resultados se pueden combinar para establecer la consistencia de estimador
:
![{\displaystyle {\widehat {\beta }}\ {\xrightarrow {p}}\ \beta +nQ_{xx}^{-1}\cdot 0=\beta }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El teorema del límite central nos dice que
dónde ![{\displaystyle V=\operatorname {Var} [x_{i}\varepsilon _{i}]=\operatorname {E} [\,\varepsilon _{i}^{2}x_{i}x'_{i}\,]=\operatorname {E} {\big [}\,\operatorname {E} [\varepsilon _{i}^{2}\mid x_{i}]\;x_{i}x'_{i}\,{\big ]}=\sigma ^{2}{\frac {Q_{xx}}{n}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Aplicando el teorema de Slutsky de nuevo tendremos
![{\displaystyle {\sqrt {n}}({\widehat {\beta }}-\beta )={\bigg (}{\frac {1}{n}}\sum _{i=1}^{n}x_{i}x'_{i}{\bigg )}^{\!\!-1}{\bigg (}{\frac {1}{\sqrt {n}}}\sum _{i=1}^{n}x_{i}\varepsilon _{i}{\bigg )}\ {\xrightarrow {d}}\ Q_{xx}^{-1}n\cdot {\mathcal {N}}{\big (}0,\sigma ^{2}{\frac {Q_{xx}}{n}}{\big )}={\mathcal {N}}{\big (}0,\sigma ^{2}Q_{xx}^{-1}n{\big )}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Enfoque de máxima verosimilitudLa estimación de máxima verosimilitud es una técnica genérica para estimar los parámetros desconocidos en un modelo estadístico mediante la construcción de una función logarítmica de verosimilitud correspondiente a la distribución conjunta de los datos, luego maximizando esta función sobre todos los posibles valores de los parámetros. Para aplicar este método, tenemos que hacer una suposición sobre la distribución de y dada X para que se pueda construir la función logarítmica de verosimilitud. La conexión de la estimación de máxima verosimilitud con MCO surge cuando esta distribución se modela como una normal multivariante .
Específicamente, se supone que los errores ε tienen distribución normal multivariante con media 0 y varianza matriz σ 2 I . Entonces la distribución de y condicionalmente en X es
![{\displaystyle y\mid X\ \sim \ {\mathcal {N}}(X\beta ,\,\sigma ^{2}I)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
y la función de probabilidad logarítmica de los datos será
![{\displaystyle {\begin{aligned}{\mathcal {L}}(\beta ,\sigma ^{2}\mid X)&=\ln {\bigg (}{\frac {1}{(2\pi )^{n/2}(\sigma ^{2})^{n/2}}}e^{-{\frac {1}{2}}(y-X\beta )'(\sigma ^{2}I)^{-1}(y-X\beta )}{\bigg )}\\[6pt]&=-{\frac {n}{2}}\ln 2\pi -{\frac {n}{2}}\ln \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}(y-X\beta )'(y-X\beta )\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Diferenciando esta expresión con respecto a β y σ 2 encontraremos las estimaciones de ML de estos parámetros:
![{\displaystyle {\begin{aligned}{\frac {\partial {\mathcal {L}}}{\partial \beta '}}&=-{\frac {1}{2\sigma ^{2}}}{\Big (}-2X'y+2X'X\beta {\Big )}=0\quad \Rightarrow \quad {\widehat {\beta }}=(X'X)^{-1}X'y\\[6pt]{\frac {\partial {\mathcal {L}}}{\partial \sigma ^{2}}}&=-{\frac {n}{2}}{\frac {1}{\sigma ^{2}}}+{\frac {1}{2\sigma ^{4}}}(y-X\beta )'(y-X\beta )=0\quad \Rightarrow \quad {\widehat {\sigma }}^{\,2}={\frac {1}{n}}(y-X{\widehat {\beta }})'(y-X{\widehat {\beta }})={\frac {1}{n}}S({\widehat {\beta }})\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Podemos comprobar que este es realmente un máximo observando la matriz hessiana de la función logarítmica de verosimilitud.
Distribución de muestra finita
Dado que hemos asumido en esta sección que se sabe que la distribución de los términos de error es normal, es posible derivar las expresiones explícitas para las distribuciones de los estimadores
y
:
![{\displaystyle {\widehat {\beta }}=(X'X)^{-1}X'y=(X'X)^{-1}X'(X\beta +\varepsilon )=\beta +(X'X)^{-1}X'{\mathcal {N}}(0,\sigma ^{2}I)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
de modo que por las propiedades de transformación afines de la distribución normal multivariante
![{\displaystyle {\widehat {\beta }}\mid X\ \sim \ {\mathcal {N}}(\beta ,\,\sigma ^{2}(X'X)^{-1}).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Del mismo modo, la distribución de
sigue desde
![{\displaystyle {\begin{aligned}{\widehat {\sigma }}^{\,2}&={\tfrac {1}{n}}(y-X(X'X)^{-1}X'y)'(y-X(X'X)^{-1}X'y)\\[5pt]&={\tfrac {1}{n}}(My)'My\\[5pt]&={\tfrac {1}{n}}(X\beta +\varepsilon )'M(X\beta +\varepsilon )\\[5pt]&={\tfrac {1}{n}}\varepsilon 'M\varepsilon ,\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde
es la matriz de proyección simétrica en el subespacio ortogonal a X , y por lo tanto MX = X ′ M = 0. Hemos argumentado antes que esta matriz tiene un rango n - p , y por lo tanto por las propiedades de la distribución chi-cuadrado ,
![{\displaystyle {\tfrac {n}{\sigma ^{2}}}{\widehat {\sigma }}^{\,2}\mid X=(\varepsilon /\sigma )'M(\varepsilon /\sigma )\ \sim \ \chi _{n-p}^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Además, los estimadores
y
resultan ser independientes (condicionales a X ), hecho que es fundamental para la construcción de las clásicas pruebas t y F. La independencia se puede ver fácilmente a partir de lo siguiente: el estimador
representa los coeficientes de descomposición vectorial de
por la base de columnas de X , como tal
es una función de Pε . Al mismo tiempo, el estimador
es una norma del vector Mε dividido por n , por lo que este estimador es una función de Mε . Ahora, las variables aleatorias ( Pε , Mε ) son conjuntamente normales como una transformación lineal de ε , y tampoco están correlacionadas porque PM = 0. Por las propiedades de la distribución normal multivariada, esto significa que Pε y Mε son independientes, y por lo tanto estimadores
y
será independiente también.
Derivación de estimadores de regresión lineal simpleBuscamos
y
que minimizan la suma de errores cuadrados (SSE):
![{\displaystyle \min _{{\widehat {\alpha }},{\widehat {\beta }}}\,\operatorname {SSE} \left({\widehat {\alpha }},{\widehat {\beta }}\right)\equiv \min _{{\widehat {\alpha }},{\widehat {\beta }}}\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\widehat {\beta }}x_{i}\right)^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Para encontrar un mínimo, tome derivadas parciales con respecto a
y
![{\displaystyle {\begin{aligned}&{\frac {\partial }{\partial {\widehat {\alpha }}}}\left(\operatorname {SSE} \left({\widehat {\alpha }},{\widehat {\beta }}\right)\right)=-2\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\widehat {\beta }}x_{i}\right)=0\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}\left(y_{i}-{\widehat {\alpha }}-{\widehat {\beta }}x_{i}\right)=0\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}y_{i}=\sum _{i=1}^{n}{\widehat {\alpha }}+{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {}&\sum _{i=1}^{n}y_{i}=n{\widehat {\alpha }}+{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {}&{\frac {1}{n}}\sum _{i=1}^{n}y_{i}={\widehat {\alpha }}+{\frac {1}{n}}{\widehat {\beta }}\sum _{i=1}^{n}x_{i}\\[4pt]\Rightarrow {}&{\bar {y}}={\widehat {\alpha }}+{\widehat {\beta }}{\bar {x}}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Antes de tomar derivada parcial con respecto a
, sustituye el resultado anterior por
![{\displaystyle \min _{{\widehat {\alpha }},{\widehat {\beta }}}\sum _{i=1}^{n}\left[y_{i}-\left({\bar {y}}-{\widehat {\beta }}{\bar {x}}\right)-{\widehat {\beta }}x_{i}\right]^{2}=\min _{{\widehat {\alpha }},{\widehat {\beta }}}\sum _{i=1}^{n}\left[\left(y_{i}-{\bar {y}}\right)-{\widehat {\beta }}\left(x_{i}-{\bar {x}}\right)\right]^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ahora, tome la derivada con respecto a
:
![{\displaystyle {\begin{aligned}&{\frac {\partial }{\partial {\widehat {\beta }}}}\left(\operatorname {SSE} \left({\widehat {\alpha }},{\widehat {\beta }}\right)\right)=-2\sum _{i=1}^{n}\left[\left(y_{i}-{\bar {y}}\right)-{\widehat {\beta }}\left(x_{i}-{\bar {x}}\right)\right]\left(x_{i}-{\bar {x}}\right)=0\\\Rightarrow {}&\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)\left(x_{i}-{\bar {x}}\right)-{\widehat {\beta }}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}=0\\\Rightarrow {}&{\widehat {\beta }}={\frac {\sum _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)\left(x_{i}-{\bar {x}}\right)}{\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}={\frac {\operatorname {Cov} (x,y)}{\operatorname {Var} (x)}}\end{aligned}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Y finalmente sustituye
para determinar
![{\displaystyle {\widehat {\alpha }}={\bar {y}}-{\widehat {\beta }}{\bar {x}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)