En estadística , la suma de cuadrados explicada (ESS), también conocida como suma de cuadrados del modelo o suma de cuadrados debido a la regresión ( "SSR" , que no debe confundirse con la suma de cuadrados residual RSS o suma de cuadrados de errores) , es una cantidad utilizada para describir qué tan bien un modelo, a menudo un modelo de regresión , representa los datos que se modelan. En particular, la suma de cuadrados explicada mide cuánta variación hay en los valores modelados y esto se compara con la suma total de cuadrados (TSS), que mide cuánta variación hay en los datos observados, y con la suma residual de cuadrícula, que mide la variación en el error entre los datos observados y los valores modelados.
Definición
La suma de cuadrados explicada (ESS) es la suma de los cuadrados de las desviaciones de los valores predichos del valor medio de una variable de respuesta, en un modelo de regresión estándar ; por ejemplo, y i = a + b 1 x 1 i + b 2 x 2 i + ... + ε i , donde y i es el i ésimo observación de la variable de respuesta , x ji es el i ésimo observación de la j ésimo variable explicativa , una y b j son coeficientes , i índices las observaciones de 1 an , y ε i es el i- ésimo valor del término de error . En general, cuanto mayor es la ESS, mejor se comporta el modelo estimado.
Si y son los coeficientes estimados , entonces
es el i- ésimo valor predicho de la variable de respuesta. El ESS es entonces:
- dónde el valor estimado por la línea de regresión. [1]
En algunos casos (ver más abajo): suma total de cuadrados (TSS) = suma explicada de cuadrados (ESS) + suma residual de cuadrados ( RSS ).
Partición en regresión lineal simple
La siguiente igualdad, indicando que la suma total de cuadrados (TSS) es igual a la suma de cuadrados residual (= SSE: la suma de los errores al cuadrado de predicción) más la suma de cuadrados explicada (SSR: la suma de cuadrados debido a la regresión o explicado suma de cuadrados), es generalmente cierto en regresión lineal simple:
Derivación simple
Cuadre ambos lados y sume todo i :
Así es como el último término anterior es cero de la regresión lineal simple [2]
Entonces,
Por lo tanto,
Partición en el modelo general de mínimos cuadrados ordinarios
El modelo de regresión general con n observaciones y k explicadores, el primero de los cuales es un vector unitario constante cuyo coeficiente es la intersección de la regresión, es
donde y es un vector n × 1 de observaciones de variables dependientes, cada columna de la matriz n × k X es un vector de observaciones en uno de los k explicadores,es un vector k × 1 de coeficientes verdaderos, ye es un vector n × 1 de los verdaderos errores subyacentes. El estimador de mínimos cuadrados ordinarios para es
El vector residual es , entonces la suma residual de cuadrados es, después de la simplificación,
Denotar como el vector constante cuyos elementos son la media muestral de los valores de las variables dependientes en el vector y . Entonces la suma total de cuadrados es
La suma de cuadrados explicada, definida como la suma de las desviaciones al cuadrado de los valores predichos de la media observada de y , es
Utilizando en esto, y simplificando para obtener , da el resultado de que TSS = ESS + RSS si y solo si. El lado izquierdo de esto esmultiplicado por la suma de los elementos de y , y el lado derecho es multiplicado por la suma de los elementos de , por lo que la condición es que la suma de los elementos de y sea igual a la suma de los elementos de, o equivalentemente que la suma de los errores de predicción (residuales) es cero. Puede verse que esto es cierto si se observa la conocida propiedad MCO de que el vector k × 1: dado que la primera columna de X es un vector de unos, el primer elemento de este vectores la suma de los residuos y es igual a cero. Esto prueba que la condición se cumple para el resultado de que TSS = ESS + RSS .
En términos de álgebra lineal, tenemos , , . La prueba se puede simplificar notando que. La prueba es como sigue:
Por lo tanto,
que nuevamente da el resultado de que TSS = ESS + RSS , ya que.
Ver también
Notas
- ^ "Suma de cuadrados - definición, fórmulas, análisis de regresión" . Instituto de Finanzas Corporativas . Consultado el 11 de junio de 2020 .
- ^ Mendenhall, William (2009). Introducción a la probabilidad y la estadística (13ª ed.). Belmont, CA: Brooks / Cole. pag. 507. ISBN 9780495389538.
Referencias
- SE Maxwell y HD Delaney (1990), "Diseño de experimentos y análisis de datos: una perspectiva de comparación de modelos". Wadsworth. págs. 289–290.
- GA Milliken y DE Johnson (1984), "Análisis de datos confusos", vol. I: Diseñé experimentos. Van Nostrand Reinhold. págs. 146-151.
- BG Tabachnick y LS Fidell (2007), "Diseño experimental usando ANOVA". Duxbury. pag. 220.
- BG Tabachnick y LS Fidell (2007), "Uso de estadísticas multivariadas", 5ª ed. Educación Pearson. págs. 217–218.