Coeficiente de determinación

En estadística , el coeficiente de determinación , denotado R ² o r ² y pronunciado "R cuadrado", es la proporción de la varianza en la variable dependiente que es predecible a partir de las variables independientes.

Regresión ordinaria de mínimos cuadrados de la ley de Okun . Dado que la línea de regresión no pierde mucho ninguno de los puntos, el R ² de la regresión es relativamente alto.

Comparación del estimador de Theil-Sen (negro) y la regresión lineal simple (azul) para un conjunto de puntos con valores atípicos . Debido a los muchos valores atípicos, ninguna de las líneas de regresión se ajusta bien a los datos, según lo medido por el hecho de que ninguna da un R ² muy alto .

Es una estadística utilizada en el contexto de modelos estadísticos cuyo propósito principal es la predicción de resultados futuros o la prueba de hipótesis , sobre la base de otra información relacionada. Proporciona una medida de qué tan bien los resultados observados son replicados por el modelo, según la proporción de la variación total de los resultados explicada por el modelo. ^[1]^[2]^[3]

Hay varias definiciones de R ² que solo a veces son equivalentes. Una clase de tales casos incluye la regresión lineal simple donde se usa r ^{2 en} lugar de R ² . Cuando se incluye una intersección , entonces r ² es simplemente el cuadrado del coeficiente de correlación muestral (es decir, r ) entre los resultados observados y los valores predictores observados. ^[4] Si se incluyen regresores adicionales , R ² es el cuadrado del coeficiente de correlación múltiple . En ambos casos, el coeficiente de determinación normalmente varía de 0 a 1.

Hay casos en los que la definición computacional de R ² puede arrojar valores negativos, dependiendo de la definición utilizada. Esto puede surgir cuando las predicciones que se comparan con los resultados correspondientes no se han derivado de un procedimiento de ajuste de modelos utilizando esos datos. Incluso si se ha utilizado un procedimiento de ajuste de modelo, R ² todavía puede ser negativo, por ejemplo, cuando la regresión lineal se lleva a cabo sin incluir una intercepción, ^[5] o cuando una función no lineal se utiliza para ajustar los datos. ^[6] En los casos en que surgen valores negativos, la media de los datos proporciona un mejor ajuste a los resultados que los valores de la función ajustada, de acuerdo con este criterio en particular.

Al evaluar la bondad de ajuste de los valores simulados ( Y _pred ) frente a los medidos ( Y _obs ), no es apropiado basar esto en el R ² de la regresión lineal (es decir, Y _obs = m · Y _pred + b ). ^[7] El R ² cuantifica el grado de cualquier correlación lineal entre Y _obs y Y _pred , mientras que para la evaluación de bondad de ajuste solo debe tenerse en cuenta una correlación lineal específica: Y _obs = 1 · Y _pred + 0 ( es decir, la línea 1: 1). ^[8]^[9]

Definiciones

{\ Displaystyle R ^ {2} = 1 - {\ frac {\ color {blue} {SS _ {\ text {res}}}} {\ color {red} {SS _ {\ text {tot}}}}}}

Cuanto mejor se ajusta la regresión lineal (a la derecha) a los datos en comparación con el promedio simple (en el gráfico de la izquierda), más se acerca el valor de

{\ Displaystyle R ^ {2}}

es a 1. Las áreas de los cuadrados azules representan los residuos al cuadrado con respecto a la regresión lineal. Las áreas de los cuadrados rojos representan los residuos al cuadrado con respecto al valor promedio.

Un conjunto de datos tiene n valores marcados y ₁ , ..., y _n (conocidos colectivamente como y _i o como un vector y = [ y ₁ , ..., y _n ] ^T ), cada uno asociado con un ajuste (o modelo , o predicho) valor f ₁ , ..., f _n (conocido como f _i , oa veces ŷ _i , como vector f ).

Defina los residuos como e _i = y _i - f _i (formando un vector e ).

Si ${\ Displaystyle {\ bar {y}}}$ es la media de los datos observados:

{\ Displaystyle {\ bar {y}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} y_ {i}}

entonces la variabilidad del conjunto de datos se puede medir con dos fórmulas de sumas de cuadrados :

La suma total de cuadrados (proporcional a la varianza de los datos):

{\ Displaystyle SS _ {\ text {tot}} = \ sum _ {i} (y_ {i} - {\ bar {y}}) ^ {2}}

La suma de cuadrados de residuos, también llamada suma de cuadrados de residuos :

{\ Displaystyle SS _ {\ text {res}} = \ sum _ {i} (y_ {i} -f_ {i}) ^ {2} = \ sum _ {i} e_ {i} ^ {2} \, }

La definición más general del coeficiente de determinación es

{\ Displaystyle R ^ {2} = 1- {SS _ {\ rm {res}} \ sobre SS _ {\ rm {tot}}} \,}

En el mejor de los casos, los valores modelados coinciden exactamente con los valores observados, lo que da como resultado ${\ displaystyle SS _ {\ text {res}} = 0}$ y ${\ Displaystyle R ^ {2} = 1}$ . Un modelo de línea de base, que siempre predice ${\ Displaystyle {\ bar {y}}}$ , tendrá ${\ displaystyle R ^ {2} = 0}$ . Los modelos que tienen peores predicciones que esta línea de base tendrán un resultado negativo ${\ Displaystyle R ^ {2}}$ .

Relación con la varianza inexplicable

En una forma general, se puede ver que R ² está relacionado con la fracción de varianza inexplicada (FVU), ya que el segundo término compara la varianza inexplicada (varianza de los errores del modelo) con la varianza total (de los datos):

{\ displaystyle R ^ {2} = 1 - {\ text {FVU}}}

Como varianza explicada

Suponga que R ² = 0,49. Esto implica que se ha tenido en cuenta el 49% de la variabilidad de la variable dependiente en el conjunto de datos, y el 51% restante de la variabilidad aún no se tiene en cuenta. Para los modelos de regresión, la suma de cuadrados de la regresión, también llamada suma de cuadrados explicada , se define como

{\ Displaystyle SS _ {\ text {reg}} = \ sum _ {i} (f_ {i} - {\ bar {y}}) ^ {2}}

En algunos casos, como en la regresión lineal simple , la suma total de cuadrados es igual a la suma de las otras dos sumas de cuadrados definidas anteriormente:

{\ Displaystyle SS _ {\ text {res}} + SS _ {\ text {reg}} = SS _ {\ text {tot}}}

Consulte Particionamiento en el modelo MCO general para obtener una derivación de este resultado para un caso en el que se cumple la relación. Cuando esta relación se mantiene, la definición anterior de R ² es equivalente a

{\ Displaystyle R ^ {2} = {\ frac {SS _ {\ text {reg}}} {SS _ {\ text {tot}}}} = {\ frac {SS _ {\ text {reg}} / n} { SS _ {\ text {tot}} / n}}}

donde n es el número de observaciones (casos) sobre las variables.

De esta forma, R ² se expresa como la relación entre la varianza explicada (varianza de las predicciones del modelo, que es SS _reg / n ) y la varianza total (varianza muestral de la variable dependiente, que es SS _tot / n ).

Esta partición de la suma de cuadrados se cumple, por ejemplo, cuando los valores del modelo ƒ _i se han obtenido mediante regresión lineal . Una condición suficientemente leve dice lo siguiente: El modelo tiene la forma

{\ Displaystyle f_ {i} = {\ widehat {\ alpha}} + {\ widehat {\ beta}} q_ {i} \,}

donde q _i son valores arbitrarios que pueden o no depender de i o de otros parámetros libres (la opción común q _i = x _i es solo un caso especial), y las estimaciones de coeficientes ${\ displaystyle {\ widehat {\ alpha}}}$ y ${\ Displaystyle {\ widehat {\ beta}}}$ se obtienen minimizando la suma residual de cuadrados.

Este conjunto de condiciones es importante y tiene varias implicaciones para las propiedades de los residuos ajustados y los valores modelados. En particular, bajo estas condiciones:

{\ displaystyle {\ bar {f}} = {\ bar {y}}. \,}

Como coeficiente de correlación al cuadrado

En la regresión múltiple lineal por mínimos cuadrados con un término de intersección estimado, R ² es igual al cuadrado del coeficiente de correlación de Pearson entre los valores observados ${\ Displaystyle y}$ y modelado (predicho) ${\ Displaystyle f}$ valores de datos de la variable dependiente.

En una regresión lineal de mínimos cuadrados con un término de intersección y un solo explicador , esto también es igual al coeficiente de correlación de Pearson al cuadrado de la variable dependiente ${\ Displaystyle y}$ y variable explicativa ${\ Displaystyle x.}$

No debe confundirse con el coeficiente de correlación entre dos estimaciones, definido como

{\ displaystyle \ rho _ {{\ widehat {\ alpha}}, {\ widehat {\ beta}}} = {\ operatorname {cov} \ left ({\ widehat {\ alpha}}, {\ widehat {\ beta }} \ right) \ over \ sigma _ {\ widehat {\ alpha}} \ sigma _ {\ widehat {\ beta}}},}

donde la covarianza entre dos estimaciones de coeficientes, así como sus desviaciones estándar , se obtienen de la matriz de covarianza de las estimaciones de coeficientes.

En condiciones de modelado más generales, donde los valores predichos pueden generarse a partir de un modelo diferente de la regresión lineal de mínimos cuadrados, se puede calcular un valor R ² como el cuadrado del coeficiente de correlación entre el valor original. ${\ Displaystyle y}$ y modelado ${\ Displaystyle f}$ valores de datos. En este caso, el valor no es directamente una medida de cuán buenos son los valores modelados, sino más bien una medida de cuán bueno se podría construir un predictor a partir de los valores modelados (creando un predictor revisado de la forma α + βƒ _i ). ^{[ cita requerida ]} Según Everitt (p. 78), ^[10] este uso es específicamente la definición del término "coeficiente de determinación": el cuadrado de la correlación entre dos variables (generales).

Interpretación

R ² es una estadística que proporcionará información sobre la bondad de ajuste de un modelo. ^[7] En regresión, el coeficiente de determinación R ² es una medida estadística de qué tan bien se aproximan las predicciones de regresión a los puntos de datos reales. Un R ² de 1 indica que las predicciones de regresión se ajustan perfectamente a los datos.

Los valores de R ² fuera del rango de 0 a 1 pueden ocurrir cuando el modelo se ajusta a los datos peor que un hiperplano horizontal. Esto ocurriría cuando se eligió el modelo incorrecto o se aplicaron restricciones sin sentido por error. Si la ecuación 1 de Kvålseth ^[11] se utiliza (esta es la ecuación utilizada más a menudo), R ² puede ser menor que cero. Si se utiliza la ecuación 2 de Kvålseth, R ² puede ser mayor que uno.

En todos los casos en los que R ² es utilizado, los predictores se calculan por ordinario de mínimos cuadrados de regresión: es decir, reduciendo al mínimo SS _res . En este caso, R ² aumenta a medida que aumenta el número de variables en el modelo ( R ² es monótono y aumenta con el número de variables incluidas; nunca disminuirá). Esto ilustra un inconveniente de un posible uso de R ² , donde uno podría seguir agregando variables ( regresión del fregadero de la cocina ) para aumentar el valor de R ² . Por ejemplo, si uno está tratando de predecir las ventas de un modelo de automóvil a partir del consumo de combustible, el precio y la potencia del motor del automóvil, se pueden incluir factores tan irrelevantes como la primera letra del nombre del modelo o la altura del ingeniero jefe que diseña. el automóvil porque el R ² nunca disminuirá a medida que se agregan variables y probablemente experimentará un aumento debido solo al azar.

Esto conduce al enfoque alternativo de considerar el R 2 ajustado . La explicación de esta estadística es casi la misma que la de R ^2, pero penaliza la estadística ya que se incluyen variables adicionales en el modelo. Para casos distintos al ajuste por mínimos cuadrados ordinarios, el estadístico R ² se puede calcular como se indicó anteriormente y aún puede ser una medida útil. Si el ajuste es por mínimos cuadrados ponderados o mínimos cuadrados generalizados , se pueden calcular versiones alternativas de R ² apropiadas para esos marcos estadísticos, mientras que el R ² "crudo" todavía puede ser útil si se interpreta más fácilmente. Los valores de R ² se pueden calcular para cualquier tipo de modelo predictivo, que no necesita tener una base estadística.

En un modelo lineal multivariado

Considere un modelo lineal con más de una variable explicativa , de la forma

{\ Displaystyle Y_ {i} = \ beta _ {0} + \ sum _ {j = 1} ^ {p} \ beta _ {j} X_ {i, j} + \ varepsilon _ {i},}

donde, para el i- ésimo caso, ${\ Displaystyle {Y_ {i}}}$ es la variable de respuesta, ${\ Displaystyle X_ {i, 1}, \ dots, X_ {i, p}}$ son p regresores, y ${\ Displaystyle \ varepsilon _ {i}}$ es un término de error cero medio . Las cantidades ${\ Displaystyle \ beta _ {0}, \ dots, \ beta _ {p}}$ son coeficientes desconocidos, cuyos valores se estiman por mínimos cuadrados . El coeficiente de determinación R ² es una medida del ajuste global del modelo. Específicamente, R ² es un elemento de [0, 1] y representa la proporción de variabilidad en Y _i que se puede atribuir a una combinación lineal de los regresores ( variables explicativas ) en X . ^[12]

R ^{2 a} menudo se interpreta como la proporción de variación de respuesta "explicada" por los regresores del modelo. Por tanto, R ² = 1 indica que el modelo ajustado explica toda la variabilidad en ${\ Displaystyle y}$ , mientras que R ² = 0 indica que no hay una relación 'lineal' (para la regresión en línea recta, esto significa que el modelo en línea recta es una línea constante (pendiente = 0, intersección = ${\ Displaystyle {\ bar {y}}}$ ) entre la variable de respuesta y los regresores). Un valor interior como R ² = 0,7 se puede interpretar de la siguiente manera: "El setenta por ciento de la varianza en la variable de respuesta se puede explicar por las variables explicativas. El treinta por ciento restante se puede atribuir a variables desconocidas, acechantes o variabilidad inherente".

Una precaución que se aplica a R ² , como a otras descripciones estadísticas de correlación y asociación es que " correlación no implica causalidad ." En otras palabras, si bien las correlaciones a veces pueden proporcionar pistas valiosas para descubrir relaciones causales entre variables, una correlación estimada distinta de cero entre dos variables no es, por sí sola, evidencia de que cambiar el valor de una variable resultaría en cambios en los valores de otras variables. Por ejemplo, la práctica de llevar fósforos (o un encendedor) se correlaciona con la incidencia de cáncer de pulmón, pero llevar fósforos no causa cáncer (en el sentido estándar de "causa").

En caso de un único regresor, equipado por mínimos cuadrados, R ² es el cuadrado de la producto-momento coeficiente de correlación de Pearson que relaciona el regresor y la variable de respuesta. De manera más general, R ² es el cuadrado de la correlación entre el predictor construido y la variable de respuesta. Con más de un regresor, el R ² puede denominarse coeficiente de determinación múltiple .

Inflación de R ²

En los mínimos cuadrados de regresión utilizando datos típicos, R ² es al menos débilmente aumenta con los aumentos en el número de regresores en el modelo. Debido a que los aumentos en el número de regresores aumentan el valor de R ² , el R ^{2 por} sí solo no puede usarse como una comparación significativa de modelos con números muy diferentes de variables independientes. Para una comparación significativa entre dos modelos, se puede realizar una prueba F en la suma de cuadrados residual , similar a las pruebas F en la causalidad de Granger , aunque esto no siempre es apropiado. Como recordatorio de esto, algunos autores denotan R ² por R _q² , donde q es el número de columnas en X (el número de explicadores que incluye la constante).

Para demostrar esta propiedad, primero recuerde que el objetivo de la regresión lineal por mínimos cuadrados es

{\ Displaystyle \ min _ {b} SS _ {\ text {res}} (b) \ Flecha derecha \ min _ {b} \ sum _ {i} (y_ {i} -X_ {i} b) ^ {2} \,}

donde X _i es un vector de fila de valores de variables explicativas para el caso i y b es un vector de columna de coeficientes de los elementos respectivos de X _i .

El valor óptimo del objetivo es ligeramente menor a medida que se agregan más variables explicativas y, por lo tanto, columnas adicionales de ${\ Displaystyle X}$ (la matriz de datos explicativos cuya i- ésima fila es X _i ) se añaden, por el hecho de que una minimización menos restringida conduce a un costo óptimo que es débilmente menor que lo que hace una minimización más restringida. Dada la conclusión anterior y señalando que ${\ Displaystyle SS_ {tot}}$ depende sólo de y , la propiedad no decreciente de R ^{2 se} deriva directamente de la definición anterior.

La razón intuitiva por la que el uso de una variable explicativa adicional no puede reducir el R ² es la siguiente: Minimizar ${\ Displaystyle SS _ {\ text {res}}}$ es equivalente a maximizar R ² . Cuando se incluye la variable extra, los datos siempre tienen la opción de darle un coeficiente estimado de cero, dejando los valores predichos y el R ² sin cambios. La única forma en que el problema de optimización dará un coeficiente distinto de cero es si al hacerlo se mejora el R ² .

Advertencias

R ² no indica si:

las variables independientes son una causa de los cambios en la variable dependiente ;
existe sesgo de variable omitida ;
se utilizó la regresión correcta ;
se ha elegido el conjunto de variables independientes más apropiado;
existe colinealidad presente en los datos sobre las variables explicativas;
el modelo podría mejorarse utilizando versiones transformadas del conjunto existente de variables independientes;
hay suficientes puntos de datos para llegar a una conclusión sólida.

Extensiones

R ² ajustado

El uso de un R ² ajustado (una notación común es ${\ Displaystyle {\ bar {R}} ^ {2}}$ , pronunciado "barra R al cuadrado"; otro es ${\ Displaystyle R _ {\ text {adj}} ^ {2}}$ ) es un intento de explicar el fenómeno de la R ^{2 que} aumenta automáticamente y de manera espuria cuando se agregan variables explicativas adicionales al modelo. Hay muchas formas diferentes de ajuste (consulte ^[13] para obtener una descripción general). Con mucho, la más utilizada, hasta el punto de que normalmente se la conoce como R ajustada , es la corrección propuesta por Mordecai Ezekiel . ^[13]^[14] El R ² ajustado (según Ezequiel) se define como

{\ Displaystyle {\ bar {R}} ^ {2} = 1- (1-R ^ {2}) {n-1 \ over np-1}}

donde p es el número total de variables explicativas en el modelo (sin incluir el término constante) y n es el tamaño de la muestra. También se puede escribir como:

{\ displaystyle {\ bar {R}} ^ {2} = {1- {SS _ {\ text {res}} / {\ text {df}} _ {e} \ over SS _ {\ text {tot}} / {\ text {df}} _ {t}}}}

donde df _t son los grados de libertad n - 1 de la estimación de la varianza poblacional de la variable dependiente, y df _e son los grados de libertad n - p - 1 de la estimación de la varianza del error poblacional subyacente.

El ajustado R ² puede ser negativo, y su valor será siempre menor o igual a la de R ² . A diferencia de R ² , el R ² ajustado aumenta sólo cuando el aumento de R ² (debido a la inclusión de una nueva variable explicativa) es mayor de lo que uno esperaría ver por casualidad. Si un conjunto de variables explicativas con una jerarquía de importancia predeterminada se introduce en una regresión de una en una, con el R ² ajustado calculado cada vez, el nivel en el que el R ² ajustado alcanza un máximo y luego disminuye, sería la regresión. con la combinación ideal de tener el mejor ajuste sin términos excesivos / innecesarios.

El R ² ajustado se puede interpretar como un estimador menos sesgado de la población R ² , mientras que la muestra observada R ² es una estimación con sesgo positivo del valor de la población. ^[15] Ajustado R ² es más apropiado al evaluar el ajuste del modelo (la varianza en la variable dependiente explicada por las variables independientes) y en la comparación de modelos alternativos en la selección de características etapa de construcción del modelo. ^[15]

El principio detrás del estadístico R ² ajustado puede verse reescribiendo el R ² ordinario como

{\ displaystyle R ^ {2} = {1 - {{\ textit {VAR}} _ {\ text {res}} \ over {\ textit {VAR}} _ {\ text {tot}}}}}

dónde ${\ Displaystyle {\ text {VAR}} _ {\ text {res}} = SS _ {\ text {res}} / n}$ y ${\ Displaystyle {\ text {VAR}} _ {\ text {tot}} = SS _ {\ text {tot}} / n}$ son las varianzas muestrales de los residuos estimados y la variable dependiente respectivamente, que pueden verse como estimaciones sesgadas de las varianzas poblacionales de los errores y de la variable dependiente. Estas estimaciones se reemplazan por versiones estadísticamente no sesgadas : ${\ displaystyle {\ text {VAR}} _ {\ text {res}} = SS _ {\ text {res}} / (np-1)}$ y ${\ Displaystyle {\ text {VAR}} _ {\ text {tot}} = SS _ {\ text {tot}} / (n-1)}$ .

A pesar de utilizar estimadores insesgados para las varianzas poblacionales del error y la variable dependiente, R ² ajustado no es un estimador insesgado de la población R ² , ^[15] que resulta al usar las varianzas poblacionales de los errores y la variable dependiente en lugar de estimar ellos. Ingram Olkin y John W. Pratt derivaron el estimador insesgado de varianza mínima para la población R ² , ^[16] que se conoce como estimador de Olkin-Pratt. Las comparaciones de diferentes enfoques para ajustar R ² concluyeron que en la mayoría de las situaciones debería preferirse una versión aproximada del estimador de Olkin-Pratt ^[15] o el estimador de Olkin-Pratt exacto ^[17] sobre el R ² ajustado (Ezequiel) .

Coeficiente de determinación parcial

El coeficiente de determinación parcial se puede definir como la proporción de variación que no se puede explicar en un modelo reducido, pero que se puede explicar mediante los predictores especificados en un modelo completo (más). ^[18]^[19]^[20] Este coeficiente se utiliza para proporcionar información sobre si uno o más predictores adicionales pueden ser útiles en un modelo de regresión más completamente especificado.

El cálculo del R ² parcial es relativamente sencillo después de estimar dos modelos y generar las tablas ANOVA para ellos. El cálculo para el R ² parcial es

{\ Displaystyle {\ frac {SS _ {\ text {res, reducido}} - SS _ {\ text {res, completo}}} {SS _ {\ text {res, reducido}}}},}

que es análogo al coeficiente de determinación habitual:

{\ Displaystyle {\ frac {SS _ {\ text {tot}} - SS _ {\ text {res}}} {SS _ {\ text {tot}}}}.}

Generalización y descomposición de R ² ^[21]

Como se explicó anteriormente, las heurísticas de selección de modelos como el ${\ Displaystyle R ^ {2}}$ criterio y la prueba F examinan si el total ${\ Displaystyle R ^ {2}}$ aumenta lo suficiente para determinar si se debe agregar un nuevo regresor al modelo. Si se agrega un regresor al modelo que está altamente correlacionado con otros regresores que ya se han incluido, entonces el total ${\ Displaystyle R ^ {2}}$ difícilmente aumentará, incluso si el nuevo regresor es relevante. Como resultado, las heurísticas mencionadas anteriormente ignorarán los regresores relevantes cuando las correlaciones cruzadas sean altas.

Representación geométrica de

{\ Displaystyle r ^ {2}}

.

Alternativamente, se puede descomponer una versión generalizada de ${\ Displaystyle R ^ {2}}$ cuantificar la relevancia de desviarse de una hipótesis. ^[21] Como Hoornweg (2018) muestra, varios estimadores de contracción - como Bayesiano de regresión lineal , regresión cresta , y la (adaptativa) lasso - hacer uso de esta descomposición de ${\ Displaystyle R ^ {2}}$ cuando reducen gradualmente los parámetros de las soluciones MCO irrestrictas hacia los valores hipotéticos. Primero definamos el modelo de regresión lineal como

{\ Displaystyle y = X \ beta + \ varepsilon.}

Se supone que la matriz ${\ Displaystyle X}$ está estandarizado con puntajes Z y que el vector de columna ${\ Displaystyle y}$ está centrado para tener una media de cero. Deje que la columna vector ${\ Displaystyle \ beta _ {0}}$ consulte los parámetros de regresión hipotéticos y deje que el vector de columna ${\ Displaystyle b}$ denotar los parámetros estimados. Entonces podemos definir

{\ Displaystyle R ^ {2} = 1 - {\ frac {(y-Xb) '(y-Xb)} {(yX \ beta _ {0})' (yX \ beta _ {0})}}. }

Un ${\ Displaystyle R ^ {2}}$ del 75% significa que la precisión en la muestra mejora en un 75% si los datos optimizados ${\ Displaystyle b}$ se utilizan soluciones en lugar de las hipotéticas ${\ Displaystyle \ beta _ {0}}$ valores. En el caso especial de que ${\ Displaystyle \ beta _ {0}}$ es un vector de ceros, obtenemos el tradicional ${\ Displaystyle R ^ {2}}$ de nuevo.

El efecto individual sobre ${\ Displaystyle R ^ {2}}$ de desviarse de una hipótesis se puede calcular con ${\ Displaystyle R ^ {\ otimes}}$ ('R-exterior'). Esto ${\ Displaystyle p}$ veces ${\ Displaystyle p}$ la matriz está dada por

{\ displaystyle R ^ {\ otimes} = (X '{\ tilde {y}} _ {0}) (X' {\ tilde {y}} _ {0}) '(X'X) ^ {- 1 } ({\ tilde {y}} _ {0} '{\ tilde {y}} _ {0}) ^ {- 1},}

dónde ${\ Displaystyle {\ tilde {y}} _ {0} = yX \ beta _ {0}}$ . Los elementos diagonales de ${\ Displaystyle R ^ {\ otimes}}$ exactamente suman ${\ Displaystyle R ^ {2}}$ . Si los regresores no están correlacionados y ${\ Displaystyle \ beta _ {0}}$ es un vector de ceros, entonces el ${\ Displaystyle j ^ {\ text {th}}}$ elemento diagonal de ${\ Displaystyle R ^ {\ otimes}}$ simplemente corresponde a la ${\ Displaystyle r ^ {2}}$ valor entre ${\ Displaystyle x_ {j}}$ y ${\ Displaystyle y}$ . Cuando regresores ${\ Displaystyle x_ {i}}$ y ${\ Displaystyle x_ {j}}$ están correlacionados, ${\ Displaystyle R_ {ii} ^ {\ otimes}}$ podría aumentar a costa de una disminución en ${\ Displaystyle R_ {jj} ^ {\ otimes}}$ . Como resultado, los elementos diagonales de ${\ Displaystyle R ^ {\ otimes}}$ puede ser menor que 0 y, en casos más excepcionales, mayor que 1. Para hacer frente a tales incertidumbres, varios estimadores de contracción toman implícitamente un promedio ponderado de los elementos diagonales de ${\ Displaystyle R ^ {\ otimes}}$ cuantificar la relevancia de desviarse de un valor hipotético. ^[21] Haga clic en el lazo para ver un ejemplo.

R ² en regresión logística

En el caso de la regresión logística , generalmente ajustada por máxima verosimilitud , hay varias opciones de pseudo-R 2 .

Uno es el R ² generalizado propuesto originalmente por Cox & Snell, ^[22] e independientemente por Magee: ^[23]

{\ Displaystyle R ^ {2} = 1- \ left ({{\ mathcal {L}} (0) \ over {\ mathcal {L}} ({\ widehat {\ theta}})} \ right) ^ { 2 / n}}

dónde ${\ Displaystyle {\ mathcal {L}} (0)}$ es la probabilidad del modelo con solo la intersección, ${\ Displaystyle {{\ mathcal {L}} ({\ widehat {\ theta}})}}$ es la probabilidad del modelo estimado (es decir, el modelo con un conjunto dado de estimaciones de parámetros) y n es el tamaño de la muestra. Se reescribe fácilmente a:

{\ Displaystyle R ^ {2} = 1-e ^ {{\ frac {2} {n}} (\ ln ({\ mathcal {L}} (0)) - \ ln ({\ mathcal {L}} ({\ widehat {\ theta}}))} = 1-e ^ {- D / n}}

donde D es el estadístico de prueba de la prueba de razón de verosimilitud .

Nagelkerke ^[24] señaló que tenía las siguientes propiedades:

Es consistente con el coeficiente de determinación clásico cuando ambos pueden calcularse;
Su valor se maximiza mediante la estimación de máxima verosimilitud de un modelo;
Es asintóticamente independiente del tamaño de la muestra;
La interpretación es la proporción de la variación explicada por el modelo;
Los valores están entre 0 y 1, donde 0 indica que el modelo no explica ninguna variación y 1 indica que explica perfectamente la variación observada;
No tiene ninguna unidad.

Sin embargo, en el caso de un modelo logístico, donde ${\ Displaystyle {\ mathcal {L}} ({\ widehat {\ theta}})}$ no puede ser mayor que 1, R ² está entre 0 y ${\ Displaystyle R _ {\ max} ^ {2} = 1 - ({\ mathcal {L}} (0)) ^ {2 / n}}$ : así, Nagelkerke sugirió la posibilidad de definir un R ² escalado como R ² / R ²_máx . ^[25]

Comparación con norma de residuos

Ocasionalmente, la norma de residuos se usa para indicar bondad de ajuste. Este término se calcula como la raíz cuadrada de la suma de los cuadrados de los residuos :

{\ displaystyle {\ text {norma de residuos}} = {\ sqrt {SS _ {\ text {res}}}} = \ | e \ |.}

Tanto R ² como la norma de residuos tienen sus méritos relativos. Para el análisis de mínimos cuadrados , R ² varía entre 0 y 1, con números más grandes que indican mejores ajustes y 1 que representa un ajuste perfecto. La norma de los residuos varía de 0 a infinito, con números más pequeños que indican mejores ajustes y cero que indica un ajuste perfecto. Una ventaja y desventaja de R ² es la ${\ Displaystyle SS _ {\ text {tot}}}$ término actúa para normalizar el valor. Si todos los valores de y _i se multiplican por una constante, la norma de los residuos también cambiará por esa constante, pero R ² permanecerá igual. Como ejemplo básico, para el ajuste de mínimos cuadrados lineales al conjunto de datos:

{\ displaystyle {\ begin {array} {rcrrrrr} x & = & 1, & 2, & 3, & 4, & 5 \\ y & = & 1.9, & 3.7, & 5.8, & 8.0, & 9.6 \ end {array }}}

R ² = 0,998 y norma de residuos = 0,302. Si todos los valores de y se multiplican por 1000 (por ejemplo, en un prefijo SI cambio), entonces R ² sigue siendo la misma, pero norma de residuos = 302.

Otro indicador de ajuste de un solo parámetro es el RMSE de los residuales, o desviación estándar de los residuales. Esto tendría un valor de 0,135 para el ejemplo anterior dado que el ajuste era lineal con una intersección no forzada. ^[26]

Historia

La creación del coeficiente de determinación se atribuyó al genetista Sewall Wright y se publicó por primera vez en 1921 ^[27].

Ver también

Cuarteto de Anscombe
Fracción de varianza inexplicable
Bondad de ajuste
Coeficiente de eficiencia del modelo de Nash-Sutcliffe ( aplicaciones hidrológicas )
Coeficiente de correlación producto-momento de Pearson
Reducción proporcional de la pérdida
Validación del modelo de regresión
Desviación cuadrática media
Regresión escalonada
t -prueba de H 0 : R 2 = 0. {\ Displaystyle H_ {0} \ colon R ^ {2} = 0.}

Notas

^ Acero, RGD; Torrie, JH (1960). Principios y procedimientos de la estadística con especial referencia a las ciencias biológicas . McGraw Hill .
^ Glantz, Stanton A .; Slinker, BK (1990). Manual de regresión aplicada y análisis de varianza . McGraw-Hill. ISBN 978-0-07-023407-9.
^ Draper, NR; Smith, H. (1998). Análisis de regresión aplicado . Wiley-Interscience. ISBN 978-0-471-17082-2.
^ Devore, Jay L. (2011). Probabilidad y estadística para la ingeniería y las ciencias (8ª ed.). Boston, MA: Cengage Learning. págs. 508–510. ISBN 978-0-538-73352-6.
^ Barten, Anton P. (1987). "El coeficiente de determinación de regresión sin un término constante". En Heijmans, Risto; Neudecker, Heinz (eds.). La práctica de la econometría . Dordrecht: Kluwer. págs. 181-189. ISBN 90-247-3502-5.
^ Colin Cameron, A .; Windmeijer, Frank AG (1997). "Una medida R-cuadrado de bondad de ajuste para algunos modelos de regresión no lineal comunes". Revista de Econometría . 77 (2): 1790–2. doi : 10.1016 / S0304-4076 (96) 01818-0 .
^ a b Se necesita una cita
^ Legados, RD; McCabe, GJ (1999). "Evaluación del uso de medidas de" bondad de ajuste "en la validación de modelos hidrológicos e hidroclimáticos" . Recurso de agua. Res . 35 (1): 233–241. Código Bibliográfico : 1999WRR .... 35..233L . doi : 10.1029 / 1998WR900018 .
^ Ritter, A .; Muñoz-Carpena, R. (2013). "Evaluación del desempeño de modelos hidrológicos: significación estadística para reducir la subjetividad en evaluaciones de bondad de ajuste". Revista de hidrología . 480 (1): 33–45. Código bibliográfico : 2013JHyd..480 ... 33R . doi : 10.1016 / j.jhydrol.2012.12.004 .
^ Everitt, BS (2002). Diccionario de Estadística de Cambridge (2ª ed.). TAZA. ISBN 978-0-521-81099-9.
^ Kvalseth, Tarald O. (1985). "Nota de advertencia sobre R2". El estadístico estadounidense . 39 (4): 279-285. doi : 10.2307 / 2683704 . JSTOR 2683704 .
^ Computación R2 ajustado para regresiones polinomiales
^ a b Raju, Nambury S .; Bilgic, Reyhan; Edwards, Jack E .; Fleer, Paul F. (1997). "Revisión de la metodología: estimación de la validez de la población y la validez cruzada, y el uso de pesos iguales en la predicción" . Medición psicológica aplicada . 21 (4): 291-305. doi : 10.1177 / 01466216970214001 . ISSN 0146-6216 . S2CID 122308344 .
^ Yin, ping; Fan, Xitao (enero de 2001). "Estimación de la contracción de R 2 en regresión múltiple: una comparación de diferentes métodos analíticos" . La Revista de Educación Experimental . 69 (2): 203–224. doi : 10.1080 / 00220970109600656 . ISSN 1940-0683 0022-0973, 1940-0683 Comprobar |issn=valor ( ayuda ) . S2CID 121614674 . Consultado el 23 de abril de 2021 .
^ a b c d Shieh, Gwowen (1 de abril de 2008). "Mejoró la estimación de la contracción del coeficiente de correlación múltiple al cuadrado y el coeficiente de validez cruzada al cuadrado". Métodos de investigación organizacional . 11 (2): 387–407. doi : 10.1177 / 1094428106292901 . ISSN 1094-4281 . S2CID 55098407 .
^ Olkin, Ingram; Pratt, John W. (marzo de 1958). "Estimación imparcial de ciertos coeficientes de correlación" . Los Anales de Estadística Matemática . 29 (1): 201–211. doi : 10.1214 / aoms / 1177706717 . ISSN 2168-8990 0003-4851, 2168-8990 Comprobar |issn=valor ( ayuda ) .
^ Karch, Julian (29 de septiembre de 2020). "Mejora en R-cuadrado ajustado" . Collabra: Psicología . 6 (45). doi : 10.1525 / collabra.343 . ISSN 2474-7394 .
^ Richard Anderson-Sprecher, " Comparaciones de modelos y R 2 ", The American Statistician , Volumen 48, Número 2, 1994, págs. 113-117.
^ (generalizado a máxima verosimilitud ) NJD Nagelkerke, " Una nota sobre una definición general del coeficiente de determinación ", Biometrika , vol. 78, núm. 3. (septiembre de 1991), págs. 691–692.
^ "Implementación R del coeficiente de determinación parcial"
^ a b c Hoornweg, Victor (2018). "Parte II: Mantener los parámetros fijos" . Ciencia: Bajo presentación . Prensa de Hoornweg. ISBN 978-90-829188-0-9.
^ Cox, DD; Snell, EJ (1989). El análisis de datos binarios (2ª ed.). Chapman y Hall.
^ Magee, L. (1990). " R ² medidas basadas en Wald y pruebas de significancia conjunta de razón de verosimilitud". El estadístico estadounidense . 44 . págs. 250–3. doi : 10.1080 / 00031305.1990.10475731 .
^ Nagelkerke, Nico JD (1992). Estimación de máxima verosimilitud de relaciones funcionales, Pays-Bas . Apuntes de conferencias en estadística. 69 . ISBN 978-0-387-97721-8.
^ Nagelkerke, NJD (1991). "Nota sobre una definición general del coeficiente de determinación". Biometrika . 78 (3): 691–2. doi : 10.1093 / biomet / 78.3.691 . JSTOR 2337038 .
^ Página web de OriginLab, http://www.originlab.com/doc/Origin-Help/LR-Algorithm . Consultado el 9 de febrero de 2016.
^ Wright, Sewall (enero de 1921). "Correlación y causalidad". Revista de Investigación Agrícola . 20 : 557–585.

Otras lecturas

Gujarati, Damodar N .; Porter, Dawn C. (2009). Econometría básica (Quinta ed.). Nueva York: McGraw-Hill / Irwin. págs. 73–78. ISBN 978-0-07-337577-9.
Hughes, Ann; Grawoig, Dennis (1971). Estadística: una base para el análisis . Lectura: Addison-Wesley. págs. 344–348 . ISBN 0-201-03021-7.
Kmenta, Jan (1986). Elementos de Econometría (Segunda ed.). Nueva York: Macmillan. págs. 240–243 . ISBN 978-0-02-365070-3.
Lewis-Beck, Michael S .; Skalaban, Andrew (1990). "The R -Squared: Some Straight Talk". Análisis político . 2 : 153-171. doi : 10.1093 / pan / 2.1.153 . JSTOR 23317769 .

[1] Acero, RGD; Torrie, JH (1960). Principios y procedimientos de la estadística con especial referencia a las ciencias biológicas . McGraw Hill .

[2] Glantz, Stanton A .; Slinker, BK (1990). Manual de regresión aplicada y análisis de varianza . McGraw-Hill. ISBN 978-0-07-023407-9.

[3] Draper, NR; Smith, H. (1998). Análisis de regresión aplicado . Wiley-Interscience. ISBN 978-0-471-17082-2.

[Devore-4] Devore, Jay L. (2011). Probabilidad y estadística para la ingeniería y las ciencias (8ª ed.). Boston, MA: Cengage Learning. págs. 508–510. ISBN 978-0-538-73352-6.

[5] Barten, Anton P. (1987). "El coeficiente de determinación de regresión sin un término constante". En Heijmans, Risto; Neudecker, Heinz (eds.). La práctica de la econometría . Dordrecht: Kluwer. págs. 181-189. ISBN 90-247-3502-5.

[6] Colin Cameron, A .; Windmeijer, Frank AG (1997). "Una medida R-cuadrado de bondad de ajuste para algunos modelos de regresión no lineal comunes". Revista de Econometría . 77 (2): 1790–2. doi : 10.1016 / S0304-4076 (96) 01818-0 .

[Citation_needed-7] Se necesita una cita

[8] Legados, RD; McCabe, GJ (1999). "Evaluación del uso de medidas de" bondad de ajuste "en la validación de modelos hidrológicos e hidroclimáticos" . Recurso de agua. Res . 35 (1): 233–241. Código Bibliográfico : 1999WRR .... 35..233L . doi : 10.1029 / 1998WR900018 .

[9] Ritter, A .; Muñoz-Carpena, R. (2013). "Evaluación del desempeño de modelos hidrológicos: significación estadística para reducir la subjetividad en evaluaciones de bondad de ajuste". Revista de hidrología . 480 (1): 33–45. Código bibliográfico : 2013JHyd..480 ... 33R . doi : 10.1016 / j.jhydrol.2012.12.004 .

[10] Everitt, BS (2002). Diccionario de Estadística de Cambridge (2ª ed.). TAZA. ISBN 978-0-521-81099-9.

[11] Kvalseth, Tarald O. (1985). "Nota de advertencia sobre R2". El estadístico estadounidense . 39 (4): 279-285. doi : 10.2307 / 2683704 . JSTOR 2683704 .

[12] Computación R2 ajustado para regresiones polinomiales

[raju-13] Raju, Nambury S .; Bilgic, Reyhan; Edwards, Jack E .; Fleer, Paul F. (1997). "Revisión de la metodología: estimación de la validez de la población y la validez cruzada, y el uso de pesos iguales en la predicción" . Medición psicológica aplicada . 21 (4): 291-305. doi : 10.1177 / 01466216970214001 . ISSN 0146-6216 . S2CID 122308344 .

[14] Yin, ping; Fan, Xitao (enero de 2001). "Estimación de la contracción de R 2 en regresión múltiple: una comparación de diferentes métodos analíticos" . La Revista de Educación Experimental . 69 (2): 203–224. doi : 10.1080 / 00220970109600656 . ISSN 1940-0683 0022-0973, 1940-0683 Comprobar |issn=valor ( ayuda ) . S2CID 121614674 . Consultado el 23 de abril de 2021 .

[:0-15] Shieh, Gwowen (1 de abril de 2008). "Mejoró la estimación de la contracción del coeficiente de correlación múltiple al cuadrado y el coeficiente de validez cruzada al cuadrado". Métodos de investigación organizacional . 11 (2): 387–407. doi : 10.1177 / 1094428106292901 . ISSN 1094-4281 . S2CID 55098407 .

[16] Olkin, Ingram; Pratt, John W. (marzo de 1958). "Estimación imparcial de ciertos coeficientes de correlación" . Los Anales de Estadística Matemática . 29 (1): 201–211. doi : 10.1214 / aoms / 1177706717 . ISSN 2168-8990 0003-4851, 2168-8990 Comprobar |issn=valor ( ayuda ) .

[17] Karch, Julian (29 de septiembre de 2020). "Mejora en R-cuadrado ajustado" . Collabra: Psicología . 6 (45). doi : 10.1525 / collabra.343 . ISSN 2474-7394 .

[18] Richard Anderson-Sprecher, " Comparaciones de modelos y R 2 ", The American Statistician , Volumen 48, Número 2, 1994, págs. 113-117.

[19] (generalizado a máxima verosimilitud ) NJD Nagelkerke, " Una nota sobre una definición general del coeficiente de determinación ", Biometrika , vol. 78, núm. 3. (septiembre de 1991), págs. 691–692.

[20] "Implementación R del coeficiente de determinación parcial"

[Hoornweg2018SUS-21] Hoornweg, Victor (2018). "Parte II: Mantener los parámetros fijos" . Ciencia: Bajo presentación . Prensa de Hoornweg. ISBN 978-90-829188-0-9.

[22] Cox, DD; Snell, EJ (1989). El análisis de datos binarios (2ª ed.). Chapman y Hall.

[23] Magee, L. (1990). " R ² medidas basadas en Wald y pruebas de significancia conjunta de razón de verosimilitud". El estadístico estadounidense . 44 . págs. 250–3. doi : 10.1080 / 00031305.1990.10475731 .

[24] Nagelkerke, Nico JD (1992). Estimación de máxima verosimilitud de relaciones funcionales, Pays-Bas . Apuntes de conferencias en estadística. 69 . ISBN 978-0-387-97721-8.

[25] Nagelkerke, NJD (1991). "Nota sobre una definición general del coeficiente de determinación". Biometrika . 78 (3): 691–2. doi : 10.1093 / biomet / 78.3.691 . JSTOR 2337038 .

[origin_wp-26] Página web de OriginLab, http://www.originlab.com/doc/Origin-Help/LR-Algorithm . Consultado el 9 de febrero de 2016.

[27] Wright, Sewall (enero de 1921). "Correlación y causalidad". Revista de Investigación Agrícola . 20 : 557–585.

[1]