C p de malvas

En estadística , el C _{p de} Mallows , ^[1]^[2] llamado así por Colin Lingwood Mallows , se usa para evaluar el ajuste de un modelo de regresión que se ha estimado usando mínimos cuadrados ordinarios . Se aplica en el contexto de la selección del modelo , donde hay una serie de variables predictoras disponibles para predecir algún resultado, y el objetivo es encontrar el mejor modelo que involucre un subconjunto de estos predictores. Un valor pequeño de C _p significa que el modelo es relativamente preciso.

Se ha demostrado que el C _{p de} Mallows es equivalente al criterio de información de Akaike en el caso especial de la regresión lineal gaussiana . ^[3]

Definición y propiedades

El C _p de Mallows aborda el problema del sobreajuste , en el que las estadísticas de selección del modelo, como la suma de cuadrados residual, siempre se vuelven más pequeñas a medida que se agregan más variables a un modelo. Por lo tanto, si nuestro objetivo es seleccionar el modelo que da la suma de cuadrados residual más pequeña, siempre se seleccionaría el modelo que incluye todas las variables. En cambio, el estadístico C _p calculado en una muestra de datos estima el error de predicción de la suma al cuadrado (SSPE) como su objetivo de población

{\ Displaystyle E \ sum _ {i} ({\ hat {Y}} _ {i} -E (Y_ {i} \ mid X_ {i})) ^ {2} / \ sigma ^ {2},}

dónde ${\ Displaystyle {\ hat {Y}} _ {i}}$ es el valor ajustado del modelo de regresión para el i- ésimo caso, E ( Y _i | X _i ) es el valor esperado para el i- ésimo caso y σ ² es la varianza del error (se asume constante en todos los casos). El MSPE no se reducirá automáticamente a medida que se agreguen más variables. El modelo óptimo bajo este criterio es un compromiso influenciado por el tamaño de la muestra, los tamaños del efecto de los diferentes predictores y el grado de colinealidad entre ellos.

Si los regresores P se seleccionan de un conjunto de K > P , el estadístico C _p para ese conjunto particular de regresores se define como:

{\ Displaystyle C_ {p} = {SSE_ {p} \ over S ^ {2}} - N + 2 (P + 1),}

dónde

${\ Displaystyle SSE_ {p} = \ sum _ {i = 1} ^ {N} (Y_ {i} -Y_ {pi}) ^ {2}}$ es la suma de los cuadrados del error para el modelo con regresores P ,
Y _pi es el valor predicho de la i- ésima observación de Y de los P regresores ,
S ² es el cuadrado medio residual después de la regresión sobre el conjunto completo de regresores K y se puede estimar mediante el error cuadrático medio MSE ,
y N es el tamaño de la muestra .

Definición alternativa

Dado un modelo lineal como:

{\ Displaystyle Y = \ beta _ {0} + \ beta _ {1} X_ {1} + \ cdots + \ beta _ {p} X_ {p} + \ varepsilon}

dónde:

${\ Displaystyle \ beta _ {0}, \ ldots, \ beta _ {p}}$ son coeficientes para variables predictoras ${\ Displaystyle X_ {1}, \ ldots, X_ {p}}$
${\ Displaystyle \ varepsilon}$ representa error

Una versión alternativa de C _p también se puede definir como: ^[4]

{\ Displaystyle C_ {p} = {\ frac {1} {n}} (\ operatorname {RSS} + 2d {\ hat {\ sigma}} ^ {2})}

dónde

RSS es la suma residual de cuadrados en un conjunto de datos de entrenamiento
$d$ es el número de predictores
y ${\ Displaystyle {\ hat {\ sigma}} ^ {2}}$ se refiere a una estimación de la varianza asociada con cada respuesta en el modelo lineal (estimada en un modelo que contiene todos los predictores)

Tenga en cuenta que esta versión de C _p no da valores equivalentes a la versión anterior, pero el modelo con el C _p más pequeño de esta definición también será el mismo modelo con el C _p más pequeño de la definición anterior.

Limitaciones

El criterio C _p adolece de dos limitaciones principales ^[5]

la aproximación C _p solo es válida para muestras de gran tamaño;
el C _p no puede manejar colecciones complejas de modelos como en el problema de selección de variables (o selección de características ). ^[5]

Uso práctico

El estadístico C _p se usa a menudo como una regla de parada para varias formas de regresión escalonada . Mallows propuso la estadística como criterio para seleccionar entre muchas regresiones de subconjuntos alternativos. En un modelo que no sufre de una falta de ajuste apreciable (sesgo), C _p tiene una expectativa casi igual a P ; de lo contrario, la expectativa es aproximadamente P más un término de sesgo positivo. Sin embargo, aunque tiene una expectativa mayor o igual a P , no hay nada que evite C _p < P o incluso C _p <0 en casos extremos. Se sugiere que uno debe elegir un subconjunto que tiene C _p acercarse P , ^[6] desde arriba, para obtener una lista de subconjuntos clasificadas por el aumento de P . En la práctica, el sesgo positivo se puede ajustar por la selección de un modelo de la lista ordenada de subconjuntos, de manera que C _p <2 P .

Dado que el estadístico C _p basado en la muestra es una estimación del MSPE, el uso de C _p para la selección del modelo no protege completamente contra el sobreajuste. Por ejemplo, es posible que el modelo seleccionado sea uno en el que la muestra C _{p sea} una subestimación particularmente severa del MSPE.

Las estadísticas de selección de modelos, como C _p , generalmente no se utilizan a ciegas, sino que en el proceso de selección del modelo se tiene en cuenta la información sobre el campo de aplicación, el uso previsto del modelo y cualquier sesgo conocido en los datos.

Ver también

Referencias

↑ Mallows, CL (1973). "Algunos comentarios sobre C _P ". Tecnometría . 15 (4): 661–675. doi : 10.2307 / 1267380 . JSTOR 1267380 .
^ Gilmour, Steven G. (1996). "La interpretación de C _p- estadístico de Mallows". Revista de la Sociedad Real de Estadística, Serie D . 45 (1): 49–56. JSTOR 2348411 .
^ Boisbunon, Aurélie; Canu, Stephane; Fourdrinier, Dominique; Strawderman, William; Wells, Martin T. (2013). "AIC, C _p y estimadores de pérdida para distribuciones elípticamente simétricas". arXiv : 1308.2766 [ math.ST ].
^ James, Gareth; Witten; Hastie; Tibshirani (24 de junio de 2013). Introducción al aprendizaje estadístico . http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf : Springer. págs. 211 . ISBN 978-1-4614-7138-7.Mantenimiento de CS1: ubicación ( enlace )
^ a b Giraud, C. (2015), Introducción a las estadísticas de alta dimensión , Chapman & Hall / CRC, ISBN 9781482237948
^ Daniel, C .; Madera, F. (1980). Ajuste de ecuaciones a datos (Rev. ed.). Nueva York: Wiley & Sons, Inc.

Otras lecturas

Chow, Gregory C. (1983). Econometría . Nueva York: McGraw-Hill. págs. 291-293 . ISBN 978-0-07-010847-9.
Hocking, RR (1976). "El análisis y selección de variables en regresión lineal". Biometría . 32 (1): 1–50. CiteSeerX 10.1.1.472.4742 . doi : 10.2307 / 2529336 . JSTOR 2529336 .
Juez, George G .; Griffiths, William E .; Hill, R. Carter; Lee, Tsoung-Chao (1980). La teoría y práctica de la econometría . Nueva York: Wiley. págs. 417–423. ISBN 978-0-471-05938-7.

[1] Mallows, CL (1973). "Algunos comentarios sobre C _P ". Tecnometría . 15 (4): 661–675. doi : 10.2307 / 1267380 . JSTOR 1267380 .

[2] Gilmour, Steven G. (1996). "La interpretación de C _p- estadístico de Mallows". Revista de la Sociedad Real de Estadística, Serie D . 45 (1): 49–56. JSTOR 2348411 .

[3] Boisbunon, Aurélie; Canu, Stephane; Fourdrinier, Dominique; Strawderman, William; Wells, Martin T. (2013). "AIC, C _p y estimadores de pérdida para distribuciones elípticamente simétricas". arXiv : 1308.2766 [ math.ST ].

[4] James, Gareth; Witten; Hastie; Tibshirani (24 de junio de 2013). Introducción al aprendizaje estadístico . http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf : Springer. págs. 211 . ISBN 978-1-4614-7138-7.Mantenimiento de CS1: ubicación ( enlace )

[Giraud-5] Giraud, C. (2015), Introducción a las estadísticas de alta dimensión , Chapman & Hall / CRC, ISBN 9781482237948

[6] Daniel, C .; Madera, F. (1980). Ajuste de ecuaciones a datos (Rev. ed.). Nueva York: Wiley & Sons, Inc.

[1]