Regresión escalonada

En estadística , la regresión escalonada es un método de ajuste de modelos de regresión en el que la elección de variables predictivas se realiza mediante un procedimiento automático. ^[1]^[2]^[3]^[4] En cada paso, se considera una variable para sumar o restar del conjunto de variables explicativas en función de algún criterio preespecificado. Por lo general, esto toma la forma de una secuencia de F -pruebas o t -pruebas , pero otras técnicas son posibles, tales como ajustado R ² , Akaike criterio de información , el criterio de información bayesiano, C _{p de} Mallows , PRESS o tasa de descubrimiento falso .

La práctica frecuente de ajustar el modelo final seleccionado seguido de informes de estimaciones e intervalos de confianza sin ajustarlos para tener en cuenta el proceso de construcción del modelo ha llevado a que se deje de utilizar la construcción de modelos por pasos por completo ^[5]^[6] o al menos a asegurarse la incertidumbre del modelo se refleja correctamente. ^[7]^[8]

En este ejemplo de la ingeniería, la necesidad y suficiencia son determinados generalmente por pruebas F . Para una consideración adicional, al planificar un experimento , una simulación por computadora o una encuesta científica para recopilar datos para este modelo , se debe tener en cuenta el número de parámetros , P , para estimar y ajustar el tamaño de la muestra en consecuencia. Para K variables , P = 1 _(Inicio) + K _{(Etapa I)} + ( K ² - K ) / 2 _{(Etapa II)} + 3 K _{(Etapa III)} = 0.5 K ² + 3.5 K + 1. Para K <17 , existe un diseño eficiente de experimentos para este tipo de modelo, un diseño Box-Behnken , ^[9] aumentado con puntos axiales positivos y negativos de longitud min (2, (int (1.5 + K / 4)) ^1/2 ), más punto (s) en el origen. Hay diseños más eficientes que requieren menos corridas, incluso para K > 16.

Enfoques principales

Los principales enfoques son:

Selección hacia adelante , que implica comenzar sin variables en el modelo, probar la adición de cada variable utilizando un criterio de ajuste del modelo elegido, agregar la variable (si la hubiera) cuya inclusión da la mejora estadísticamente más significativa del ajuste y repetir este proceso hasta ninguno mejora el modelo de manera estadísticamente significativa.
Eliminación hacia atrás , que implica comenzar con todas las variables candidatas, probar la eliminación de cada variable utilizando un criterio de ajuste del modelo elegido, eliminar la variable (si la hubiera) cuya pérdida produce el deterioro más insignificante estadísticamente del ajuste del modelo, y repetir este proceso hasta que no Se pueden eliminar más variables sin una pérdida de ajuste estadísticamente insignificante.
Eliminación bidireccional , una combinación de lo anterior, probando en cada paso las variables que se incluirán o excluirán.

Criterio de selección

Efroymson (1960) propuso por primera vez un algoritmo ampliamente utilizado. ^[10] Se trata de un procedimiento automático para la selección del modelo estadístico en los casos en que existe un gran número de posibles variables explicativas y no hay una teoría subyacente en la que basar la selección del modelo. El procedimiento se utiliza principalmente en el análisis de regresión , aunque el enfoque básico es aplicable en muchas formas de selección de modelos. Esta es una variación de la selección hacia adelante. En cada etapa del proceso, después de agregar una nueva variable, se realiza una prueba para verificar si algunas variables pueden eliminarse sin aumentar apreciablemente la suma de cuadrados residual (RSS). El procedimiento termina cuando la medida se maximiza (localmente) o cuando la mejora disponible cae por debajo de algún valor crítico.

Uno de los principales problemas de la regresión escalonada es que busca en un gran espacio de modelos posibles. Por lo tanto, es propenso a sobreajustar los datos. En otras palabras, la regresión por pasos a menudo se ajustará mucho mejor en la muestra que en los datos nuevos fuera de la muestra. Se han observado casos extremos en los que los modelos han alcanzado significación estadística trabajando con números aleatorios. ^[11] Este problema puede mitigarse si el criterio para agregar (o eliminar) una variable es lo suficientemente rígido. La línea clave en la arena está en lo que se puede considerar como el punto de Bonferroni : es decir, cuán significativa debe ser la mejor variable espuria basada solo en el azar. En una escala t- estadística, esto ocurre aproximadamente ${\ Displaystyle {\ sqrt {2 \ log p}}}$ , donde p es el número de predictores. Desafortunadamente, esto significa que no se incluirán muchas variables que realmente transportan la señal. Esta valla resulta ser el equilibrio correcto entre el ajuste excesivo y la falta de señal. Si observamos el riesgo de diferentes cortes, entonces el uso de este límite estará dentro de un ${\ Displaystyle 2 \ log p}$ factor del mejor riesgo posible. Cualquier otro corte terminará teniendo una inflación de riesgo mayor . ^[12]^[13]

Precisión del modelo

Una forma de probar los errores en los modelos creados por regresión paso a paso es no confiar en la estadística F , la significancia o la R múltiple del modelo, sino evaluar el modelo con un conjunto de datos que no se usó para crear el modelo. . ^[14] Esto a menudo se hace construyendo un modelo basado en una muestra del conjunto de datos disponible (por ejemplo, 70%) - el " conjunto de entrenamiento " - y usando el resto del conjunto de datos (por ejemplo, 30%) como un conjunto de validación para evaluar la precisión del modelo. La precisión se mide a menudo como el error estándar real (SE), MAPE ( error de porcentaje absoluto medio ) o error medio entre el valor predicho y el valor real en la muestra reservada. ^[15] Este método es particularmente valioso cuando los datos se recopilan en diferentes entornos (por ejemplo, en diferentes momentos, situaciones sociales frente a situaciones solitarias) o cuando se supone que los modelos son generalizables.

Crítica

Los procedimientos de regresión por pasos se utilizan en la minería de datos , pero son controvertidos. Se han hecho varios puntos de crítica.

Las pruebas en sí están sesgadas, ya que se basan en los mismos datos. ^[16]^[17] Wilkinson y Dallal (1981) ^[18] calcularon los puntos porcentuales del coeficiente de correlación múltiple mediante simulación y mostraron que una regresión final obtenida por selección directa, que según el procedimiento F es significativa al 0,1%, fue de hecho, solo es significativo al 5%.
Al estimar los grados de libertad , el número de variables independientes candidatas del mejor ajuste seleccionado puede ser menor que el número total de variables del modelo final, lo que hace que el ajuste parezca mejor de lo que es cuando se ajusta el valor r ² para el número de grados de libertad. Es importante considerar cuántos grados de libertad se han utilizado en todo el modelo, no solo contar el número de variables independientes en el ajuste resultante. ^[19]
Los modelos que se crean pueden ser simplificaciones excesivas de los modelos reales de los datos. ^[20]

Tales críticas, basadas en las limitaciones de la relación entre un modelo y el procedimiento y el conjunto de datos utilizados para ajustarlo, generalmente se abordan verificando el modelo en un conjunto de datos independientes, como en el procedimiento PRESS .

Los críticos consideran el procedimiento como un ejemplo paradigmático de dragado de datos , siendo la computación intensa a menudo un sustituto inadecuado de la experiencia en el área temática. Además, los resultados de la regresión por pasos a menudo se usan incorrectamente sin ajustarlos para la ocurrencia de la selección del modelo. Especialmente la práctica de ajustar el modelo final seleccionado como si no hubiera tenido lugar una selección del modelo y la presentación de informes de estimaciones e intervalos de confianza como si la teoría de los mínimos cuadrados fuera válida para ellos, ha sido descrita como un escándalo. ^[7] El uso incorrecto generalizado y la disponibilidad de alternativas como el aprendizaje por conjuntos , dejar todas las variables en el modelo o usar el juicio de expertos para identificar las variables relevantes han llevado a llamadas para evitar totalmente la selección del modelo paso a paso. ^[5]

Ver también

La paradoja de Freedman
Regresión logística
Regresión de ángulo mínimo
La navaja de Occam
Validación de regresión

Referencias

^ Efroymson, MA (1960) "Análisis de regresión múltiple", métodos matemáticos para computadoras digitales, Ralston A. y Wilf, HS, (eds.), Wiley, Nueva York.
^ Hocking, RR (1976) "El análisis y selección de variables en regresión lineal" , Biometrics, 32.
^ Draper, N. y Smith, H. (1981) Análisis de regresión aplicado, 2da edición, Nueva York: John Wiley & Sons, Inc.
^ SAS Institute Inc. (1989) SAS / STAT User's Guide, versión 6, cuarta edición, volumen 2, Cary, NC: SAS Institute Inc.
^ a b Flom, PL y Cassell, DL (2007) "Detención paso a paso: por qué los métodos de selección paso a paso y similares son malos y qué debería usar", NESUG 2007.
^ Harrell, FE (2001) "Estrategias de modelado de regresión: con aplicaciones a modelos lineales, regresión logística y análisis de supervivencia", Springer-Verlag, Nueva York.
^ a b Chatfield, C. (1995) "Incertidumbre del modelo, minería de datos e inferencia estadística", JR Statist. Soc. A 158, Part 3, págs. 419–466.
^ Efron, B. y Tibshirani, RJ (1998) "Una introducción al bootstrap", Chapman & Hall / CRC
^ Diseños de Box-Behnken de un manual sobre estadísticas de ingeniería en NIST
^ Efroymson, MA (1960) "Análisis de regresión múltiple". En Ralston, A. y Wilf, HS, editores, Métodos matemáticos para computadoras digitales. Wiley.
^ Knecht, WR. (2005). Disposición del piloto para despegar en condiciones climáticas marginales, Parte II: Sobreajuste de antecedentes con regresión logística progresiva hacia adelante . (Informe técnico DOT / FAA / AM-O5 / 15 ). Administración Federal de Aviación
^ Foster, Dean P. y George, Edward I. (1994). El criterio de inflación de riesgo para regresión múltiple. Annals of Statistics , 22 (4). 1947–1975. doi : 10.1214 / aos / 1176325766
^ Donoho, David L. y Johnstone, Jain M. (1994). Adaptación espacial ideal por contracción de ondículas. Biometrika , 81 (3): 425–455. doi : 10.1093 / biomet / 81.3.425
^ Mark, Jonathan y Goldberg, Michael A. (2001). Análisis de regresión múltiple y evaluación masiva: una revisión de los problemas. The Appraisal Journal , enero de 89–109.
^ Mayers, JH y Forgy, EW (1963). El desarrollo de sistemas numéricos de evaluación crediticia. Revista de la Asociación Estadounidense de Estadística, 58 (303; septiembre), 799–806.
^ Rencher, AC y Pun, FC (1980). La inflación de R ² en mejor subconjunto de regresión. Technometrics, 22, 49–54.
^ Copas, JB (1983). Regresión, predicción y contracción. J. Roy. Estadístico. Soc. Serie B, 45, 311–354.
^ Wilkinson, L. y Dallal, GE (1981). Pruebas de significación en la regresión de selección hacia adelante con una regla de detención F-para ingresar. Technometrics, 23, 377–380.
^ Hurvich, CM y CL Tsai. 1990. El impacto de la selección del modelo en la inferencia en regresión lineal. Estadístico estadounidense 44: 214–217.
^ Roecker, Ellen B. (1991). Error de predicción y su estimación para subconjuntos: modelos seleccionados. Technometrics, 33 , 459–468.

[1] Efroymson, MA (1960) "Análisis de regresión múltiple", métodos matemáticos para computadoras digitales, Ralston A. y Wilf, HS, (eds.), Wiley, Nueva York.

[2] Hocking, RR (1976) "El análisis y selección de variables en regresión lineal" , Biometrics, 32.

[3] Draper, N. y Smith, H. (1981) Análisis de regresión aplicado, 2da edición, Nueva York: John Wiley & Sons, Inc.

[4] SAS Institute Inc. (1989) SAS / STAT User's Guide, versión 6, cuarta edición, volumen 2, Cary, NC: SAS Institute Inc.

[Flom2007-5] Flom, PL y Cassell, DL (2007) "Detención paso a paso: por qué los métodos de selección paso a paso y similares son malos y qué debería usar", NESUG 2007.

[6] Harrell, FE (2001) "Estrategias de modelado de regresión: con aplicaciones a modelos lineales, regresión logística y análisis de supervivencia", Springer-Verlag, Nueva York.

[Chatfield1995-7] Chatfield, C. (1995) "Incertidumbre del modelo, minería de datos e inferencia estadística", JR Statist. Soc. A 158, Part 3, págs. 419–466.

[8] Efron, B. y Tibshirani, RJ (1998) "Una introducción al bootstrap", Chapman & Hall / CRC

[9] Diseños de Box-Behnken de un manual sobre estadísticas de ingeniería en NIST

[10] Efroymson, MA (1960) "Análisis de regresión múltiple". En Ralston, A. y Wilf, HS, editores, Métodos matemáticos para computadoras digitales. Wiley.

[11] Knecht, WR. (2005). Disposición del piloto para despegar en condiciones climáticas marginales, Parte II: Sobreajuste de antecedentes con regresión logística progresiva hacia adelante . (Informe técnico DOT / FAA / AM-O5 / 15 ). Administración Federal de Aviación

[12] Foster, Dean P. y George, Edward I. (1994). El criterio de inflación de riesgo para regresión múltiple. Annals of Statistics , 22 (4). 1947–1975. doi : 10.1214 / aos / 1176325766

[13] Donoho, David L. y Johnstone, Jain M. (1994). Adaptación espacial ideal por contracción de ondículas. Biometrika , 81 (3): 425–455. doi : 10.1093 / biomet / 81.3.425

[14] Mark, Jonathan y Goldberg, Michael A. (2001). Análisis de regresión múltiple y evaluación masiva: una revisión de los problemas. The Appraisal Journal , enero de 89–109.

[15] Mayers, JH y Forgy, EW (1963). El desarrollo de sistemas numéricos de evaluación crediticia. Revista de la Asociación Estadounidense de Estadística, 58 (303; septiembre), 799–806.

[16] Rencher, AC y Pun, FC (1980). La inflación de R ² en mejor subconjunto de regresión. Technometrics, 22, 49–54.

[17] Copas, JB (1983). Regresión, predicción y contracción. J. Roy. Estadístico. Soc. Serie B, 45, 311–354.

[18] Wilkinson, L. y Dallal, GE (1981). Pruebas de significación en la regresión de selección hacia adelante con una regla de detención F-para ingresar. Technometrics, 23, 377–380.

[19] Hurvich, CM y CL Tsai. 1990. El impacto de la selección del modelo en la inferencia en regresión lineal. Estadístico estadounidense 44: 214–217.

[20] Roecker, Ellen B. (1991). Error de predicción y su estimación para subconjuntos: modelos seleccionados. Technometrics, 33 , 459–468.

[1]