Dilución de regresión

La dilución de regresión , también conocida como atenuación de regresión , es el sesgo de la pendiente de regresión hacia cero (la subestimación de su valor absoluto), causado por errores en la variable independiente.

Ilustración de la dilución de la regresión (o sesgo de atenuación) mediante un rango de estimaciones de regresión en modelos de errores en las variables . Dos líneas de regresión (rojas) delimitan el rango de posibilidades de regresión lineal. La pendiente poco profunda se obtiene cuando la variable independiente (o predictor) está en la abscisa (eje x). La pendiente más pronunciada se obtiene cuando la variable independiente está en la ordenada (eje y). Por convención, con la variable independiente en el eje x, se obtiene la pendiente menos profunda. Las líneas de referencia verdes son promedios dentro de contenedores arbitrarios a lo largo de cada eje. Tenga en cuenta que las estimaciones de regresión verde y roja más pronunciadas son más consistentes con errores más pequeños en la variable del eje y.

Considere ajustar una línea recta para la relación de una variable de resultado y con una variable predictora x , y estimar la pendiente de la línea. La variabilidad estadística, el error de medición o el ruido aleatorio en la variable y provocan incertidumbre en la pendiente estimada, pero no sesgo : en promedio, el procedimiento calcula la pendiente correcta. Sin embargo, la variabilidad, el error de medición o el ruido aleatorio en la variable x provocan sesgo en la pendiente estimada (así como imprecisión). Cuanto mayor sea la varianza en la medida x , más cerca debe aproximarse la pendiente estimada a cero en lugar del valor real.

Suponga que los puntos de datos verde y azul capturan los mismos datos, pero con errores (+1 o -1 en el eje x) para los puntos verdes. Minimizar el error en el eje y conduce a una pendiente más pequeña para los puntos verdes, incluso si son solo una versión ruidosa de los mismos datos.

Puede parecer contrario a la intuición que el ruido en la variable predictora x induzca un sesgo, pero el ruido en la variable de resultado y no. Recuerde que la regresión lineal no es simétrica: la línea de mejor ajuste para predecir y a partir de x (la regresión lineal habitual) no es la misma que la línea de mejor ajuste para predecir x a partir de y . ^[1]

Cómo corregir la dilución de regresión

El caso de una variable x distribuida aleatoriamente

El caso de que la variable x surja aleatoriamente se conoce como modelo estructural o relación estructural . Por ejemplo, en un estudio médico, los pacientes se reclutan como una muestra de una población, y sus características, como la presión arterial, pueden considerarse derivadas de una muestra aleatoria .

Bajo ciertos supuestos (típicamente, supuestos de distribución normal ) existe una relación conocida entre la pendiente verdadera y la pendiente estimada esperada. Frost y Thompson (2000) revisan varios métodos para estimar esta razón y, por lo tanto, corregir la pendiente estimada. ^[2] El término razón de dilución de regresión , aunque no todos los autores lo definen de la misma manera, se utiliza para este enfoque general, en el que se ajusta la regresión lineal habitual y luego se aplica una corrección. La respuesta a Frost & Thompson de Longford (2001) remite al lector a otros métodos, ampliando el modelo de regresión para reconocer la variabilidad en la variable x, de modo que no surja ningún sesgo. ^[3] Fuller (1987) es una de las referencias estándar para evaluar y corregir la dilución de regresión. ^[4]

Hughes (1993) muestra que los métodos de regresión de razón de dilución se aplican aproximadamente en los modelos de supervivencia. ^[5] Rosner (1992) muestra que los métodos de razón se aplican aproximadamente a los modelos de regresión logística. ^[6] Carroll y col. (1995) dan más detalles sobre la dilución de regresión en modelos no lineales, presentando los métodos de razón de dilución de regresión como el caso más simple de métodos de calibración de regresión , en el cual también se pueden incorporar covariables adicionales. ^[7]

En general, los métodos para el modelo estructural requieren alguna estimación de la variabilidad de la variable x. Esto requerirá mediciones repetidas de la variable x en los mismos individuos, ya sea en un subestudio del conjunto de datos principal o en un conjunto de datos separado. Sin esta información no será posible realizar una corrección.

El caso de una variable x fija

El caso de que x sea fijo, pero medido con ruido, se conoce como modelo funcional o relación funcional . Véase, por ejemplo, Riggs et al. (1978). ^[8]

Varias x variables

El caso de múltiples variables predictoras sujetas a variabilidad (posiblemente correlacionadas ) ha sido bien estudiado para la regresión lineal y para algunos modelos de regresión no lineal. ^[4]^[7] Otros modelos no lineales, como los modelos de riesgos proporcionales para el análisis de supervivencia , se han considerado solo con un único predictor sujeto a variabilidad. ^[5]

¿Es necesaria la corrección?

En inferencia estadística basada en coeficientes de regresión , sí; en aplicaciones de modelado predictivo , la corrección no es necesaria ni apropiada. Para comprender esto, considere el error de medición de la siguiente manera. Sea y la variable de resultado, x la verdadera variable predictora yw una observación aproximada de x . Frost y Thompson sugieren, por ejemplo, que x puede ser la presión arterial verdadera a largo plazo de un paciente, yw puede ser la presión arterial observada en una visita clínica en particular. ^[2] La dilución de regresión surge si estamos interesados en la relación entre y y x , pero estimamos la relación entre y y w . Como w se mide con variabilidad, la pendiente de una recta de regresión de y sobre w es menor que la recta de regresión de y sobre x .

¿Importa esto? En modelado predictivo , no. Los métodos estándar pueden ajustar una regresión de y sobre w sin sesgo. Hay sesgo solo si usamos la regresión de y sobre w como una aproximación a la regresión de y sobre x. En el ejemplo, asumiendo que las mediciones de la presión arterial son igualmente variables en pacientes futuros, nuestra línea de regresión de y sobre w (presión arterial observada) da predicciones no sesgadas.

Un ejemplo de una circunstancia en la que se desea la corrección es la predicción del cambio. Suponga que el cambio en x se conoce bajo alguna circunstancia nueva: para estimar el cambio probable en una variable de resultado y , se necesita la pendiente de la regresión de y sobre x , no y sobre w . Esto surge en epidemiología . Para continuar con el ejemplo en el que x denota presión arterial, quizás un gran ensayo clínico haya proporcionado una estimación del cambio en la presión arterial con un nuevo tratamiento; entonces el posible efecto sobre y , bajo el nuevo tratamiento, debe estimarse a partir de la pendiente en la regresión de y sobre x .

Otra circunstancia es el modelado predictivo en el que las observaciones futuras también son variables, pero no (en la frase utilizada anteriormente) "igualmente variables". Por ejemplo, si el conjunto de datos actual incluye la presión arterial medida con mayor precisión de lo que es común en la práctica clínica. Un ejemplo específico de esto surgió cuando se desarrolló una ecuación de regresión basada en un ensayo clínico, en el que la presión arterial fue el promedio de seis medidas, para su uso en la práctica clínica, donde la presión arterial suele ser una única medida. ^[9]

Advertencias

Todos estos resultados se pueden mostrar matemáticamente, en el caso de regresión lineal simple asumiendo distribuciones normales en todo (el marco de Frost & Thompson).

Se ha discutido que una corrección mal ejecutada para la dilución de regresión, en particular cuando se realiza sin verificar los supuestos subyacentes, puede causar más daño a una estimación que ninguna corrección. ^[10]

Otras lecturas

La dilución por regresión fue mencionada por primera vez, bajo el nombre de atenuación, por Spearman (1904). ^[11] Aquellos que buscan un tratamiento matemático legible pueden querer comenzar con Frost y Thompson (2000), ^[2] o ver la corrección para la atenuación .

Ver también

Corrección por atenuación
Modelos de errores en variables
Cuantización (procesamiento de señales) : una fuente común de error en las variables explicativas o independientes

Referencias

^ Draper, NR; Smith, H. (1998). Análisis de regresión aplicado (3ª ed.). John Wiley. pag. 19. ISBN 0-471-17082-8.
↑ ^a ^b ^c Frost, C. y S. Thompson (2000). "Corrección del sesgo de dilución de regresión: comparación de métodos para una sola variable predictora". Revista de la Royal Statistical Society Series A 163: 173-190.
^ Longford, NT (2001). "Correspondencia". Revista de la Sociedad Real de Estadística, Serie A . 164 (3): 565. doi : 10.1111 / 1467-985x.00219 .
^ a b Fuller, WA (1987). Modelos de error de medición . Nueva York: Wiley. ISBN 9780470317334.
^ a b Hughes, MD (1993). "Dilución de regresión en el modelo de riesgos proporcionales". Biometría . 49 (4): 1056–1066. doi : 10.2307 / 2532247 . JSTOR 2532247 . PMID 8117900 .
^ Rosner, B .; Spiegelman, D .; et al. (1992). "Corrección de estimaciones de riesgo relativo de regresión logística e intervalos de confianza para errores de medición aleatorios intrapersona". Revista Estadounidense de Epidemiología . 136 (11): 1400-1403. doi : 10.1093 / oxfordjournals.aje.a116453 . PMID 1488967 .
↑ a b Carroll, RJ, Ruppert, D. y Stefanski, LA (1995). Error de medida en modelos no lineales. Nueva York, Wiley.
^ Riggs, DS; Guarnieri, JA; et al. (1978). "Ajuste de líneas rectas cuando ambas variables están sujetas a error". Ciencias de la vida . 22 (13-15): 1305–60. doi : 10.1016 / 0024-3205 (78) 90098-x . PMID 661506 .
^ Stevens, RJ; Kothari, V .; Adler, AI; Stratton, IM; Holman, RR (2001). "Apéndice de" The UKPDS Risk Engine: un modelo para el riesgo de enfermedad coronaria en la diabetes tipo 2 UKPDS 56) ". Clinical Science . 101 : 671–679. Doi : 10.1042 / cs20000335 .
^ Davey Smith, G .; Phillips, AN (1996). "Inflación en epidemiología: 'La prueba y la medida de la asociación entre dos cosas' revisada" . Revista médica británica . 312 (7047): 1659–1661. doi : 10.1136 / bmj.312.7047.1659 . PMC 2351357 . PMID 8664725 .
^ Spearman, C (1904). "La prueba y medida de asociación entre dos cosas" . Revista estadounidense de psicología . 15 (1): 72–101. doi : 10.2307 / 1412159 . JSTOR 1412159 .

[1] Draper, NR; Smith, H. (1998). Análisis de regresión aplicado (3ª ed.). John Wiley. pag. 19. ISBN 0-471-17082-8.

[Frost2000-2] Frost, C. y S. Thompson (2000). "Corrección del sesgo de dilución de regresión: comparación de métodos para una sola variable predictora". Revista de la Royal Statistical Society Series A 163: 173-190.

[3] Longford, NT (2001). "Correspondencia". Revista de la Sociedad Real de Estadística, Serie A . 164 (3): 565. doi : 10.1111 / 1467-985x.00219 .

[Fuller1987-4] Fuller, WA (1987). Modelos de error de medición . Nueva York: Wiley. ISBN 9780470317334.

[Hughes1993-5] Hughes, MD (1993). "Dilución de regresión en el modelo de riesgos proporcionales". Biometría . 49 (4): 1056–1066. doi : 10.2307 / 2532247 . JSTOR 2532247 . PMID 8117900 .

[6] Rosner, B .; Spiegelman, D .; et al. (1992). "Corrección de estimaciones de riesgo relativo de regresión logística e intervalos de confianza para errores de medición aleatorios intrapersona". Revista Estadounidense de Epidemiología . 136 (11): 1400-1403. doi : 10.1093 / oxfordjournals.aje.a116453 . PMID 1488967 .

[Carroll1995-7] Carroll, RJ, Ruppert, D. y Stefanski, LA (1995). Error de medida en modelos no lineales. Nueva York, Wiley.

[Riggs1978-8] Riggs, DS; Guarnieri, JA; et al. (1978). "Ajuste de líneas rectas cuando ambas variables están sujetas a error". Ciencias de la vida . 22 (13-15): 1305–60. doi : 10.1016 / 0024-3205 (78) 90098-x . PMID 661506 .

[9] Stevens, RJ; Kothari, V .; Adler, AI; Stratton, IM; Holman, RR (2001). "Apéndice de" The UKPDS Risk Engine: un modelo para el riesgo de enfermedad coronaria en la diabetes tipo 2 UKPDS 56) ". Clinical Science . 101 : 671–679. Doi : 10.1042 / cs20000335 .

[10] Davey Smith, G .; Phillips, AN (1996). "Inflación en epidemiología: 'La prueba y la medida de la asociación entre dos cosas' revisada" . Revista médica británica . 312 (7047): 1659–1661. doi : 10.1136 / bmj.312.7047.1659 . PMC 2351357 . PMID 8664725 .

[11] Spearman, C (1904). "La prueba y medida de asociación entre dos cosas" . Revista estadounidense de psicología . 15 (1): 72–101. doi : 10.2307 / 1412159 . JSTOR 1412159 .

[1]