Dilución de regresión

La dilución de regresión , también conocida como atenuación de regresión , es el sesgo de la pendiente de regresión lineal hacia cero (la subestimación de su valor absoluto), causada por errores en la variable independiente .

Considere ajustar una línea recta para la relación de una variable de resultado y con una variable predictora x y estimar la pendiente de la línea. La variabilidad estadística, el error de medición o el ruido aleatorio en la variable y provocan incertidumbre en la pendiente estimada, pero no sesgo : en promedio, el procedimiento calcula la pendiente correcta. Sin embargo, la variabilidad, el error de medición o el ruido aleatorio en la variable x provocan sesgos en la pendiente estimada (así como imprecisión). Cuanto mayor sea la variación en la medida de x , más cerca debe acercarse a cero la pendiente estimada en lugar del valor verdadero.

Puede parecer contrario a la intuición que el ruido en la variable predictora x induce un sesgo, pero el ruido en la variable de resultado y no. Recuerde que la regresión lineal no es simétrica: la línea de mejor ajuste para predecir y a partir de x (la regresión lineal habitual) no es la misma que la línea de mejor ajuste para predecir x a partir de y . ^[1]

El caso de que x sea fijo, pero medido con ruido, se conoce como modelo funcional o relación funcional . ^[2] Se puede corregir usando mínimos cuadrados totales ^[3] y modelos de errores en variables en general.

El caso de que la variable x surja aleatoriamente se conoce como modelo estructural o relación estructural . Por ejemplo, en un estudio médico, los pacientes se reclutan como una muestra de una población, y sus características, como la presión arterial, pueden considerarse como resultado de una muestra aleatoria .

Bajo ciertas suposiciones (típicamente, suposiciones de distribución normal ) existe una relación conocida entre la pendiente real y la pendiente estimada esperada. Frost y Thompson (2000) revisan varios métodos para estimar esta relación y, por lo tanto, corregir la pendiente estimada. ^[4] El término relación de dilución de regresión , aunque no todos los autores lo definen de la misma manera, se utiliza para este enfoque general, en el que se ajusta la regresión lineal habitual y luego se aplica una corrección. La respuesta a Frost & Thompson de Longford (2001) remite al lector a otros métodos, ampliando el modelo de regresión para reconocer la variabilidad en la variable x, de modo que no surja ningún sesgo. ^[5] Más completo(1987) es una de las referencias estándar para evaluar y corregir la dilución de regresión. ^[6]

Ilustración de la dilución de regresión (o sesgo de atenuación) por un rango de estimaciones de regresión en modelos de errores en variables . Dos líneas de regresión (rojas) limitan el rango de posibilidades de regresión lineal. La pendiente poco profunda se obtiene cuando la variable independiente (o predictor) está en la abscisa (eje x). La pendiente más pronunciada se obtiene cuando la variable independiente está en la ordenada (eje y). Por convención, con la variable independiente en el eje x, se obtiene la menor pendiente. Las líneas de referencia verdes son promedios dentro de contenedores arbitrarios a lo largo de cada eje. Tenga en cuenta que las estimaciones de regresión verde y roja más pronunciadas son más consistentes con errores más pequeños en la variable del eje y.

Suponga que los puntos de datos verde y azul capturan los mismos datos, pero con errores (ya sea +1 o -1 en el eje x) para los puntos verdes. Minimizar el error en el eje y conduce a una pendiente más pequeña para los puntos verdes, incluso si son solo una versión ruidosa de los mismos datos.