Regresión lineal

En estadística , la regresión lineal es un enfoque lineal para modelar la relación entre una respuesta escalar y una o más variables explicativas (también conocidas como variables dependientes e independientes ). El caso de una variable explicativa se llama regresión lineal simple ; para más de uno, el proceso se denomina regresión lineal múltiple . ^[1] Este término es distinto de la regresión lineal multivariante , donde se predicen múltiples variables dependientes correlacionadas , en lugar de una sola variable escalar. ^[2]

En la regresión lineal, las relaciones se modelan utilizando funciones de predicción lineal cuyos parámetros de modelo desconocidos se estiman a partir de los datos . Estos modelos se denominan modelos lineales . ^[3] Más comúnmente, se supone que la media condicional de la respuesta dados los valores de las variables explicativas (o predictores) es una función afín de esos valores; con menos frecuencia, se utiliza la mediana condicional o algún otro cuantil . Como todas las formas de análisis de regresión , la regresión lineal se centra en la distribución de probabilidad condicionalde la respuesta dados los valores de los predictores, en lugar de la distribución de probabilidad conjunta de todas estas variables, que es el dominio del análisis multivariado .

La regresión lineal fue el primer tipo de análisis de regresión que se estudió rigurosamente y se utilizó ampliamente en aplicaciones prácticas. ^[4] Esto se debe a que los modelos que dependen linealmente de sus parámetros desconocidos son más fáciles de ajustar que los modelos que no están relacionados linealmente con sus parámetros y porque las propiedades estadísticas de los estimadores resultantes son más fáciles de determinar.

La regresión lineal tiene muchos usos prácticos. La mayoría de las aplicaciones se incluyen en una de las siguientes dos categorías generales:

Los modelos de regresión lineal a menudo se ajustan utilizando el enfoque de mínimos cuadrados , pero también pueden ajustarse de otras formas, como minimizando la "falta de ajuste" en alguna otra norma (como con la regresión de desviaciones mínimas absolutas ), o minimizando una penalización. versión de la función de costo de mínimos cuadrados como en la regresión de la cresta ( penalización normal L ² ) y lazo ( penalización normal L ¹ ). Por el contrario, el enfoque de mínimos cuadrados se puede utilizar para ajustar modelos que no son modelos lineales. Por tanto, aunque los términos "mínimos cuadrados" y "modelo lineal" están estrechamente relacionados, no son sinónimos.

Dado un conjunto de datos de n unidades estadísticas , un modelo de regresión lineal supone que la relación entre la variable dependiente y y el vector p de los regresores x es lineal . Esta relación se modela a través de un término de perturbación o variable de error ε , una variable aleatoria no observada que agrega "ruido" a la relación lineal entre la variable dependiente y los regresores. Así, el modelo toma la forma ${\ Displaystyle \ {y_ {i}, \, x_ {i1}, \ ldots, x_ {ip} \} _ {i = 1} ^ {n}}$

En la regresión lineal, se supone que las observaciones ( rojo ) son el resultado de desviaciones aleatorias ( verde ) de una relación subyacente ( azul ) entre una variable dependiente ( y ) y una variable independiente ( x ).

Ejemplo de una regresión polinomial cúbica, que es un tipo de regresión lineal. Aunque la regresión polinomial ajusta un modelo no lineal a los datos, como problema de estimación estadística es lineal, en el sentido de que la función de regresión E ( y | x ) es lineal en los parámetros desconocidos que se estiman a partir de los datos . Por esta razón, la regresión polinomial se considera un caso especial de regresión lineal múltiple .

Para verificar las violaciones de los supuestos de linealidad, varianza constante e independencia de errores dentro de un modelo de regresión lineal, los residuales generalmente se grafican contra los valores predichos (o cada uno de los predictores individuales). Una dispersión aparentemente aleatoria de puntos alrededor de la línea media horizontal en 0 es ideal, pero no puede descartar ciertos tipos de violaciones, como la autocorrelación de los errores o su correlación con una o más covariables.

Los conjuntos de datos del cuarteto de Anscombe están diseñados para tener aproximadamente la misma línea de regresión lineal (así como medias, desviaciones estándar y correlaciones casi idénticas) pero gráficamente son muy diferentes. Esto ilustra los peligros de depender únicamente de un modelo ajustado para comprender la relación entre las variables.

Ejemplo de regresión lineal simple , que tiene una variable independiente

Francis Galton de 1886 ^[12] ilustración de la correlación entre la altura de los adultos y sus padres. La observación de que la estatura de los niños adultos tendía a desviarse menos de la estatura media que la de sus padres sugirió el concepto de " regresión hacia la media ", dando a la regresión su nombre. El "lugar geométrico de los puntos tangenciales horizontales" que pasa por los puntos más a la izquierda y más a la derecha de la elipse (que es una curva de nivel de la distribución normal bivariada estimada a partir de los datos) es el MCOestimación de la regresión de la altura de los padres sobre la altura de los niños, mientras que el "lugar geométrico de los puntos tangenciales verticales" es la estimación de MCO de la regresión de la altura de los niños sobre la altura de los padres. El eje principal de la elipse es la estimación de TLS .

Comparación del estimador de Theil-Sen (negro) y la regresión lineal simple (azul) para un conjunto de puntos con valores atípicos.