De Wikipedia, la enciclopedia libre
  (Redirigido del coeficiente de regresión )
Saltar a navegación Saltar a búsqueda

En estadística , la regresión lineal es un enfoque lineal para modelar la relación entre una respuesta escalar y una o más variables explicativas (también conocidas como variables dependientes e independientes ). El caso de una variable explicativa se llama regresión lineal simple ; para más de uno, el proceso se denomina regresión lineal múltiple . [1] Este término es distinto de la regresión lineal multivariante , donde se predicen múltiples variables dependientes correlacionadas , en lugar de una sola variable escalar. [2]

En la regresión lineal, las relaciones se modelan utilizando funciones de predicción lineal cuyos parámetros desconocidos del modelo se estiman a partir de los datos . Estos modelos se denominan modelos lineales . [3] Más comúnmente, se supone que la media condicional de la respuesta dados los valores de las variables explicativas (o predictores) es una función afín de esos valores; con menos frecuencia, se utiliza la mediana condicional o algún otro cuantil . Como todas las formas de análisis de regresión , la regresión lineal se centra en la distribución de probabilidad condicionalde la respuesta dados los valores de los predictores, en lugar de la distribución de probabilidad conjunta de todas estas variables, que es el dominio del análisis multivariado .

La regresión lineal fue el primer tipo de análisis de regresión que se estudió rigurosamente y se utilizó ampliamente en aplicaciones prácticas. [4] Esto se debe a que los modelos que dependen linealmente de sus parámetros desconocidos son más fáciles de ajustar que los modelos que no están relacionados linealmente con sus parámetros y porque las propiedades estadísticas de los estimadores resultantes son más fáciles de determinar.

La regresión lineal tiene muchos usos prácticos. La mayoría de las aplicaciones pertenecen a una de las siguientes dos categorías generales:

  • Si el objetivo es la predicción , el pronóstico o la reducción de errores, se puede utilizar la regresión lineal [ aclaración necesaria ] para ajustar un modelo predictivo a un conjunto de datos observados de valores de la respuesta y variables explicativas. Después de desarrollar dicho modelo, si se recopilan valores adicionales de las variables explicativas sin un valor de respuesta que las acompañe, el modelo ajustado se puede utilizar para hacer una predicción de la respuesta.
  • Si el objetivo es explicar la variación en la variable de respuesta que se puede atribuir a la variación en las variables explicativas, se puede aplicar un análisis de regresión lineal para cuantificar la fuerza de la relación entre la respuesta y las variables explicativas, y en particular para determinar si alguna las variables explicativas pueden no tener ninguna relación lineal con la respuesta, o para identificar qué subconjuntos de variables explicativas pueden contener información redundante sobre la respuesta.

Los modelos de regresión lineal a menudo se ajustan utilizando el método de mínimos cuadrados , pero también pueden ajustarse de otras formas, como minimizando la "falta de ajuste" en alguna otra norma (como con la regresión de desviaciones mínimas absolutas ), o minimizando una versión de la función de costo de mínimos cuadrados como en la regresión de la cresta ( penalización normal L 2 ) y lazo ( penalización normal L 1 ). Por el contrario, el enfoque de mínimos cuadrados se puede utilizar para ajustar modelos que no son modelos lineales. Por tanto, aunque los términos "mínimos cuadrados" y "modelo lineal" están estrechamente relacionados, no son sinónimos.

Introducción [ editar ]

En la regresión lineal, se supone que las observaciones ( rojo ) son el resultado de desviaciones aleatorias ( verde ) de una relación subyacente ( azul ) entre una variable dependiente ( y ) y una variable independiente ( x ).

Dado un conjunto de datos de n unidades estadísticas , un modelo de regresión lineal supone que la relación entre la variable dependiente y y el p- vector de los regresores x es lineal . Esta relación se modela mediante un término de perturbación o una variable de error ε , una variable aleatoria no observada que agrega "ruido" a la relación lineal entre la variable dependiente y los regresores. Así, el modelo toma la forma

donde T denota la transpuesta , de modo que x i T β es el producto interno entre los vectores x i y β .

A menudo, estas n ecuaciones se apilan juntas y se escriben en notación matricial como

dónde

Algunas observaciones sobre notación y terminología:

  • es un vector de valores observados de la variable llamada regresiva , variable endógena , variable de respuesta , variable medida , variable de criterio o variable dependiente . Esta variable también se conoce a veces como la variable predicha , pero no debe confundirse con los valores predichos , que se indican. La decisión de qué variable de un conjunto de datos se modela como variable dependiente y cuáles se modelan como variables independientes puede basarse en la presunción de que el valor de una de las variables es causado por, o directamente influenciado por, las otras variables. Alternativamente, puede haber una razón operativa para modelar una de las variables en términos de las otras, en cuyo caso no es necesario presunción de causalidad.
  • puede verse como una matriz de vectores-fila o de vectores-columna n- dimensionales , que se conocen como regresores , variables exógenas , variables explicativas , covariables , variables de entrada , variables predictoras o variables independientes (no confundir con el concepto de variables aleatorias independientes ). La matriz a veces se denomina matriz de diseño .
    • Por lo general, se incluye una constante como uno de los regresores. En particular, para . El elemento correspondiente de β se llama intersección . Muchos procedimientos de inferencia estadística para modelos lineales requieren que esté presente una intersección, por lo que a menudo se incluye incluso si las consideraciones teóricas sugieren que su valor debería ser cero.
    • A veces, uno de los regresores puede ser una función no lineal de otro regresor o de los datos, como en la regresión polinomial y la regresión segmentada . El modelo permanece lineal siempre que sea lineal en el vector de parámetros β .
    • Los valores x ij pueden verse como valores observados de variables aleatorias X j o como valores fijos elegidos antes de observar la variable dependiente. Ambas interpretaciones pueden ser apropiadas en diferentes casos y generalmente conducen a los mismos procedimientos de estimación; sin embargo, se utilizan diferentes enfoques para el análisis asintótico en estas dos situaciones.
  • es un vector de parámetros -dimensional , donde es el término de intersección (si se incluye uno en el modelo; de lo contrario, es p -dimensional). Sus elementos se conocen como efectos o coeficientes de regresión (aunque este último término a veces se reserva para los efectos estimados ). La estimación e inferencia estadísticas en regresión lineal se centra en β . Los elementos de este vector de parámetros se interpretan como las derivadas parciales de la variable dependiente con respecto a las diversas variables independientes.
  • es un vector de valores . Esta parte del modelo se denomina término de error , término de perturbación o, a veces, ruido (en contraste con la "señal" proporcionada por el resto del modelo). Esta variable captura todos los demás factores que influyen en la variable dependiente y distintos de los regresores x . La relación entre el término de error y los regresores, por ejemplo, su correlación , es una consideración crucial al formular un modelo de regresión lineal, ya que determinará el método de estimación apropiado.

Ajustar un modelo lineal a un conjunto de datos dado generalmente requiere estimar los coeficientes de regresión de manera que se minimice el término de error . Por ejemplo, es común usar la suma de errores cuadrados como la cantidad del ajuste.

Ejemplo . Considere una situación en la que se lanza una pelota pequeña al aire y luego medimos sus alturas de ascenso h i en varios momentos en el tiempo t i . La física nos dice que, ignorando el arrastre, la relación se puede modelar como

donde β 1 determina la velocidad inicial de la pelota, β 2 es proporcional a la gravedad estándar y ε i se debe a errores de medición. La regresión lineal se puede utilizar para estimar los valores de β 1 y β 2 a partir de los datos medidos. Este modelo es no lineal en la variable tiempo, pero es lineal en los parámetros β 1 y β 2 ; si tomamos regresores x i  = ( x i 1 , x i 2 ) = ( t i ,t i 2 ), el modelo adopta la forma estándar

Supuestos [ editar ]

Los modelos de regresión lineal estándar con técnicas de estimación estándar hacen una serie de suposiciones sobre las variables predictoras, las variables de respuesta y su relación. Se han desarrollado numerosas extensiones que permiten relajar cada uno de estos supuestos (es decir, reducirlos a una forma más débil) y, en algunos casos, eliminarlos por completo. Generalmente, estas extensiones hacen que el procedimiento de estimación sea más complejo y lento, y también pueden requerir más datos para producir un modelo igualmente preciso.

Ejemplo de una regresión polinomial cúbica, que es un tipo de regresión lineal. Aunque la regresión polinomial ajusta un modelo no lineal a los datos, como problema de estimación estadística es lineal, en el sentido de que la función de regresión E ( y | x ) es lineal en los parámetros desconocidos que se estiman a partir de los datos . Por esta razón, la regresión polinomial se considera un caso especial de regresión lineal múltiple .

Los siguientes son los principales supuestos realizados por los modelos de regresión lineal estándar con técnicas de estimación estándar (por ejemplo, mínimos cuadrados ordinarios ):

  • Exogeneidad débil . Esto esencialmente significa que las variables predictoras x pueden tratarse como valores fijos, en lugar de variables aleatorias . Esto significa, por ejemplo, que se supone que las variables predictoras están libres de errores, es decir, no están contaminadas con errores de medición. Aunque este supuesto no es realista en muchos entornos, descartarlo conduce a modelos de errores en las variables significativamente más difíciles .
  • Linealidad . Esto significa que la media de la variable de respuesta es una combinación lineal de los parámetros (coeficientes de regresión) y las variables predictoras. Tenga en cuenta que esta suposición es mucho menos restrictiva de lo que parece a primera vista. Debido a que las variables predictoras se tratan como valores fijos (ver arriba), la linealidad es realmente solo una restricción de los parámetros. Las propias variables predictoras se pueden transformar arbitrariamente y, de hecho, se pueden agregar múltiples copias de la misma variable predictora subyacente, cada una transformada de manera diferente. Esta técnica se utiliza, por ejemplo, en la regresión polinomial , que utiliza la regresión lineal para ajustar la variable de respuesta como un polinomio arbitrario.función (hasta un rango dado) de una variable predictora. Con tanta flexibilidad, los modelos como la regresión polinomial a menudo tienen "demasiado poder", ya que tienden a sobreajustarse a los datos. Como resultado, por lo general se debe utilizar algún tipo de regularización para evitar que surjan soluciones irrazonables del proceso de estimación. Los ejemplos comunes son la regresión de crestas y la regresión de lazo . También se puede utilizar la regresión lineal bayesiana , que por su naturaleza es más o menos inmune al problema del sobreajuste. (De hecho, la regresión de cresta y la regresión de lazo pueden verse como casos especiales de regresión lineal bayesiana, con tipos particulares dedistribuciones previas colocadas en los coeficientes de regresión).
  • Varianza constante (también conocida como homocedasticidad ). Esto significa que diferentes valores de la variable de respuesta tienen la misma varianza en sus errores, independientemente de los valores de las variables predictoras. En la práctica, esta suposición no es válida (es decir, los errores son heterocedásticos) si la variable de respuesta puede variar en una amplia escala. Para verificar la varianza heterogénea del error, o cuando un patrón de residuos viola los supuestos del modelo de homocedasticidad (el error es igualmente variable alrededor de la 'línea de mejor ajuste' para todos los puntos de x), es prudente buscar un "efecto de abanico "entre el error residual y los valores predichos. Es decir, habrá un cambio sistemático en los residuales absolutos o cuadrados cuando se grafican contra las variables predictivas. Los errores no se distribuirán uniformemente a lo largo de la línea de regresión. La heterocedasticidad dará como resultado el promediado de las variaciones distinguibles alrededor de los puntos para obtener una sola variación que representa de manera inexacta todas las variaciones de la línea. En efecto,los residuos aparecen agrupados y dispersos en sus gráficos predichos para valores más grandes y más pequeños para puntos a lo largo de la línea de regresión lineal, y el error cuadrático medio del modelo será incorrecto. Por lo general, por ejemplo, una variable de respuesta cuya media es grande tendrá una varianza mayor que una cuya media es pequeña. Por ejemplo, una persona determinada cuyo ingreso se predice en $ 100,000 puede fácilmente tener un ingreso real de $ 80,000 o $ 120,000 (undesviación estándar de alrededor de $ 20,000), mientras que otra persona con un ingreso previsto de $ 10,000 es poco probable que tenga la misma desviación estándar de $ 20,000, lo que implicaría que sus ingresos reales variarían entre - $ 10,000 y $ 30,000. (De hecho, como muestra esto, en muchos casos, a menudo los mismos casos en los que falla la suposición de errores distribuidos normalmente, la varianza o desviación estándar debe predecirse como proporcional a la media, en lugar de constante.) Métodos de estimación de regresión lineal simple dan estimaciones de parámetros menos precisas y cantidades inferenciales engañosas, como errores estándar, cuando hay heterocedasticidad sustancial. Sin embargo, varias técnicas de estimación (por ejemplo, mínimos cuadrados ponderados y errores estándar consistentes con heterocedasticidad)) puede manejar la heterocedasticidad de una manera bastante general. Las técnicas de regresión lineal bayesiana también se pueden utilizar cuando se supone que la varianza es una función de la media. En algunos casos, también es posible solucionar el problema aplicando una transformación a la variable de respuesta (por ejemplo, ajustar el logaritmo de la variable de respuesta mediante un modelo de regresión lineal, lo que implica que la variable de respuesta tiene una distribución logarítmica normal en lugar de una normal distribución ).
  • Independencia de errores. Esto supone que los errores de las variables de respuesta no están correlacionados entre sí. (La independencia estadística real es una condición más fuerte que la mera falta de correlación y, a menudo, no es necesaria, aunque se puede explotar si se sabe que se cumple). Algunos métodos (por ejemplo, mínimos cuadrados generalizados ) son capaces de manejar errores correlacionados, aunque normalmente requieren significativamente más datos a menos que se utilice algún tipo de regularización para sesgar el modelo hacia la suposición de errores no correlacionados. La regresión lineal bayesiana es una forma general de manejar este problema.
  • Falta de perfecta multicolinealidad en los predictores. Para los métodos estándar de estimación de mínimos cuadrados , la matriz de diseño X debe tener el rango de columna completo p ; de lo contrario, tenemos una condición conocida como multicolinealidad perfecta en las variables predictoras. Esto se puede activar al tener dos o más variables predictoras perfectamente correlacionadas (por ejemplo, si la misma variable predictora se da por error dos veces, ya sea sin transformar una de las copias o transformando una de las copias linealmente). También puede suceder si hay muy pocos datos disponibles en comparación con el número de parámetros a estimar (por ejemplo, menos puntos de datos que coeficientes de regresión). En el caso de multicolinealidad perfecta, el vector de parámetrosβ no será identificable , no tiene una solución única. A lo sumo seremos capaces de identificar algunos de los parámetros, es decir, reducir su valor a algún subespacio lineal de R p . Ver regresión de mínimos cuadrados parciales . Se han desarrollado métodos para ajustar modelos lineales con multicolinealidad; [5] [6] [7] [8] algunos requieren suposiciones adicionales como "escasez de efectos": que una gran fracción de los efectos son exactamente cero.
    Tenga en cuenta que los algoritmos iterados más costosos desde el punto de vista informático para la estimación de parámetros, como los que se utilizan en los modelos lineales generalizados , no sufren este problema.

Más allá de estos supuestos, varias otras propiedades estadísticas de los datos influyen fuertemente en el desempeño de diferentes métodos de estimación:

  • La relación estadística entre los términos de error y los regresores juega un papel importante en la determinación de si un procedimiento de estimación tiene propiedades de muestreo deseables, como ser insesgado y consistente.
  • La disposición o distribución de probabilidad de las variables predictoras x tiene una gran influencia en la precisión de las estimaciones de β . El muestreo y el diseño de experimentos son subcampos estadísticos altamente desarrollados que brindan orientación para recopilar datos de tal manera que se obtenga una estimación precisa de β .

Interpretación [ editar ]

Los conjuntos de datos del cuarteto de Anscombe están diseñados para tener aproximadamente la misma línea de regresión lineal (así como medias, desviaciones estándar y correlaciones casi idénticas) pero gráficamente son muy diferentes. Esto ilustra los peligros de confiar únicamente en un modelo ajustado para comprender la relación entre las variables.

Un modelo de regresión lineal equipada puede utilizarse para identificar la relación entre una sola variable predictor x j la variable de respuesta y y cuando todas las otras variables predictoras en el modelo se "mantienen fijas". Específicamente, la interpretación de β j es el cambio esperado en y para un cambio de una unidad en x j cuando las otras covariables se mantienen fijas, es decir, el valor esperado de la derivada parcial de y con respecto a x j . A esto a veces se le llama el efecto único de x j sobre y. Por el contrario, el efecto marginal de x j sobre y puede evaluarse utilizando un coeficiente de correlación o un modelo de regresión lineal simple que relacione solo x j con y ; este efecto es la derivada total de y con respecto ax j .

Se debe tener cuidado al interpretar los resultados de la regresión, ya que algunos de los regresores pueden no permitir cambios marginales (como las variables ficticias o el término de intersección), mientras que otros no pueden mantenerse fijos (recuerde el ejemplo de la introducción: sería imposible para "mantener t i fijo" y al mismo tiempo cambiar el valor de t i 2 ).

Es posible que el efecto único sea casi nulo incluso cuando el efecto marginal sea grande. Esto puede implicar que alguna otra covariable captura toda la información en x j , de modo que una vez que esa variable está en el modelo, no hay contribución de x j a la variación en y . Por el contrario, el efecto único de x j puede ser grande mientras que su efecto marginal es casi nulo. Esto sucedería si las otras covariables explicaran gran parte de la variación de y , pero principalmente explican la variación de una manera que es complementaria a lo que captura x j . En este caso, la inclusión de las otras variables en el modelo reduce parte de la variabilidad dey que no está relacionada con x j , fortaleciendo así la relación aparente con x j .

El significado de la expresión "mantenido fijo" puede depender de cómo surjan los valores de las variables predictoras. Si el experimentador establece directamente los valores de las variables predictoras de acuerdo con un diseño de estudio, las comparaciones de interés pueden corresponder literalmente a comparaciones entre unidades cuyas variables predictoras han sido "mantenidas fijas" por el experimentador. Alternativamente, la expresión "mantenido fijo" puede referirse a una selección que tiene lugar en el contexto del análisis de datos. En este caso, "mantenemos una variable fija" al restringir nuestra atención a los subconjuntos de datos que tienen un valor común para la variable predictora dada. Ésta es la única interpretación de "mantenido fijo" que se puede utilizar en un estudio observacional.

La noción de un "efecto único" es atractiva cuando se estudia un sistema complejo donde múltiples componentes interrelacionados influyen en la variable de respuesta. En algunos casos, se puede interpretar literalmente como el efecto causal de una intervención que está vinculado al valor de una variable predictora. Sin embargo, se ha argumentado que en muchos casos el análisis de regresión múltiple no aclara las relaciones entre las variables predictoras y la variable respuesta cuando los predictores están correlacionados entre sí y no se asignan siguiendo un diseño de estudio. [9] El análisis de puntos en común puede ser útil para desentrañar los impactos compartidos y únicos de las variables independientes correlacionadas. [10]

Extensiones [ editar ]

Se han desarrollado numerosas extensiones de regresión lineal, que permiten relajar algunos o todos los supuestos subyacentes al modelo básico.

Regresión lineal simple y múltiple [ editar ]

Ejemplo de regresión lineal simple , que tiene una variable independiente

El caso más simple de una única variable de predicción escalar x y una única variable de respuesta escalar y se conoce como regresión lineal simple . La extensión a variables predictoras múltiples y / o valuadas por vectores (indicadas con una X mayúscula ) se conoce como regresión lineal múltiple , también conocida como regresión lineal multivariable (que no debe confundirse con la regresión lineal multivariante [11] ).

La regresión lineal múltiple es una generalización de la regresión lineal simple al caso de más de una variable independiente, y un caso especial de modelos lineales generales, restringido a una variable dependiente. El modelo básico para la regresión lineal múltiple es

para cada observación i = 1, ..., n .

En la fórmula anterior, consideramos n observaciones de una variable dependiente yp variables independientes. Por tanto, Y i es la i- ésima observación de la variable dependiente, X ij es la i- ésima observación de la j- ésima variable independiente, j = 1, 2, ..., p . Los valores β j representan parámetros a estimar, y ε i es el i- ésimo error normal independiente distribuido idénticamente.

En la regresión lineal multivariante más general, hay una ecuación de la forma anterior para cada una de m > 1 variables dependientes que comparten el mismo conjunto de variables explicativas y, por lo tanto, se estiman simultáneamente entre sí:

para todas las observaciones indexadas como i = 1, ..., ny para todas las variables dependientes indexadas como j = 1, ..., m .

Casi todos los modelos de regresión del mundo real involucran múltiples predictores, y las descripciones básicas de la regresión lineal a menudo se expresan en términos del modelo de regresión múltiple. Sin embargo, tenga en cuenta que en estos casos la variable de respuesta y sigue siendo un escalar. Otro término, regresión lineal multivariante , se refiere a los casos en los que y es un vector, es decir, lo mismo que la regresión lineal general .

Modelos lineales generales [ editar ]

El modelo lineal general considera la situación cuando la variable de respuesta no es un escalar (para cada observación) sino un vector, y i . Aún se asume la linealidad condicional de , con una matriz B que reemplaza al vector β del modelo de regresión lineal clásico. Se han desarrollado análogos multivariados de mínimos cuadrados ordinarios (MCO) y mínimos cuadrados generalizados (GLS). Los "modelos lineales generales" también se denominan "modelos lineales multivariados". Estos no son lo mismo que los modelos lineales multivariables (también llamados "modelos lineales múltiples").

Modelos heterocedásticos [ editar ]

Se han creado varios modelos que permiten la heterocedasticidad , es decir, los errores para diferentes variables de respuesta pueden tener diferentes varianzas . Por ejemplo, mínimos cuadrados ponderados es un método para estimar modelos de regresión lineal cuando las variables de respuesta pueden tener diferentes variaciones de error, posiblemente con errores correlacionados. (Consulte también Mínimos cuadrados lineales ponderados y Mínimos cuadrados generalizados ). Los errores estándar consistentes con heterocedasticidad son un método mejorado para su uso con errores no correlacionados pero potencialmente heterocedásticos.

Modelos lineales generalizados [ editar ]

Los modelos lineales generalizados (GLM) son un marco para modelar variables de respuesta limitadas o discretas. Esto se usa, por ejemplo:

  • al modelar cantidades positivas (por ejemplo, precios o poblaciones) que varían a gran escala, que se describen mejor utilizando una distribución sesgada , como la distribución logarítmica normal o la distribución de Poisson (aunque los GLM no se utilizan para datos logarítmicos normales, sino la respuesta la variable simplemente se transforma usando la función de logaritmo);
  • al modelar datos categóricos , como la elección de un candidato dado en una elección (que se describe mejor utilizando una distribución de Bernoulli / distribución binomial para opciones binarias, o una distribución categórica / distribución multinomial para elecciones de múltiples vías), donde hay una número fijo de opciones que no se pueden ordenar de manera significativa;
  • al modelar datos ordinales , por ejemplo, calificaciones en una escala de 0 a 5, donde los diferentes resultados se pueden ordenar pero donde la cantidad en sí puede no tener ningún significado absoluto (por ejemplo, una calificación de 4 puede no ser "dos veces mejor" en ningún objetivo sentido como una calificación de 2, pero simplemente indica que es mejor que 2 o 3 pero no tan bueno como 5).

Modelos lineales generalizados permiten una arbitraria función de enlace , g , que relaciona la media de la variable de respuesta (s) a los predictores: . La función de enlace a menudo está relacionada con la distribución de la respuesta y, en particular, típicamente tiene el efecto de transformar entre el rango del predictor lineal y el rango de la variable de respuesta.

Algunos ejemplos comunes de GLM son:

  • Regresión de Poisson para datos de recuento.
  • Regresión logística y regresión probit para datos binarios.
  • Regresión logística multinomial y regresión probit multinomial para datos categóricos.
  • Logit ordenado y regresión probit ordenada para datos ordinales.

Modelos de índices individuales [ clarifique ] permiten un cierto grado de no linealidad en la relación entre x y y , preservando al mismo tiempo el papel central de la lineal predictor β ' x como en el modelo de regresión lineal clásica. Bajo ciertas condiciones, la simple aplicación de MCO a los datos de un modelo de índice único estimará constantemente β hasta una constante de proporcionalidad. [12]

Modelos lineales jerárquicos [ editar ]

Modelos lineales jerárquicos (o regresión multinivel ) organiza los datos en una jerarquía de regresiones, por ejemplo, cuando A es retrocedido en B , y B es retrocedido en C . A menudo se usa cuando las variables de interés tienen una estructura jerárquica natural, como en las estadísticas educativas, donde los estudiantes están anidados en las aulas, las aulas están anidadas en las escuelas y las escuelas están anidadas en algún grupo administrativo, como un distrito escolar. La variable de respuesta podría ser una medida del rendimiento del estudiante, como el puntaje de una prueba, y se recopilarían diferentes covariables a nivel del aula, la escuela y el distrito escolar.

Errores en variables [ editar ]

Los modelos de errores en las variables (o "modelos de errores de medición") amplían el modelo de regresión lineal tradicional para permitir que las variables predictoras X se observen con error. Este error provoca que los estimadores estándar de β se sesguen. Generalmente, la forma de sesgo es una atenuación, lo que significa que los efectos están sesgados hacia cero.

Otros [ editar ]

  • En la teoría de Dempster-Shafer , o en una función de creencia lineal en particular, un modelo de regresión lineal puede representarse como una matriz de barrido parcial, que puede combinarse con matrices similares que representan observaciones y otras distribuciones normales asumidas y ecuaciones de estado. La combinación de matrices barridas o no barridas proporciona un método alternativo para estimar modelos de regresión lineal.

Métodos de estimación [ editar ]

Se ha desarrollado una gran cantidad de procedimientos para la estimación de parámetros y la inferencia en regresión lineal. Estos métodos difieren en la simplicidad computacional de los algoritmos, la presencia de una solución de forma cerrada, la robustez con respecto a las distribuciones de cola pesada y los supuestos teóricos necesarios para validar propiedades estadísticas deseables como la consistencia y la eficiencia asintótica .

Algunas de las técnicas de estimación más comunes para la regresión lineal se resumen a continuación.

Estimación por mínimos cuadrados y técnicas relacionadas [ editar ]

Francis Galton de 1886 [13] ilustración de la correlación entre la altura de los adultos y sus padres. La observación de que la estatura de los niños adultos tendía a desviarse menos de la estatura media que la de sus padres sugirió el concepto de " regresión hacia la media ", dando su nombre a regresión. El "lugar geométrico de los puntos tangenciales horizontales" que pasa por los puntos más a la izquierda y más a la derecha de la elipse (que es una curva de nivel de la distribución normal bivariada estimada a partir de los datos) es el MCOestimación de la regresión de la altura de los padres sobre la altura de los niños, mientras que el "lugar geométrico de los puntos tangenciales verticales" es la estimación de MCO de la regresión de la altura de los niños sobre la altura de los padres. El eje principal de la elipse es la estimación de TLS .

Suponiendo que la variable independiente es y los parámetros del modelo son , entonces la predicción del modelo sería . Si se extiende a then se convertiría en un producto escalar del parámetro y la variable independiente, es decir . En la configuración de mínimos cuadrados, el parámetro óptimo se define como tal que minimiza la suma de la pérdida cuadrática media:

Ahora, poniendo las variables independientes y dependientes en matrices y respectivamente, la función de pérdida se puede reescribir como:

Como la pérdida es convexa, la solución óptima se encuentra en el gradiente cero. El gradiente de la función de pérdida es (utilizando la convención de diseño del denominador ):

Establecer el gradiente en cero produce el parámetro óptimo:

Nota: Para probar que lo obtenido es efectivamente el mínimo local, es necesario diferenciar una vez más para obtener la matriz de Hesse y demostrar que es definida positiva. Esto lo proporciona el teorema de Gauss-Markov .

Los métodos de mínimos cuadrados lineales incluyen principalmente:

  • Mínimos cuadrados ordinarios
  • Mínimos cuadrados ponderados
  • Mínimos cuadrados generalizados

Estimación de máxima verosimilitud y técnicas relacionadas [ editar ]

  • La estimación de máxima verosimilitud se puede realizar cuando se sabe que la distribución de los términos de error pertenece a una determinada familia paramétrica ƒ θ de distribuciones de probabilidad . [14] Cuando f θ es una distribución normal con media ceroy varianza θ, la estimación resultante es idéntica a la estimación de MCO. Las estimaciones de GLS son estimaciones de máxima verosimilitud cuando ε sigue una distribución normal multivariante con una matriz de covarianza conocida.
  • La regresión de cresta [15] [16] [17] y otras formas de estimación penalizada, como la regresión de Lasso , [5] introducen deliberadamente un sesgo en la estimación de β para reducir la variabilidad de la estimación. Las estimaciones resultantes generalmente tienen un error cuadrático medio más bajoque las estimaciones de MCO, particularmente cuandoexiste multicolinealidad o cuando el sobreajuste es un problema. Se utilizan generalmente cuando el objetivo es predecir el valor de la variable de respuesta y para los valores de los predictores xque aún no se han observado. Estos métodos no se utilizan con tanta frecuencia cuando el objetivo es la inferencia, ya que es difícil explicar el sesgo.
  • La regresión de desviación mínima absoluta (LAD) es unatécnica de estimación robusta porque es menos sensible a la presencia de valores atípicos que OLS (pero es menos eficiente que OLS cuando no hay valores atípicos presentes). Es equivalente a la estimación de máxima verosimilitud bajo unmodelo de distribución de Laplace para ε . [18]
  • Estimación adaptativa . Si asumimos que los términos de error son independientes de los regresores, entonces el estimador óptimo es el MLE de 2 pasos, donde el primer paso se usa para estimar no paramétricamente la distribución del término de error. [19]

Otras técnicas de estimación [ editar ]

Comparación del estimador de Theil-Sen (negro) y la regresión lineal simple (azul) para un conjunto de puntos con valores atípicos.
  • La regresión lineal bayesiana aplica el marco de la estadística bayesiana a la regresión lineal. (Véase también Regresión lineal multivariante bayesiana .) En particular, se supone que los coeficientes de regresión β son variables aleatorias con una distribución previa especificada. La distribución previa puede sesgar las soluciones para los coeficientes de regresión, de una manera similar (pero más general) a la regresión de cresta o la regresión de lazo . Además, el proceso de estimación bayesiano no produce una estimación puntual única para los "mejores" valores de los coeficientes de regresión, sino una distribución posterior completa., describiendo completamente la incertidumbre que rodea a la cantidad. Esto se puede usar para estimar los "mejores" coeficientes usando la media, la moda, la mediana, cualquier cuantil (ver regresión de cuantiles ) o cualquier otra función de la distribución posterior.
  • Regresión de cuantiles se centra en los cuantiles condicionales de Y dado X en lugar de la media condicional de Y dado X . La regresión de cuantiles lineales modela un cuantil condicional particular, por ejemplo, la mediana condicional, como una función lineal β T x de los predictores.
  • Los modelos mixtos se utilizan ampliamente para analizar las relaciones de regresión lineal que involucran datos dependientes cuando las dependencias tienen una estructura conocida. Las aplicaciones comunes de los modelos mixtos incluyen el análisis de datos que involucran mediciones repetidas, como datos longitudinales, o datos obtenidos del muestreo por conglomerados. Por lo general, se ajustan comomodelos paramétricos , utilizando estimación de máxima verosimilitud o bayesiana. En el caso de que los errores se modelen comovariables aleatorias normales , existe una estrecha conexión entre los modelos mixtos y los mínimos cuadrados generalizados. [20] La estimación de efectos fijos es un enfoque alternativo para analizar este tipo de datos.
  • La regresión de componentes principales (PCR) [7] [8] se utiliza cuando el número de variables predictoras es grande o cuando existen fuertes correlaciones entre las variables predictoras. Este procedimiento de dos etapas primero reduce las variables predictoras usando el análisis de componentes principales y luego usa las variables reducidas en un ajuste de regresión MCO. Si bien a menudo funciona bien en la práctica, no existe una razón teórica general por la que la función lineal más informativa de las variables predictoras deba estar entre los componentes principales dominantes de la distribución multivariante de las variables predictoras. La regresión de mínimos cuadrados parciales es la extensión del método PCR que no adolece de la deficiencia mencionada.
  • La regresión de ángulo mínimo [6] es un procedimiento de estimación para modelos de regresión lineal que se desarrolló para manejar vectores de covariables de alta dimensión, potencialmente con más covariables que observaciones.
  • El estimador de Theil-Sen es una técnica de estimación robusta simple que elige la pendiente de la línea de ajuste como la mediana de las pendientes de las líneas a través de pares de puntos muestrales. Tiene propiedades de eficiencia estadística similares a la regresión lineal simple, pero es mucho menos sensible a los valores atípicos . [21]
  • Otras técnicas robustas de estimación, incluyendo el medio α-recortado enfoque [ citación necesaria ] , y L-, M-, S-, y R-estimadores se han introducido. [ cita requerida ]

Aplicaciones [ editar ]

La regresión lineal se usa ampliamente en ciencias biológicas, del comportamiento y sociales para describir posibles relaciones entre variables. Se ubica como una de las herramientas más importantes utilizadas en estas disciplinas.

Línea de tendencia [ editar ]

Una línea de tendencia representa una tendencia, el movimiento a largo plazo en los datos de series de tiempo después de que se hayan tenido en cuenta otros componentes. Indica si un conjunto de datos en particular (por ejemplo, el PIB, los precios del petróleo o los precios de las acciones) ha aumentado o disminuido durante el período de tiempo. Una línea de tendencia podría simplemente dibujarse a ojo a través de un conjunto de puntos de datos, pero más adecuadamente su posición y pendiente se calculan utilizando técnicas estadísticas como la regresión lineal. Las líneas de tendencia suelen ser líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado según el grado de curvatura deseado en la línea.

Las líneas de tendencia a veces se utilizan en análisis de negocios para mostrar cambios en los datos a lo largo del tiempo. Esto tiene la ventaja de ser sencillo. Las líneas de tendencia se utilizan a menudo para argumentar que una acción o evento en particular (como una capacitación o una campaña publicitaria) causó cambios observados en un momento determinado. Esta es una técnica simple y no requiere un grupo de control, diseño experimental o una técnica de análisis sofisticada. Sin embargo, adolece de una falta de validez científica en los casos en que otros cambios potenciales pueden afectar los datos.

Epidemiología [ editar ]

Las primeras pruebas que relacionan el tabaquismo con la mortalidad y la morbilidad provienen de estudios observacionales que emplean análisis de regresión. Para reducir las correlaciones falsas al analizar los datos de observación, los investigadores suelen incluir varias variables en sus modelos de regresión además de la variable de interés principal. Por ejemplo, en un modelo de regresión en el que el tabaquismo es la variable independiente de interés principal y la variable dependiente es la vida útil medida en años, los investigadores podrían incluir la educación y los ingresos como variables independientes adicionales, para garantizar que cualquier efecto observado del tabaquismo en la vida útil sea menor. no debido a esos otros factores socioeconómicos. Sin embargo, nunca es posible incluir todas las posibles variables de confusión en un análisis empírico. Por ejemplo, un gen hipotético podría aumentar la mortalidad y también hacer que las personas fumen más. Por esta razón, los ensayos controlados aleatorios a menudo pueden generar pruebas de relaciones causales más convincentes que las que se pueden obtener mediante análisis de regresión de datos observacionales. Cuando los experimentos controlados no son factibles, se pueden usar variantes del análisis de regresión, como la regresión de variables instrumentales, para intentar estimar relaciones causales a partir de datos de observación.

Finanzas [ editar ]

El modelo de fijación de precios de los activos de capital utiliza la regresión lineal, así como el concepto de beta para analizar y cuantificar el riesgo sistemático de una inversión. Esto proviene directamente del coeficiente beta del modelo de regresión lineal que relaciona el rendimiento de la inversión con el rendimiento de todos los activos de riesgo.

Economía [ editar ]

La regresión lineal es la herramienta empírica predominante en economía . Por ejemplo, se utiliza para predecir el gasto en consumo , [22] gasto en inversión fija , inversión en inventarios , compras de exportaciones de un país , [23] gasto en importaciones , [23] la demanda para mantener activos líquidos , [24] demanda laboral , [25] y oferta de mano de obra . [25]

Ciencias ambientales [ editar ]

La regresión lineal encuentra aplicación en una amplia gama de aplicaciones de las ciencias ambientales. En Canadá, el Programa de Monitoreo de Efectos Ambientales utiliza análisis estadísticos sobre peces y estudios bentónicos para medir los efectos de los efluentes de las plantas de celulosa o de las minas de metales en el ecosistema acuático. [26]

Aprendizaje automático [ editar ]

La regresión lineal juega un papel importante en el subcampo de la inteligencia artificial conocido como aprendizaje automático . El algoritmo de regresión lineal es uno de los algoritmos fundamentales de aprendizaje automático supervisado debido a su relativa simplicidad y sus conocidas propiedades. [27]

Historia [ editar ]

Legendre (1805) y Gauss (1809) realizaron la regresión lineal de mínimos cuadrados, como un medio para encontrar un buen ajuste lineal aproximado a un conjunto de puntos, para la predicción del movimiento planetario. Quetelet fue responsable de dar a conocer el procedimiento y de utilizarlo ampliamente en las ciencias sociales. [28]

Ver también [ editar ]

  • Análisis de variación
  • Descomposición de Blinder – Oaxaca
  • Modelo de regresión censurado
  • Regresión transversal
  • Ajuste de curvas
  • Métodos empíricos de Bayes
  • Errores y residuales
  • Suma de cuadrados por falta de ajuste
  • Ajuste de línea
  • Clasificador lineal
  • Ecuación lineal
  • Regresión logística
  • Estimador M
  • Splines de regresión adaptativa multivariante
  • Regresión no lineal
  • Regresión no paramétrica
  • Ecuaciones normales
  • Regresión de búsqueda de proyección
  • Metodología de modelado de respuesta
  • Regresión lineal segmentada
  • Regresión escalonada
  • Rotura estructural
  • Máquinas de vectores soporte
  • Modelo de regresión truncado

Referencias [ editar ]

Citas [ editar ]

  1. ^ David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge . pag. 26. Una ecuación de regresión simple tiene en el lado derecho una intersección y una variable explicativa con un coeficiente de pendiente. Una regresión múltiple e lado derecho, cada uno con su propio coeficiente de pendiente
  2. ^ Rencher, Alvin C .; Christensen, William F. (2012), "Capítulo 10, Regresión multivariante - Sección 10.1, Introducción", Métodos de análisis multivariante , Serie de Wiley en Probabilidad y Estadística, 709 (3ª ed.), John Wiley & Sons, p. 19, ISBN 9781118391679.
  3. ^ Hilary L. Seal (1967). "El desarrollo histórico del modelo lineal de Gauss". Biometrika . 54 (1/2): 1–24. doi : 10.1093 / biomet / 54.1-2.1 . JSTOR 2333849 . 
  4. ^ Yan, Xin (2009), Análisis de regresión lineal: teoría y computación , World Scientific, págs. 1-2, ISBN 9789812834119, Análisis de regresión ... es probablemente uno de los temas más antiguos de la estadística matemática que datan de hace unos doscientos años. La forma más temprana de la regresión lineal fue el método de mínimos cuadrados, que fue publicado por Legendre en 1805, y por Gauss en 1809 ... Legendre y Gauss aplicaron el método al problema de determinar, a partir de observaciones astronómicas, las órbitas de los cuerpos. sobre el sol.
  5. ↑ a b Tibshirani, Robert (1996). "Contracción de regresión y selección a través del lazo". Revista de la Sociedad Real de Estadística, Serie B . 58 (1): 267–288. JSTOR 2346178 . 
  6. ^ a b Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Regresión de ángulo mínimo". The Annals of Statistics . 32 (2): 407–451. arXiv : matemáticas / 0406456 . doi : 10.1214 / 009053604000000067 . JSTOR 3448465 . 
  7. ↑ a b Hawkins, Douglas M. (1973). "Sobre la investigación de regresiones alternativas por análisis de componentes principales". Revista de la Sociedad Real de Estadística, Serie C . 22 (3): 275-286. JSTOR 2346776 . 
  8. ↑ a b Jolliffe, Ian T. (1982). "Una nota sobre el uso de componentes principales en regresión". Revista de la Sociedad Real de Estadística, Serie C . 31 (3): 300–303. JSTOR 2348005 . 
  9. ^ Berk, Richard A. (2007). "Análisis de regresión: una crítica constructiva". Revisión de justicia penal . 32 (3): 301-302. doi : 10.1177 / 0734016807304871 .
  10. ^ Warne, Russell T. (2011). "Más allá de la regresión múltiple: uso de análisis de elementos comunes para comprender mejor los resultados de R2". Trimestral para niños superdotados . 55 (4): 313–318. doi : 10.1177 / 0016986211422217 .
  11. ^ Hidalgo, Bertha; Goodman, Melody (15 de noviembre de 2012). "¿Regresión multivariable o multivariable?" . Revista estadounidense de salud pública . 103 (1): 39–40. doi : 10.2105 / AJPH.2012.300897 . ISSN 0090-0036 . PMC 3518362 . PMID 23153131 .   
  12. ^ Brillinger, David R. (1977). "La identificación de un sistema particular de series de tiempo no lineal". Biometrika . 64 (3): 509–515. doi : 10.1093 / biomet / 64.3.509 . JSTOR 2345326 . 
  13. ^ Galton, Francis (1886). "Regresión hacia la mediocridad en la estatura hereditaria" . Revista del Instituto Antropológico de Gran Bretaña e Irlanda . 15 : 246-263. doi : 10.2307 / 2841583 . ISSN 0959-5295 . 
  14. ^ Lange, Kenneth L .; Little, Roderick JA; Taylor, Jeremy MG (1989). "Modelado estadístico robusto utilizando la distribución t" (PDF) . Revista de la Asociación Estadounidense de Estadística . 84 (408): 881–896. doi : 10.2307 / 2290063 . JSTOR 2290063 .  
  15. ^ Swindel, Benee F. (1981). "Geometría de regresión de cresta ilustrada". El estadístico estadounidense . 35 (1): 12-15. doi : 10.2307 / 2683577 . JSTOR 2683577 . 
  16. ^ Draper, Norman R .; van Nostrand; R. Craig (1979). "Ridge regresión y estimación de James-Stein: revisión y comentarios". Tecnometría . 21 (4): 451–466. doi : 10.2307 / 1268284 . JSTOR 1268284 . 
  17. ^ Hoerl, Arthur E .; Kennard, Robert W .; Hoerl, Roger W. (1985). "Uso práctico de la regresión de crestas: un desafío cumplido". Revista de la Sociedad Real de Estadística, Serie C . 34 (2): 114-120. JSTOR 2347363 . 
  18. Narula, Subhash C .; Wellington, John F. (1982). "La regresión de la suma mínima de errores absolutos: una encuesta de vanguardia". Revista Estadística Internacional . 50 (3): 317–326. doi : 10.2307 / 1402501 . JSTOR 1402501 . 
  19. ^ Piedra, CJ (1975). "Estimadores adaptativos de máxima verosimilitud de un parámetro de ubicación" . The Annals of Statistics . 3 (2): 267–284. doi : 10.1214 / aos / 1176343056 . JSTOR 2958945 . 
  20. ^ Goldstein, H. (1986). "Análisis de modelos lineales mixtos multinivel utilizando mínimos cuadrados generalizados iterativos". Biometrika . 73 (1): 43–56. doi : 10.1093 / biomet / 73.1.43 . JSTOR 2336270 . 
  21. ^ Theil, H. (1950). "Un método invariante de rango de análisis de regresión lineal y polinomial. I, II, III". Nederl. Akad. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. Señor 0036489 . ; Sen, Pranab Kumar (1968). "Estimaciones del coeficiente de regresión basadas en tau de Kendall". Revista de la Asociación Estadounidense de Estadística . 63 (324): 1379-1389. doi : 10.2307 / 2285891 . JSTOR 2285891 . Señor 0258201 .  .
  22. ^ Deaton, Angus (1992). Comprensión del consumo . Prensa de la Universidad de Oxford. ISBN 978-0-19-828824-4.
  23. ↑ a b Krugman, Paul R .; Obstfeld, M .; Melitz, Marc J. (2012). Economía internacional: teoría y política (9ª ed. Global). Harlow: Pearson. ISBN 9780273754091.
  24. ^ Laidler, David EW (1993). La demanda de dinero: teorías, pruebas y problemas (4ª ed.). Nueva York: Harper Collins. ISBN 978-0065010985.
  25. ^ a b Ehrenberg; Smith (2008). Modern Labor Economics (10ª ed. Internacional). Londres: Addison-Wesley. ISBN 9780321538963.
  26. ^ Página web de EEMP Archivado el 11 de junio de 2011 en la Wayback Machine.
  27. ^ "Regresión lineal (aprendizaje automático)" (PDF) . Universidad de Pittsburgh .
  28. ^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge: Harvard. ISBN 0-674-40340-1.

Fuentes [ editar ]

  • Cohen, J., Cohen P., West, SG y Aiken, LS (2003). Análisis de regresión / correlación múltiple aplicado para las ciencias del comportamiento . (2da ed.) Hillsdale, NJ: Lawrence Erlbaum Associates
  • Charles Darwin . La variación de animales y plantas bajo domesticación . (1868) (El Capítulo XIII describe lo que se sabía sobre la reversión en la época de Galton. Darwin usa el término "reversión").
  • Draper, NR; Smith, H. (1998). Análisis de regresión aplicado (3ª ed.). John Wiley. ISBN 978-0-471-17082-2.
  • Francis Galton. "Regresión hacia la mediocridad en la estatura hereditaria", Revista del Instituto Antropológico , 15: 246-263 (1886). (Fax en: [1] )
  • Robert S. Pindyck y Daniel L. Rubinfeld (1998, 4ª ed.). Modelos econométricos y proyecciones económicas , cap. 1 (Introducción, incl. Apéndices sobre operadores Σ y derivación del parámetro est.) Y Apéndice 4.3 (regresión múltiple en forma de matriz).

Lectura adicional [ editar ]

  • Pedhazur, Elazar J (1982). Regresión múltiple en la investigación del comportamiento: explicación y predicción (2ª ed.). Nueva York: Holt, Rinehart y Winston. ISBN 978-0-03-041760-3.
  • Mathieu Rouaud, 2013: Probabilidad, estadística y estimación Capítulo 2: Regresión lineal, regresión lineal con barras de error y regresión no lineal.
  • Laboratorio Nacional de Física (1961). "Capítulo 1: Ecuaciones lineales y matrices: métodos directos". Métodos informáticos modernos . Notas sobre ciencia aplicada. 16 (2ª ed.). Oficina de Papelería de Su Majestad .

Enlaces externos [ editar ]

  • Regresión de mínimos cuadrados , simulaciones interactivas PhET , Universidad de Colorado en Boulder
  • Ajuste lineal de bricolaje