De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
La ley de Okun en macroeconomía es un ejemplo de regresión lineal simple. Aquí se presume que la variable dependiente (crecimiento del PIB) está en una relación lineal con los cambios en la tasa de desempleo.

En estadística , la regresión lineal simple es un modelo de regresión lineal con una única variable explicativa . [1] [2] [3] [4] [5] Es decir, se trata de puntos de muestra de dos dimensiones con una variable independiente y una variable dependiente (convencionalmente, la x y Y coordenadas en un sistema cartesiano de coordenadas ) y encuentra una función lineal (una línea recta no vertical ) que, con la mayor precisión posible, predice los valores de la variable dependiente en función de la variable independiente. El adjetivo simplese refiere al hecho de que la variable de resultado está relacionada con un solo predictor.

Es común hacer la estipulación adicional de que se debe usar el método de mínimos cuadrados ordinarios (MCO): la precisión de cada valor predicho se mide por su cuadrado residual (distancia vertical entre el punto del conjunto de datos y la línea ajustada), y el objetivo es hacer que la suma de estas desviaciones al cuadrado sea lo más pequeña posible. Otros métodos de regresión que pueden usarse en lugar de mínimos cuadrados ordinarios incluyen las desviaciones mínimas absolutas (minimizando la suma de valores absolutos de los residuos) y el estimador de Theil-Sen (que elige una línea cuya pendiente es la mediana de las pendientes determinadas por pares de puntos de muestra). Regresión de Deming(mínimos cuadrados totales) también encuentra una línea que se ajusta a un conjunto de puntos muestrales bidimensionales, pero (a diferencia de los mínimos cuadrados ordinarios, las desviaciones mínimas absolutas y la regresión de la pendiente mediana) no es realmente una instancia de regresión lineal simple, porque no no separar las coordenadas en una variable dependiente y otra independiente y potencialmente podría devolver una línea vertical como su ajuste.

El resto del artículo asume una regresión de mínimos cuadrados ordinarios. En este caso, la pendiente de la línea ajustada es igual a la correlación entre y y x corregido por la relación de las desviaciones estándar de estas variables. La intersección de la línea ajustada es tal que la línea pasa por el centro de masa ( x , y ) de los puntos de datos.

Ajuste de la línea de regresión [ editar ]

Considere la función del modelo

que describe una línea con pendiente β e intersección en y α . En general, tal relación puede no ser exacta para la población mayoritariamente no observada de valores de las variables independientes y dependientes; Llamamos errores a las desviaciones no observadas de la ecuación anterior . Suponga que observamos n pares de datos y los llamamos {( x i , y i ), i = 1, ..., n }. Podemos describir la relación subyacente entre y i y x i que involucra este término de error ε i por

Esta relación entre los parámetros subyacentes α y β verdaderos (pero no observados) y los puntos de datos se denomina modelo de regresión lineal.

El objetivo es encontrar valores estimados y para los parámetros α y β que proporcionarían el "mejor" ajuste en algún sentido para los puntos de datos. Como se mencionó en la introducción, en este artículo el "mejor" ajuste se entenderá como en el enfoque de mínimos cuadrados : una línea que minimiza la suma de los cuadrados residuales (diferencias entre los valores reales y pronosticados de la variable dependiente y ), cada uno de los cuales que viene dado por, para cualquier valor de parámetro candidato y ,

En otras palabras, y solucione el siguiente problema de minimización:

Al expandir para obtener una expresión cuadrática en y podemos derivar valores de y que minimizan la función objetivo Q (estos valores minimizadores se denotan y ): [6]

Aquí hemos introducido

  • y como el promedio de x i y y i , respectivamente
  • r xy como el coeficiente de correlación de la muestra entre x y y
  • s x y s y como las no corregidas las desviaciones estándar de la muestra de x y y
  • y como la varianza muestral y la covarianza muestral , respectivamente

Sustituyendo las expresiones anteriores por y en

rendimientos

Esto muestra que r xy es la pendiente de la línea de regresión de los puntos de datos estandarizados (y que esta línea pasa por el origen).

Generalizando la notación, podemos escribir una barra horizontal sobre una expresión para indicar el valor promedio de esa expresión sobre el conjunto de muestras. Por ejemplo:

Esta notación nos permite una fórmula concisa para r xy :

El coeficiente de determinación ("R cuadrado") es igual a cuando el modelo es lineal con una sola variable independiente. Consulte el ejemplo del coeficiente de correlación para obtener detalles adicionales.

Explicación intuitiva [ editar ]

Multiplicando todos los miembros de la suma en el numerador por: (por lo tanto, sin cambiarlo):

Podemos ver que la pendiente (tangente del ángulo) de la línea de regresión es el promedio ponderado de que es la pendiente (tangente del ángulo) de la línea que conecta el i-ésimo punto con el promedio de todos los puntos, ponderado por porque el además, el punto es más "importante", ya que pequeños errores en su posición afectarán menos la pendiente que lo conecta con el punto central.

Dado con el ángulo que forma la línea con el eje x positivo, tenemos

Regresión lineal simple sin el término de intersección (regresor único) [ editar ]

A veces es apropiado para forzar la línea de regresión pase a través del origen, porque x y y se supone que son proporcionales. Para el modelo sin el término de intersección, y = βx , el estimador de MCO para β se simplifica a

Sustituyendo ( x - h , y - k ) en lugar de ( x , y ) se obtiene la regresión a través de ( h , k ) :

donde Cov y Var se refieren a la covarianza y la varianza de los datos de la muestra (sin corregir el sesgo).

El último formulario anterior demuestra cómo el alejar la línea del centro de masa de los puntos de datos afecta la pendiente.

Propiedades numéricas [ editar ]

  1. La línea de regresión pasa por el punto del centro de masa , si el modelo incluye un término de intersección (es decir, no forzado a través del origen).
  2. La suma de los residuos es cero si el modelo incluye un término de intersección:
  3. Los valores residuales y x no están correlacionados (haya o no un término de intersección en el modelo), lo que significa:

Propiedades basadas en modelos [ editar ]

La descripción de las propiedades estadísticas de los estimadores a partir de las estimaciones de regresión lineal simple requiere el uso de un modelo estadístico . Lo siguiente se basa en asumir la validez de un modelo bajo el cual las estimaciones son óptimas. También es posible evaluar las propiedades bajo otros supuestos, como la falta de homogeneidad , pero esto se analiza en otra parte. [ aclaración necesaria ]

Imparcialidad [ editar ]

Los estimadores y son insesgados .

Para formalizar esta afirmación debemos definir un marco en el que estos estimadores sean variables aleatorias. Consideramos los residuos ε i como variables aleatorias extraídas independientemente de alguna distribución con media cero. En otras palabras, para cada valor de x , el valor correspondiente de y se genera como una respuesta media α + βx más una variable aleatoria adicional ε denominada término de error , igual a cero en promedio. Bajo tal interpretación, los estimadores de mínimos cuadrados y ellos mismos serán variables aleatorias cuyas medias serán iguales a los "valores verdaderos" α y β. Ésta es la definición de un estimador insesgado.

Intervalos de confianza [ editar ]

Las fórmulas dadas en la sección anterior permiten calcular las estimaciones puntuales de α y β , es decir, los coeficientes de la línea de regresión para el conjunto de datos dado. Sin embargo, esas fórmulas no nos dicen lo preciso que las estimaciones son, es decir, cuánto los estimadores y varían de una muestra a otra para el tamaño de muestra especificado. Los intervalos de confianza se diseñaron para dar un conjunto plausible de valores a las estimaciones que se podrían tener si se repitiera el experimento un gran número de veces.

El método estándar para construir intervalos de confianza para coeficientes de regresión lineal se basa en el supuesto de normalidad, que se justifica si:

  1. los errores en la regresión están distribuidos normalmente (el supuesto supuesto de regresión clásico ), o
  2. el número de observaciones n es suficientemente grande, en cuyo caso el estimador tiene una distribución aproximadamente normal.

El último caso está justificado por el teorema del límite central .

Supuesto de normalidad [ editar ]

Bajo el primer supuesto anterior, el de la normalidad de los términos de error, el estimador del coeficiente de pendiente estará normalmente distribuido con media β y varianza donde σ 2 es la varianza de los términos de error (ver Demostraciones que involucran mínimos cuadrados ordinarios ). Al mismo tiempo, la suma de los residuos cuadrados Q se distribuye proporcionalmente a χ 2 con n - 2 grados de libertad, e independientemente de . Esto nos permite construir un valor t

dónde

es el error estándar del estimador .

Esta t -valor tiene una de Student t -distribución con n - 2 grados de libertad. Utilizándolo podemos construir un intervalo de confianza para β :

en el nivel de confianza (1 - γ ) , donde es el cuantil de la distribución t n −2 . Por ejemplo, si γ = 0,05 , el nivel de confianza es del 95%.

De manera similar, el intervalo de confianza para el coeficiente de intersección α viene dado por

en el nivel de confianza (1 - γ ), donde

La regresión de Estados Unidos "cambios en el desempleo - crecimiento del PIB" con las bandas de confianza del 95%.

Los intervalos de confianza para α y β nos dan una idea general de dónde es más probable que se encuentren estos coeficientes de regresión. Por ejemplo, en la regresión de la ley de Okun que se muestra aquí, las estimaciones puntuales son

Los intervalos de confianza del 95% para estas estimaciones son

Para representar esta información gráficamente, en forma de bandas de confianza alrededor de la línea de regresión, se debe proceder con cuidado y tener en cuenta la distribución conjunta de los estimadores. Se puede demostrar [7] que en el nivel de confianza (1 -  γ ) la banda de confianza tiene forma hiperbólica dada por la ecuación

Supuesto asintótico [ editar ]

El segundo supuesto alternativo establece que cuando el número de puntos en el conjunto de datos es "suficientemente grande", la ley de los números grandes y el teorema del límite central se vuelven aplicables, y entonces la distribución de los estimadores es aproximadamente normal. Bajo este supuesto, todas las fórmulas derivadas de la sección anterior siguen siendo válidas, con la única excepción de que el cuantil t * n −2 de la distribución t de Student se reemplaza por el cuantil q * de la distribución normal estándar . Ocasionalmente, la fracción1/n −2 es reemplazado por 1/norte. Cuando n es grande, tal cambio no altera los resultados de manera apreciable.

Ejemplo numérico[ editar ]

Este conjunto de datos da masas promedio de mujeres en función de su altura en una muestra de mujeres estadounidenses de 30 a 39 años. Aunque el artículo de OLS sostiene que sería más apropiado ejecutar una regresión cuadrática para estos datos, aquí se aplica el modelo de regresión lineal simple.

Hay n = 15 puntos en este conjunto de datos. Los cálculos manuales se iniciarían encontrando las siguientes cinco sumas:

Estas cantidades se utilizarían para calcular las estimaciones de los coeficientes de regresión y sus errores estándar.

Gráfico de puntos y líneas de mínimos cuadrados lineales en el ejemplo numérico de regresión lineal simple

El cuantil 0.975 de la distribución t de Student con 13 grados de libertad es t * 13 = 2.1604 y, por lo tanto, los intervalos de confianza del 95% para α y β son

El coeficiente de correlación producto-momento también podría calcularse:

Este ejemplo también demuestra que los cálculos sofisticados no superarán el uso de datos mal preparados. Las alturas se dieron originalmente en pulgadas y se han convertido al centímetro más cercano. Dado que la conversión ha introducido un error de redondeo, esta no es una conversión exacta. Las pulgadas originales se pueden recuperar mediante Redondeo (x / 0.0254) y luego volver a convertir al sistema métrico sin redondeo: si se hace esto, los resultados se convierten en

Por lo tanto, una variación aparentemente pequeña en los datos tiene un efecto real.

Ver también [ editar ]

  • Matriz de diseño # Regresión lineal simple
  • Ajuste de línea
  • Estimación de tendencia lineal
  • Regresión lineal segmentada
  • Demostraciones que involucran mínimos cuadrados ordinarios: derivación de todas las fórmulas utilizadas en este artículo en un caso multidimensional general

Referencias [ editar ]

  1. Seltman, Howard J. (8 de septiembre de 2008). Diseño y análisis experimental (PDF) . pag. 227.
  2. ^ "Regresión y muestreo estadístico: regresión lineal simple" . Universidad de Columbia . Consultado el 17 de octubre de 2016 . Cuando se utiliza una variable independiente en una regresión, se denomina regresión simple; (...)
  3. ^ Lane, David M. Introducción a la estadística (PDF) . pag. 462.
  4. ^ Zou KH; Tuncali K; Silverman SG (2003). "Correlación y regresión lineal simple". Radiología . 227 (3): 617–22. doi : 10.1148 / radiol.2273011499 . ISSN 0033-8419 . OCLC 110941167 . PMID 12773666 .   
  5. ^ Altman, Naomi; Krzywinski, Martin (2015). "Regresión lineal simple". Métodos de la naturaleza . 12 (11): 999–1000. doi : 10.1038 / nmeth.3627 . ISSN 1548-7091 . OCLC 5912005539 . PMID 26824102 .   
  6. ^ Kenney, JF y Keeping, ES (1962) "Regresión lineal y correlación". Ch. 15 en Matemáticas de Estadística , Pt. 1, 3ª ed. Princeton, Nueva Jersey: Van Nostrand, págs. 252–285
  7. ^ Casella, G. y Berger, RL (2002), "Inferencia estadística" (2ª edición), Cengage, ISBN 978-0-534-24312-8 , págs. 558–559. 

Enlaces externos [ editar ]

  • Explicación de Wolfram MathWorld del ajuste por mínimos cuadrados y cómo calcularlo
  • Matemáticas de regresión simple (Robert Nau, Duke University)