Análisis de regresión

Análisis de regresión
Parte de una serie sobre
Modelos
Regresión lineal Regresión simple Regresión polinomial Modelo linear general
Modelo lineal generalizado Elección discreta Regresión binomial Regresión binaria Regresión logística Regresión logística multinomial Logit mixto Probit Probit multinomial Logit ordenado Probit ordenado Poisson
Modelo multinivel Efectos fijos Efectos aleatorios Modelo lineal de efectos mixtos Modelo no lineal de efectos mixtos
Regresión no lineal No paramétrico Semiparamétrico Robusto Cuantil Isotónico Componentes principales Menor ángulo Local Segmentario
Errores en variables
Estimacion
Mínimos cuadrados Lineal No lineal
Ordinario Ponderado Generalizado
Parcial Total No negativo Regresión de crestas Regularizado
Desviaciones mínimas absolutas Reponderado iterativamente Bayesiano Multivariado bayesiano
Fondo
Validación de regresión Respuesta media y prevista Errores y residuales Bondad de ajuste Residuo estudentizado Teorema de Gauss-Markov
Portal de matemáticas
v t mi

Aprendizaje automático y minería de datos
Parte de una serie sobre

Problemas Clasificación Agrupación Regresión Detección de anomalías AutoML reglas de asociación Aprendizaje reforzado Predicción estructurada Ingeniería de características Aprendizaje de funciones Aprender en línea Aprendizaje semi-supervisado Aprendizaje sin supervisión Aprendiendo a clasificar Inducción gramatical
Aprendizaje supervisado ( clasificación • regresión ) Árboles de decisión Conjuntos Harpillera Impulso Bosque aleatorio k -NN Regresión lineal Bayes ingenuo Redes neuronales artificiales Regresión logística Perceptrón Máquina de vectores de relevancia (RVM) Máquina de vectores de soporte (SVM)
Agrupación ABEDUL CURA Jerárquico k -significa Expectativa-maximización (EM) DBSCAN ÓPTICA Cambio medio
Reducción de dimensionalidad Análisis factorial CCA ICA LDA NMF PCA PGD t-SNE
Predicción estructurada Modelos graficos Red de Bayes Campo aleatorio condicional Markov oculto
Detección de anomalías k -NN Factor de valor atípico local
Red neuronal artificial Autoencoder Computación cognitiva Aprendizaje profundo DeepDream Perceptrón multicapa RNN LSTM GRU ESN Máquina de Boltzmann restringida GAN SOM Red neuronal convolucional U-Net Transformador Red neuronal en aumento Memtransistor RAM electroquímica (ECRAM)
Aprendizaje reforzado Q-aprendizaje SARSA Diferencia temporal (TD)
Teoría Compensación entre sesgo y varianza Teoría del aprendizaje computacional Minimización de riesgos empíricos Aprendizaje de Occam Aprendizaje PAC Aprendizaje estadístico Teoría de VC
Lugares de aprendizaje automático NeurIPS ICML ML JMLR ArXiv: cs.LG
Artículos relacionados Glosario de inteligencia artificial Lista de conjuntos de datos para la investigación de aprendizaje automático Esquema del aprendizaje automático
v t mi

Línea de regresión para 50 puntos aleatorios en una distribución gaussiana alrededor de la línea y = 1.5x + 2 (no se muestra).

En el modelado estadístico , el análisis de regresión es un conjunto de procesos estadísticos para estimar las relaciones entre una variable dependiente (a menudo llamada variable de 'resultado' o 'respuesta') y una o más variables independientes (a menudo llamadas 'predictores', 'covariables', 'variables explicativas' o 'características'). La forma más común de análisis de regresión es la regresión lineal , en la que se encuentra la línea (o una combinación lineal más compleja ) que se ajusta más a los datos de acuerdo con un criterio matemático específico. Por ejemplo,el método de mínimos cuadrados ordinarios calcula la línea única (o hiperplano) que minimiza la suma de diferencias cuadradas entre los datos verdaderos y esa línea (o hiperplano). Por razones matemáticas específicas (ver regresión lineal ), esto permite al investigador estimar la expectativa condicional (o valor promedio de la población ) de la variable dependiente cuando las variables independientes toman un conjunto de valores dado. Las formas menos comunes de regresión utilizan procedimientos ligeramente diferentes para estimar parámetros de ubicación alternativos (p. Ej., Regresión cuantílica o análisis de condición necesaria ^[1] ) o estimar la expectativa condicional a través de una colección más amplia de modelos no lineales (p. Ej., Regresión no paramétrica ).

El análisis de regresión se utiliza principalmente para dos propósitos conceptualmente distintos. Primero, el análisis de regresión se usa ampliamente para la predicción y el pronóstico , donde su uso se superpone sustancialmente con el campo del aprendizaje automático . En segundo lugar, en algunas situaciones el análisis de regresión se puede utilizar para inferir relaciones causalesentre las variables independientes y dependientes. Es importante destacar que las regresiones por sí mismas solo revelan relaciones entre una variable dependiente y una colección de variables independientes en un conjunto de datos fijo. Para usar regresiones para la predicción o para inferir relaciones causales, respectivamente, un investigador debe justificar cuidadosamente por qué las relaciones existentes tienen poder predictivo para un nuevo contexto o por qué una relación entre dos variables tiene una interpretación causal. Esto último es especialmente importante cuando los investigadores esperan estimar las relaciones causales utilizando datos de observación . ^[2]^[3]

Historia

La primera forma de regresión fue el método de mínimos cuadrados , que fue publicado por Legendre en 1805, ^[4] y por Gauss en 1809. ^[5] Legendre y Gauss aplicaron el método al problema de determinar, a partir de observaciones astronómicas, el órbitas de cuerpos alrededor del Sol (en su mayoría cometas, pero también más tarde los planetas menores recién descubiertos). Gauss publicó un desarrollo adicional de la teoría de mínimos cuadrados en 1821, ^[6] incluyendo una versión del teorema de Gauss-Markov .

El término "regresión" fue acuñado por Francis Galton en el siglo XIX para describir un fenómeno biológico. El fenómeno fue que las alturas de los descendientes de antepasados altos tienden a retroceder hacia un promedio normal (un fenómeno también conocido como regresión hacia la media ). ^[7]^[8] Para Galton, la regresión sólo tenía este significado biológico, ^[9]^[10] pero su trabajo fue ampliado más tarde por Udny Yule y Karl Pearson a un contexto estadístico más general. ^[11]^[12] En el trabajo de Yule y Pearson, se supone que la distribución conjunta de la respuesta y las variables explicativas es gaussiana. Esta suposición fue debilitada por RA Fisher en sus trabajos de 1922 y 1925. ^[13]^[14]^[15] Fisher asumió que la distribución condicional de la variable de respuesta es gaussiana, pero la distribución conjunta no tiene por qué serlo. En este sentido, el supuesto de Fisher se acerca más a la formulación de Gauss de 1821.

En las décadas de 1950 y 1960, los economistas utilizaron "calculadoras" electromecánicas de escritorio para calcular las regresiones. Antes de 1970, a veces se tardaba hasta 24 horas en recibir el resultado de una regresión. ^[dieciséis]

Los métodos de regresión continúan siendo un área de investigación activa. En las últimas décadas, se han desarrollado nuevos métodos para regresión robusta , regresión que involucra respuestas correlacionadas como series de tiempo y curvas de crecimiento , regresión en la que el predictor (variable independiente) o las variables de respuesta son curvas, imágenes, gráficos u otros objetos de datos complejos, métodos de regresión que se adaptan a varios tipos de datos faltantes, regresión no paramétrica , métodos bayesianos de regresión, regresión en la que las variables predictoras se miden con error, regresión con más variables predictoras que observaciones e inferencia causal con regresión.

Modelo de regresión

En la práctica, los investigadores primero seleccionan un modelo que les gustaría estimar y luego usan su método elegido (por ejemplo, mínimos cuadrados ordinarios ) para estimar los parámetros de ese modelo. Los modelos de regresión involucran los siguientes componentes:

Los parámetros desconocidos , a menudo indicados como escalares o vectoriales . $\beta$
Las variables independientes , que se observan en los datos y a menudo se denotan como un vector (donde denota una fila de datos). $X_{i}$ $i$
La variable dependiente , que se observa en los datos y, a menudo, se denota mediante el escalar . $Y_{i}$
Los términos de error , que no se observan directamente en los datos y que a menudo se indican mediante el escalar . $e_{i}$

En varios campos de aplicación , se utilizan diferentes terminologías en lugar de variables dependientes e independientes .

La mayoría de los modelos de regresión proponen que es una función de y , con la representación de un término de error aditivo que puede representar determinantes no modelados o ruido estadístico aleatorio: $Y_{i}$ $X_{i}$ $\beta$ $e_{i}$ $Y_{i}$

Y_{i}=f(X_{i},\beta )+e_{i}

El objetivo de los investigadores es estimar la función que más se ajusta a los datos. Para realizar un análisis de regresión, se debe especificar la forma de la función . A veces, la forma de esta función se basa en el conocimiento sobre la relación entre y que no se basa en los datos. Si no se dispone de tal conocimiento, se elige una forma flexible o conveniente para . Por ejemplo, se puede proponer una regresión univariante simple , lo que sugiere que el investigador cree que es una aproximación razonable para el proceso estadístico que genera los datos. $f(X_{i},\beta )$ $f$ $Y_{i}$ $X_{i}$ $f$ $f(X_{i},\beta )=\beta _{0}+\beta _{1}X_{i}$ $Y_{i}=\beta _{0}+\beta _{1}X_{i}+e_{i}$

Una vez que los investigadores determinan su modelo estadístico preferido , las diferentes formas de análisis de regresión proporcionan herramientas para estimar los parámetros . Por ejemplo, mínimos cuadrados (incluida su variante más común, mínimos cuadrados ordinarios ) encuentra el valor de que minimiza la suma de errores cuadrados . Un método de regresión dado proporcionará en última instancia una estimación de , generalmente indicado para distinguir la estimación del valor del parámetro verdadero (desconocido) que generó los datos. Usando esta estimación, el investigador puede usar el valor ajustado $\beta$ $\beta$ $\sum _{i}(Y_{i}-f(X_{i},\beta ))^{2}$ $\beta$ ${\hat {\beta }}$ ${\hat {Y_{i}}}=f(X_{i},{\hat {\beta }})$ para la predicción o para evaluar la precisión del modelo al explicar los datos. Si el investigador está intrínsecamente interesado en la estimación o en el valor predicho , dependerá del contexto y de sus objetivos. Como se describe en mínimos cuadrados ordinarios , los mínimos cuadrados se utilizan ampliamente porque la función estimada se aproxima a la expectativa condicional . ^[5] Sin embargo, las variantes alternativas (por ejemplo, las desviaciones mínimas absolutas o la regresión cuantílica ) son útiles cuando los investigadores desean modelar otras funciones . ${\hat {\beta }}$ ${\hat {Y_{i}}}$ $f(X_{i},{\hat {\beta }})$ $E(Y_{i}|X_{i})$ $f(X_{i},\beta )$

Es importante señalar que debe haber datos suficientes para estimar un modelo de regresión. Por ejemplo, supongamos que un investigador tiene acceso a filas de datos con un dependiente y dos variables independientes: . Supongamos, además, que el investigador desea estimar un modelo lineal de dos variables a través de mínimos cuadrados : . Si el investigador solo tiene acceso a puntos de datos, entonces podría encontrar infinitas combinaciones que expliquen los datos igualmente bien: se puede elegir cualquier combinación que satisfaga , todas las cuales conducen y, por lo tanto, son soluciones válidas que minimizan la suma de los residuos al cuadrado . Para comprender por qué hay infinitas opciones, tenga en cuenta que el sistema de $N$ $(Y_{i},X_{1i},X_{2i})$ $Y_{i}=\beta _{0}+\beta _{1}X_{1i}+\beta _{2}X_{2i}+e_{i}$ $N=2$ $({\hat {\beta }}_{0},{\hat {\beta }}_{1},{\hat {\beta }}_{2})$ ${\hat {Y}}_{i}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}X_{1i}+{\hat {\beta }}_{2}X_{2i}$ $\sum _{i}{\hat {e}}_{i}^{2}=\sum _{i}({\hat {Y}}_{i}-({\hat {\beta }}_{0}+{\hat {\beta }}_{1}X_{1i}+{\hat {\beta }}_{2}X_{2i}))^{2}=0$ $N=2$ ecuaciones es que hay que resolver para 3 incógnitas, lo que hace el sistema indeterminado . Alternativamente, se pueden visualizar infinidad de planos tridimensionales que pasan por puntos fijos. $N=2$

De manera más general, para estimar un modelo de mínimos cuadrados con parámetros distintos, se deben tener puntos de datos distintos. Si , entonces generalmente no existe un conjunto de parámetros que se ajusten perfectamente a los datos. La cantidad aparece a menudo en el análisis de regresión y se denomina grados de libertad en el modelo. Además, para estimar un modelo de mínimos cuadrados, las variables independientes deben ser linealmente independientes : no se debe poder reconstruir ninguna de las variables independientes sumando y multiplicando las variables independientes restantes. Como se discutió en mínimos cuadrados ordinarios , esta condición asegura que sea un $k$ $N\geq k$ $N<k$ $N-k$ $(X_{1i},X_{2i},...,X_{ki})$ $X^{T}X$ matriz invertible y por lo tanto que existe una solución única . ${\hat {\beta }}$

Presunciones subyacentes

Esta sección necesita citas adicionales para su verificación . Por favor, ayuda a mejorar este artículo mediante la adición de citas de fuentes confiables . El material no obtenido puede ser cuestionado y eliminado. ( Diciembre de 2020 ) ( Obtenga información sobre cómo y cuándo eliminar este mensaje de plantilla )

Por sí misma, una regresión es simplemente un cálculo utilizando los datos. Para interpretar el resultado de una regresión como una cantidad estadística significativa que mide las relaciones del mundo real, los investigadores a menudo se basan en una serie de supuestos clásicos . Estos a menudo incluyen:

La muestra es representativa de la población en general.
Las variables independientes se miden sin error.
Las desviaciones del modelo tienen un valor esperado de cero, condicionado a las covariables: $E(e_{i}|X_{i})=0$
La varianza de los residuos es constante entre las observaciones ( homocedasticidad ). $e_{i}$
Los residuos no están correlacionados entre sí. Matemáticamente, la matriz de varianza-covarianza de los errores es diagonal . $e_{i}$

Unas pocas condiciones son suficientes para que el estimador de mínimos cuadrados posea propiedades deseables: en particular, los supuestos de Gauss-Markov implican que las estimaciones de los parámetros serán insesgadas , consistentes y eficientes en la clase de estimadores lineales insesgados. Los profesionales han desarrollado una variedad de métodos para mantener algunas o todas estas propiedades deseables en entornos del mundo real, porque es poco probable que estos supuestos clásicos se cumplan exactamente. Por ejemplo, modelar errores en las variables puede conducir a estimaciones razonables que las variables independientes se miden con errores. Los errores estándar consistentes con heterocedasticidad permiten la varianza de $e_{i}$ para cambiar entre los valores de . Los errores correlacionados que existen dentro de subconjuntos de datos o siguen patrones específicos se pueden manejar usando errores estándar agrupados, regresión ponderada geográfica o errores estándar de Newey-West , entre otras técnicas. Cuando las filas de datos corresponden a ubicaciones en el espacio, la elección de cómo modelar dentro de las unidades geográficas puede tener consecuencias importantes. ^[17]^[18] El subcampo de la econometría se centra principalmente en el desarrollo de técnicas que permitan a los investigadores sacar conclusiones razonables del mundo real en entornos del mundo real, donde los supuestos clásicos no se cumplen exactamente. $X_{i}$ $e_{i}$

Regresión lineal

En la regresión lineal, la especificación del modelo es que la variable dependiente es una combinación lineal de los parámetros (pero no es necesario que sea lineal en las variables independientes ). Por ejemplo, en la regresión lineal simple para modelar puntos de datos, hay una variable independiente:, y dos parámetros, y : $y_{i}$ $n$ $x_{i}$ $\beta _{0}$ $\beta _{1}$

línea recta:

y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i},\quad i=1,\dots ,n.\!

En la regresión lineal múltiple, hay varias variables independientes o funciones de variables independientes.

Al agregar un término a la regresión anterior, se obtiene: $x_{i}^{2}$

parábola:

y_{i}=\beta _{0}+\beta _{1}x_{i}+\beta _{2}x_{i}^{2}+\varepsilon _{i},\ i=1,\dots ,n.\!

Esto sigue siendo una regresión lineal; aunque la expresión del lado derecho es cuadrática en la variable independiente , es lineal en los parámetros , y $x_{i}$ $\beta _{0}$ $\beta _{1}$ $\beta _{2}.$

En ambos casos, es un término de error y el subíndice indexa una observación particular. $\varepsilon _{i}$ $i$

Volviendo nuestra atención al caso de la línea recta: dada una muestra aleatoria de la población, estimamos los parámetros de la población y obtenemos el modelo de regresión lineal muestral:

{\widehat {y}}_{i}={\widehat {\beta }}_{0}+{\widehat {\beta }}_{1}x_{i}.

El residual , , es la diferencia entre el valor de la variable dependiente predicha por el modelo, y el verdadero valor de la variable dependiente, . Un método de estimación son los mínimos cuadrados ordinarios . Este método obtiene estimaciones de parámetros que minimizan la suma de los residuos cuadrados , SSR : $e_{i}=y_{i}-{\widehat {y}}_{i}$ ${\widehat {y}}_{i}$ $y_{i}$

SSR=\sum _{i=1}^{n}e_{i}^{2}.\,

La minimización de esta función da como resultado un conjunto de ecuaciones normales , un conjunto de ecuaciones lineales simultáneas en los parámetros, que se resuelven para producir los estimadores de parámetros . ${\widehat {\beta }}_{0},{\widehat {\beta }}_{1}$

Ilustración de regresión lineal en un conjunto de datos.

En el caso de regresión simple, las fórmulas para las estimaciones de mínimos cuadrados son

{\widehat {\beta }}_{1}={\frac {\sum (x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum (x_{i}-{\bar {x}})^{2}}}

{\widehat {\beta }}_{0}={\bar {y}}-{\widehat {\beta }}_{1}{\bar {x}}

donde es la media (promedio) de los valores y es la media de los valores. ${\bar {x}}$ $x$ ${\bar {y}}$ $y$

Bajo el supuesto de que el término de error poblacional tiene una varianza constante, la estimación de esa varianza viene dada por:

{\hat {\sigma }}_{\varepsilon }^{2}={\frac {SSR}{n-2}}.\,

Esto se denomina error cuadrático medio (MSE) de la regresión. El denominador es el tamaño de la muestra reducido por el número de parámetros del modelo estimados a partir de los mismos datos, para regresores o si se usa una intersección. ^[19] En este caso, el denominador es . $(n-p)$ $p$ $(n-p-1)$ $p=1$ $n-2$

Los errores estándar de las estimaciones de los parámetros están dados por

{\hat {\sigma }}_{\beta _{1}}={\hat {\sigma }}_{\varepsilon }{\sqrt {\frac {1}{\sum (x_{i}-{\bar {x}})^{2}}}}

{\hat {\sigma }}_{\beta _{0}}={\hat {\sigma }}_{\varepsilon }{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum (x_{i}-{\bar {x}})^{2}}}}}={\hat {\sigma }}_{\beta _{1}}{\sqrt {\frac {\sum x_{i}^{2}}{n}}}.

Bajo el supuesto adicional de que el término de error de la población se distribuye normalmente, el investigador puede utilizar estos errores estándar estimados para crear intervalos de confianza y realizar pruebas de hipótesis sobre los parámetros de la población .

Modelo linear general

En el modelo de regresión múltiple más general, hay variables independientes: $p$

y_{i}=\beta _{1}x_{i1}+\beta _{2}x_{i2}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i},\,

donde es la -ésima observación sobre la -ésima variable independiente. Si la primera variable independiente toma el valor 1 para todos , y luego se llama el intercepto de regresión . $x_{ij}$ $i$ $j$ $i$ $x_{i1}=1$ $\beta _{1}$

Las estimaciones de los parámetros de mínimos cuadrados se obtienen a partir de ecuaciones normales. El residual se puede escribir como $p$

\varepsilon _{i}=y_{i}-{\hat {\beta }}_{1}x_{i1}-\cdots -{\hat {\beta }}_{p}x_{ip}.

Las ecuaciones normales son

\sum _{i=1}^{n}\sum _{k=1}^{p}x_{ij}x_{ik}{\hat {\beta }}_{k}=\sum _{i=1}^{n}x_{ij}y_{i},\ j=1,\dots ,p.\,

En notación matricial, las ecuaciones normales se escriben como

\mathbf {(X^{\top }X){\hat {\boldsymbol {\beta }}}={}X^{\top }Y} ,\,

donde el elemento de es , el elemento del vector de columna es y el elemento de es . Así es , es y es . La solucion es $ij$ $\mathbf {X}$ $x_{ij}$ $i$ $Y$ $y_{i}$ $j$ ${\hat {\boldsymbol {\beta }}}$ ${\hat {\beta }}_{j}$ $\mathbf {X}$ $n\times p$ $Y$ $n\times 1$ ${\hat {\boldsymbol {\beta }}}$ $p\times 1$

\mathbf {{\hat {\boldsymbol {\beta }}}=(X^{\top }X)^{-1}X^{\top }Y} .\,

Diagnósticos

Una vez que se ha construido un modelo de regresión, puede ser importante confirmar la bondad del ajuste del modelo y la significancia estadística de los parámetros estimados. Las comprobaciones de bondad de ajuste más utilizadas incluyen el R-cuadrado , los análisis del patrón de residuos y la prueba de hipótesis. La significancia estadística se puede verificar mediante una prueba F del ajuste general, seguida de pruebas t de parámetros individuales.

Las interpretaciones de estas pruebas de diagnóstico se basan en gran medida en los supuestos del modelo. Aunque el examen de los residuos se puede utilizar para invalidar un modelo, los resultados de una prueba t o una prueba F a veces son más difíciles de interpretar si se violan los supuestos del modelo. Por ejemplo, si el término de error no tiene una distribución normal, en muestras pequeñas los parámetros estimados no seguirán distribuciones normales y complicarán la inferencia. Sin embargo, con muestras relativamente grandes, se puede invocar un teorema del límite central de modo que la prueba de hipótesis pueda proceder utilizando aproximaciones asintóticas.

Variables dependientes limitadas

Las variables dependientes limitadas , que son variables de respuesta que son variables categóricas o son variables limitadas a caer solo en un cierto rango, a menudo surgen en econometría .

La variable de respuesta puede ser discontinua ("limitada" a estar en algún subconjunto de la línea real). Para las variables binarias (cero o uno), si el análisis procede con regresión lineal de mínimos cuadrados, el modelo se denomina modelo de probabilidad lineal . Los modelos no lineales para variables dependientes binarias incluyen el modelo probit y logit . El modelo probit multivariado es un método estándar para estimar una relación conjunta entre varias variables dependientes binarias y algunas variables independientes. Para las variables categóricas con más de dos valores existe el logit multinomial . Para las variables ordinales con más de dos valores, existen el logit ordenadoy modelos probit ordenados . Los modelos de regresión censurados pueden usarse cuando la variable dependiente solo se observa a veces, y los modelos de tipo de corrección de Heckman pueden usarse cuando la muestra no se selecciona al azar de la población de interés. Una alternativa a tales procedimientos es la regresión lineal basada en la correlación policórica (o correlaciones poliseriales) entre las variables categóricas. Dichos procedimientos difieren en los supuestos hechos sobre la distribución de las variables en la población. Si la variable es positiva con valores bajos y representa la repetición de la ocurrencia de un evento, entonces cuente modelos como la regresión de Poisson o el binomio negativo. se puede utilizar el modelo.

Regresión no lineal

Cuando la función del modelo no es lineal en los parámetros, la suma de cuadrados debe minimizarse mediante un procedimiento iterativo. Esto introduce muchas complicaciones que se resumen en Diferencias entre mínimos cuadrados lineales y no lineales .

Interpolación y extrapolación

En el medio, la línea recta interpolada representa el mejor equilibrio entre los puntos por encima y por debajo de esta línea. Las líneas punteadas representan las dos líneas extremas. Las primeras curvas representan los valores estimados. Las curvas exteriores representan una predicción para una nueva medición. ^[20]

Los modelos de regresión predicen un valor de la variable Y dados los valores conocidos de las variables X. La predicción dentro del rango de valores en el conjunto de datos utilizado para el ajuste del modelo se conoce informalmente como interpolación . La predicción fuera de este rango de datos se conoce como extrapolación . La extrapolación se basa en gran medida en los supuestos de regresión. Cuanto más se aleja la extrapolación de los datos, más margen hay para que el modelo falle debido a las diferencias entre los supuestos y los datos de la muestra o los valores verdaderos.

En general, se aconseja ^{[ cita requerida ]} que al realizar la extrapolación, se debe acompañar el valor estimado de la variable dependiente con un intervalo de predicción que represente la incertidumbre. Dichos intervalos tienden a expandirse rápidamente a medida que los valores de las variables independientes se mueven fuera del rango cubierto por los datos observados.

Por estas y otras razones, algunos tienden a decir que no sería prudente realizar una extrapolación. ^[21]

Sin embargo, esto no cubre el conjunto completo de modelado de errores que se pueden hacer: en particular, la asunción de una forma particular para la relación entre Y y X . Un análisis de regresión realizado correctamente incluirá una evaluación de qué tan bien la forma asumida se corresponde con los datos observados, pero solo puede hacerlo dentro del rango de valores de las variables independientes realmente disponibles. Esto significa que cualquier extrapolación depende particularmente de los supuestos que se hacen sobre la forma estructural de la relación de regresión. Consejos de mejores prácticas aquí ^{[ cita requerida ]}es que una relación lineal en variables y lineal en parámetros no debe elegirse simplemente por conveniencia computacional, sino que todo el conocimiento disponible debe implementarse en la construcción de un modelo de regresión. Si este conocimiento incluye el hecho de que la variable dependiente no puede salir de un cierto rango de valores, esto se puede utilizar para seleccionar el modelo, incluso si el conjunto de datos observado no tiene valores particularmente cerca de dichos límites. Las implicaciones de este paso de elegir una forma funcional apropiada para la regresión pueden ser grandes cuando se considera la extrapolación. Como mínimo, puede garantizar que cualquier extrapolación que surja de un modelo ajustado sea "realista" (o de acuerdo con lo que se conoce).

Cálculos de potencia y tamaño de muestra

No existen métodos generalmente acordados para relacionar el número de observaciones con el número de variables independientes en el modelo. Una regla empírica conjeturada por Good y Hardin es , donde es el tamaño de la muestra, es el número de variables independientes y es el número de observaciones necesarias para alcanzar la precisión deseada si el modelo tiene solo una variable independiente. ^[22] Por ejemplo, un investigador está construyendo un modelo de regresión lineal utilizando un conjunto de datos que contiene 1000 pacientes ( ). Si el investigador decide que se necesitan cinco observaciones para definir con precisión una línea recta ( ), entonces el número máximo de variables independientes que el modelo puede admitir es 4, porque $N=m^{n}$ $N$ $n$ $m$ $N$ $m$

{\frac {\log 1000}{\log 5}}=4.29.

Otros metodos

Aunque los parámetros de un modelo de regresión generalmente se estiman utilizando el método de mínimos cuadrados, otros métodos que se han utilizado incluyen:

Métodos bayesianos , por ejemplo, regresión lineal bayesiana
Regresión porcentual, para situaciones en las que se considera más apropiado reducir los errores porcentuales . ^[23]
Desviaciones mínimas absolutas , que son más robustas en presencia de valores atípicos, lo que conduce a una regresión de cuantiles
La regresión no paramétrica , requiere una gran cantidad de observaciones y es computacionalmente intensiva
Optimización de escenarios , que conduce a modelos de predicción de intervalos.
Aprendizaje de métrica de distancia, que se aprende mediante la búsqueda de una métrica de distancia significativa en un espacio de entrada dado. ^[24]

Software

Todos los principales paquetes de software estadístico realizan análisis de regresión e inferencia de mínimos cuadrados . La regresión lineal simple y la regresión múltiple usando mínimos cuadrados se pueden realizar en algunas aplicaciones de hojas de cálculo y en algunas calculadoras. Si bien muchos paquetes de software estadístico pueden realizar varios tipos de regresión robusta y no paramétrica, estos métodos están menos estandarizados; diferentes paquetes de software implementan diferentes métodos, y un método con un nombre dado puede implementarse de manera diferente en diferentes paquetes. Se ha desarrollado un software de regresión especializado para su uso en campos como el análisis de encuestas y la neuroimagen.

Ver también

Cuarteto de Anscombe
Ajuste de curvas
Teoría de la estimación
Previsión
Fracción de varianza inexplicable
Aproximación de funciones
Modelos lineales generalizados
Kriging (un algoritmo de estimación de mínimos cuadrados lineales)
Regresión local
Problema de unidad de área modificable
Splines de regresión adaptativa multivariante
Distribución normal multivariante
Coeficiente de correlación producto-momento de Pearson
Cuasi-varianza
Intervalo de predicción
Validación de regresión
Regresión robusta
Regresión segmentada
Procesamiento de la señal
Regresión escalonada
Geometría del taxi
Estimación de tendencias

Referencias

^ Análisis de condición necesario
^ David A. Freedman (27 de abril de 2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge. ISBN 978-1-139-47731-4.
^ R. Dennis Cook; Sanford Weisberg Crítica y análisis de influencia en regresión , Metodología sociológica , vol. 13. (1982), págs. 313–361
^ Soy Legendre . Nouvelles méthodes pour la détermination des orbites des comètes , Firmin Didot, París, 1805. Aparece como apéndice “Sur la Méthode des moindres quarrés”.
^ a b Capítulo 1 de: Angrist, JD y Pischke, JS (2008). Econometría mayoritariamente inofensiva: el compañero de un empirista . Prensa de la Universidad de Princeton.
^ CF Gauss. Theoriacombinationis observaciónum erroribus minimis obnoxiae . (1821/1823)
^ Mogull, Robert G. (2004). Estadística aplicada del segundo semestre . Kendall / Hunt Publishing Company. pag. 59. ISBN 978-0-7575-1181-3.
^ Galton, Francis (1989). "Parentesco y correlación (reimpreso en 1989)" . Ciencia estadística . 4 (2): 80–86. doi : 10.1214 / ss / 1177012581 . JSTOR 2245330 .
^ Francis Galton . "Leyes típicas de la herencia", Nature 15 (1877), 492–495, 512–514, 532–533. (Galton usa el término "reversión" en este artículo, que analiza el tamaño de los guisantes).
^ Francis Galton. Dirección presidencial, Sección H, Antropología. (1885) (Galton usa el término "regresión" en este artículo, que analiza la altura de los humanos).
↑ Yule, G. Udny (1897). "Sobre la teoría de la correlación" . Revista de la Royal Statistical Society . 60 (4): 812–54. doi : 10.2307 / 2979746 . JSTOR 2979746 .
^ Pearson, Karl ; Yule, GU; Blanchard, Norman; Lee, Alice (1903). "La ley de la herencia ancestral" . Biometrika . 2 (2): 211–236. doi : 10.1093 / biomet / 2.2.211 . JSTOR 2331683 .
^ Fisher, RA (1922). "La bondad de ajuste de fórmulas de regresión y la distribución de coeficientes de regresión" . Revista de la Royal Statistical Society . 85 (4): 597–612. doi : 10.2307 / 2341124 . JSTOR 2341124 . PMC 1084801 .
^ Ronald A. Fisher (1954). Métodos estadísticos para investigadores (duodécima ed.). Edimburgo : Oliver y Boyd. ISBN 978-0-05-002170-5.
^ Aldrich, John (2005). "Fisher y regresión" . Ciencia estadística . 20 (4): 401–417. doi : 10.1214 / 088342305000000331 . JSTOR 20061201 .
^ Rodney Ramcharan. Regresiones: ¿Por qué los economistas están obsesionados con ellas? Marzo de 2006. Consultado el 2011-12-03.
^ Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Regresión ponderada geográficamente: el análisis de relaciones que varían espacialmente (Reprint ed.). Chichester, Inglaterra: John Wiley. ISBN 978-0-471-49616-8.
^ Fotheringham, AS; Wong, DWS (1 de enero de 1991). "El problema de la unidad de área modificable en el análisis estadístico multivariado". Medio Ambiente y Ordenación A . 23 (7): 1025–1044. doi : 10.1068 / a231025 . S2CID 153979055 .
^ Steel, RGD y Torrie, JH, Principios y procedimientos de estadística con especial referencia a las ciencias biológicas. , McGraw Hill , 1960, página 288.
^ Rouaud, Mathieu (2013). Probabilidad, estadística y estimación (PDF) . pag. 60.
^ Chiang, CL, (2003) Métodos estadísticos de análisis , World Scientific. ISBN 981-238-310-7 - página 274 sección 9.7.4 "interpolación vs extrapolación"
^ Bien, PI ; Hardin, JW (2009). Errores comunes en estadísticas (y cómo evitarlos) (3ª ed.). Hoboken, Nueva Jersey: Wiley. pag. 211. ISBN 978-0-470-45798-6.
^ Tofallis, C. (2009). "Regresión porcentual de mínimos cuadrados". Revista de métodos estadísticos aplicados modernos . 7 : 526–534. doi : 10.2139 / ssrn.1406472 . SSRN 1406472 .
^ YangJing Long (2009). "Estimación de la edad humana por aprendizaje métrico para problemas de regresión" (PDF) . Proc. Conferencia internacional sobre análisis informático de imágenes y patrones : 74–82. Archivado desde el original (PDF) el 8 de enero de 2010.

Otras lecturas

William H. Kruskal y Judith M. Tanur , ed. (1978), "Hipótesis lineales", Enciclopedia Internacional de Estadística . Prensa libre, v. 1,

Evan J. Williams, "I. Regression", págs. 523–41.

Julian C. Stanley , "II. Análisis de varianza", págs. 541–554.

Lindley, DV (1987). "Análisis de regresión y correlación", New Palgrave: A Dictionary of Economics , v. 4, págs. 120–23.
Birkes, David y Dodge, Y. , Métodos alternativos de regresión . ISBN 0-471-56881-3
Chatfield, C. (1993) " Calculating Interval Forecasts ", Journal of Business and Economic Statistics, 11 . págs. 121-135.
Draper, NR; Smith, H. (1998). Análisis de regresión aplicado (3ª ed.). John Wiley. ISBN 978-0-471-17082-2.
Fox, J. (1997). Análisis de regresión aplicado, modelos lineales y métodos relacionados. sabio
Hardle, W., Regresión no paramétrica aplicada (1990), ISBN 0-521-42950-1
Meade, Nigel; Islam, Towhidul (1995). "Intervalos de predicción para pronósticos de curva de crecimiento". Journal of Forecasting . 14 (5): 413–430. doi : 10.1002 / para.3980140502 .
A. Sen, M. Srivastava, Análisis de regresión: teoría, métodos y aplicaciones , Springer-Verlag, Berlín, 2011 (cuarta impresión).
T. Strutz: Ajuste de datos e incertidumbre (una introducción práctica a los mínimos cuadrados ponderados y más) . Vieweg + Teubner, ISBN 978-3-8348-1022-9 .
Malakooti, B. (2013). Sistemas de Operaciones y Producción con Múltiples Objetivos . John Wiley e hijos.

enlaces externos

Wikimedia Commons tiene medios relacionados con el análisis de regresión .

"Análisis de regresión" , Enciclopedia de Matemáticas , EMS Press , 2001 [1994]
Usos más tempranos: regresión - historia básica y referencias
Regresión de datos débilmente correlacionados : cómo pueden aparecer los errores de regresión lineal cuando el rango Y es mucho más pequeño que el rango X

[1] Análisis de condición necesario

[Freedman2009-2] David A. Freedman (27 de abril de 2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge. ISBN 978-1-139-47731-4.

[3] R. Dennis Cook; Sanford Weisberg Crítica y análisis de influencia en regresión , Metodología sociológica , vol. 13. (1982), págs. 313–361

[Legendre-4] Soy Legendre . Nouvelles méthodes pour la détermination des orbites des comètes , Firmin Didot, París, 1805. Aparece como apéndice “Sur la Méthode des moindres quarrés”.

[Gauss-5] Capítulo 1 de: Angrist, JD y Pischke, JS (2008). Econometría mayoritariamente inofensiva: el compañero de un empirista . Prensa de la Universidad de Princeton.

[Gauss2-6] CF Gauss. Theoriacombinationis observaciónum erroribus minimis obnoxiae . (1821/1823)

[7] Mogull, Robert G. (2004). Estadística aplicada del segundo semestre . Kendall / Hunt Publishing Company. pag. 59. ISBN 978-0-7575-1181-3.

[8] Galton, Francis (1989). "Parentesco y correlación (reimpreso en 1989)" . Ciencia estadística . 4 (2): 80–86. doi : 10.1214 / ss / 1177012581 . JSTOR 2245330 .

[9] Francis Galton . "Leyes típicas de la herencia", Nature 15 (1877), 492–495, 512–514, 532–533. (Galton usa el término "reversión" en este artículo, que analiza el tamaño de los guisantes).

[10] Francis Galton. Dirección presidencial, Sección H, Antropología. (1885) (Galton usa el término "regresión" en este artículo, que analiza la altura de los humanos).

[11] Yule, G. Udny (1897). "Sobre la teoría de la correlación" . Revista de la Royal Statistical Society . 60 (4): 812–54. doi : 10.2307 / 2979746 . JSTOR 2979746 .

[12] Pearson, Karl ; Yule, GU; Blanchard, Norman; Lee, Alice (1903). "La ley de la herencia ancestral" . Biometrika . 2 (2): 211–236. doi : 10.1093 / biomet / 2.2.211 . JSTOR 2331683 .

[13] Fisher, RA (1922). "La bondad de ajuste de fórmulas de regresión y la distribución de coeficientes de regresión" . Revista de la Royal Statistical Society . 85 (4): 597–612. doi : 10.2307 / 2341124 . JSTOR 2341124 . PMC 1084801 .

[FisherR1954Statistical-14] Ronald A. Fisher (1954). Métodos estadísticos para investigadores (duodécima ed.). Edimburgo : Oliver y Boyd. ISBN 978-0-05-002170-5.

[15] Aldrich, John (2005). "Fisher y regresión" . Ciencia estadística . 20 (4): 401–417. doi : 10.1214 / 088342305000000331 . JSTOR 20061201 .

[16] Rodney Ramcharan. Regresiones: ¿Por qué los economistas están obsesionados con ellas? Marzo de 2006. Consultado el 2011-12-03.

[17] Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Regresión ponderada geográficamente: el análisis de relaciones que varían espacialmente (Reprint ed.). Chichester, Inglaterra: John Wiley. ISBN 978-0-471-49616-8.

[18] Fotheringham, AS; Wong, DWS (1 de enero de 1991). "El problema de la unidad de área modificable en el análisis estadístico multivariado". Medio Ambiente y Ordenación A . 23 (7): 1025–1044. doi : 10.1068 / a231025 . S2CID 153979055 .

[19] Steel, RGD y Torrie, JH, Principios y procedimientos de estadística con especial referencia a las ciencias biológicas. , McGraw Hill , 1960, página 288.

[20] Rouaud, Mathieu (2013). Probabilidad, estadística y estimación (PDF) . pag. 60.

[21] Chiang, CL, (2003) Métodos estadísticos de análisis , World Scientific. ISBN 981-238-310-7 - página 274 sección 9.7.4 "interpolación vs extrapolación"

[22] Bien, PI ; Hardin, JW (2009). Errores comunes en estadísticas (y cómo evitarlos) (3ª ed.). Hoboken, Nueva Jersey: Wiley. pag. 211. ISBN 978-0-470-45798-6.

[23] Tofallis, C. (2009). "Regresión porcentual de mínimos cuadrados". Revista de métodos estadísticos aplicados modernos . 7 : 526–534. doi : 10.2139 / ssrn.1406472 . SSRN 1406472 .

[24] YangJing Long (2009). "Estimación de la edad humana por aprendizaje métrico para problemas de regresión" (PDF) . Proc. Conferencia internacional sobre análisis informático de imágenes y patrones : 74–82. Archivado desde el original (PDF) el 8 de enero de 2010.

Control de autoridad
General	Archivo de autoridad integrado (Alemania)
Bibliotecas nacionales	Francia (datos) Estados Unidos Japón
Otro	Microsoft académico

vtmiMétodos de pronóstico cuantitativo
Pronósticos de datos históricos Media móvil Suavizado exponencial Análisis de tendencia Descomposición de series de tiempo Enfoque ingenuo
Pronósticos asociativos (causales) Media móvil Regresión lineal simple Análisis de regresión Modelo econométrico