La regresión cuantílica es un tipo de análisis de regresión utilizado en estadística y econometría. Mientras que el método de mínimos cuadrados estima la media condicional de la variable de respuesta a través de los valores de las variables predictoras, la regresión por cuantiles estima la mediana condicional (u otros cuantiles ) de la variable de respuesta. La regresión cuantílica es una extensión de la regresión lineal que se utiliza cuando no se cumplen las condiciones de la regresión lineal.
Ventajas y aplicaciones
Una ventaja de la regresión por cuantiles en relación con la regresión por mínimos cuadrados ordinarios es que las estimaciones de la regresión por cuantiles son más robustas frente a valores atípicos en las medidas de respuesta. Sin embargo, el principal atractivo de la regresión por cuantiles va más allá de esto y es ventajoso cuando las funciones de cuantiles condicionales son de interés. Diferentes medidas de tendencia central y dispersión estadística pueden ser útiles para obtener un análisis más completo de la relación entre variables. [1]
En ecología , se ha propuesto y utilizado la regresión cuantílica como una forma de descubrir relaciones predictivas más útiles entre variables en los casos en que no existe relación o solo una relación débil entre las medias de dichas variables. La necesidad y el éxito de la regresión cuantílica en ecología se ha atribuido a la complejidad de las interacciones entre diferentes factores que conducen a datos con variación desigual de una variable para diferentes rangos de otra variable. [2]
Otra aplicación de la regresión por cuantiles se encuentra en las áreas de gráficos de crecimiento, donde las curvas de percentiles se utilizan comúnmente para detectar un crecimiento anormal. [3] [4]
Historia
La idea de estimar una pendiente de regresión mediana, un teorema principal sobre la minimización de la suma de las desviaciones absolutas y un algoritmo geométrico para construir la regresión mediana, fue propuesta en 1760 por Ruđer Josip Bošković , un sacerdote católico jesuita de Dubrovnik. [1] : 4 [5] Estaba interesado en la elipticidad de la tierra, basándose en la sugerencia de Isaac Newton de que su rotación podría hacer que se abultara en el ecuador con un aplanamiento correspondiente en los polos. [6] Finalmente produjo el primer procedimiento geométrico para determinar el ecuador de un planeta en rotación a partir de tres observaciones de una característica de la superficie. Más importante aún para la regresión cuantílica, fue capaz de desarrollar la primera evidencia del criterio mínimo absoluto y precedió a los mínimos cuadrados introducidos por Legendre en 1805 por cincuenta años. [7]
Otros pensadores comenzaron a construir sobre la idea de Bošković, como Pierre-Simon Laplace , quien desarrolló el llamado "método de situación". Esto llevó a Francis Edgeworth 's plural mediana [8] - un enfoque geométrico a la regresión mediana - y es reconocido como el precursor del método simplex . [7] Las obras de Bošković, Laplace y Edgeworth fueron reconocidas como un preludio de las contribuciones de Roger Koenker a la regresión cuantílica.
Los cálculos de regresión mediana para conjuntos de datos más grandes son bastante tediosos en comparación con el método de mínimos cuadrados, por lo que históricamente ha generado una falta de popularidad entre los estadísticos, hasta la adopción generalizada de las computadoras en la última parte del siglo XX.
Cuantiles
La regresión cuantílica expresa los cuantiles condicionales de una variable dependiente como una función lineal de las variables explicativas. Para la practicidad de la regresión por cuantiles es crucial que los cuantiles se pueden expresar como la solución de un problema de minimización, como mostraremos en esta sección antes de discutir los cuantiles condicionales en la siguiente sección.
Cuantil de una variable aleatoria
Dejar ser una variable aleatoria de valor real con función de distribución acumulativa . Lael cuantil de Y viene dado por
dónde
Defina la función de pérdida como, dónde es una función indicadora .
Se puede encontrar un cuantil específico minimizando la pérdida esperada de con respecto a : [1] (págs. 5-6):
Esto se puede demostrar calculando la derivada de la pérdida esperada mediante una aplicación de la regla integral de Leibniz , configurándola en 0 y dejando ser la solución de
Esta ecuación se reduce a
y luego a
Si la solucion no es único, entonces tenemos que tomar la solución más pequeña para obtener el ésimo cuantil de la variable aleatoria Y .
Ejemplo
Dejar ser una variable aleatoria discreta que toma valores con con iguales probabilidades. La tarea es encontrar la mediana de Y, y por lo tanto el valoresta elegido. Entonces la esperada prdida de es
Desde es una constante, se puede sacar de la función de pérdida esperada (esto solo es cierto si ). Entonces, en u = 3,
Suponga que u se incrementa en 1 unidad. Entonces la pérdida esperada se cambiará poral cambiar u a 4. Si, u = 5, la pérdida esperada es
y cualquier cambio en u aumentará la pérdida esperada. Por tanto, u = 5 es la mediana. La siguiente tabla muestra la pérdida esperada (dividida por) para diferentes valores de u .
tu | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Pérdida esperada | 36 | 29 | 24 | 21 | 20 | 21 | 24 | 29 | 36 |
Intuición
Considerar y sea q una suposición inicial para. La pérdida esperada evaluada en q es
Para minimizar la pérdida esperada, movemos un poco el valor de q para ver si la pérdida esperada aumentará o disminuirá. Suponga que aumentamos q en 1 unidad. Entonces el cambio de la pérdida esperada sería
El primer término de la ecuación es y el segundo término de la ecuación es . Por lo tanto, el cambio de la función de pérdida esperada es negativo si y solo si, eso es si y solo si q es menor que la mediana. De manera similar, si reducimos q en 1 unidad, el cambio de la función de pérdida esperada es negativo si y solo si q es mayor que la mediana.
Para minimizar la función de pérdida esperada, aumentaríamos (disminuiríamos) L ( q ) si q es menor (mayor) que la mediana, hasta que q alcance la mediana. La idea detrás de la minimización es contar el número de puntos (ponderados con la densidad) que son mayores o menores que q y luego mover q a un punto donde q sea mayor que% de los puntos.
Cuantil de muestra
La El cuantil de muestra se puede obtener resolviendo el siguiente problema de minimización
- ,
donde la funcion es la función de valor absoluto inclinado. La intuición es la misma que para el cuantil de población.
Cuantil condicional y regresión cuantílica
La o cuantil condicional de dado es el o cuantil de la distribución de probabilidad condicional de dado ,
- .
Usamos una mayúscula para denotar el cuantil condicional para indicar que es una variable aleatoria.
En regresión cuantílica para el el cuantil asumimos que el El cuantil condicional se da como una función lineal de las variables explicativas:
- .
Dada la función de distribución de , se puede obtener resolviendo
Resolver el análogo de la muestra da el estimador de .
Tenga en cuenta que cuando la función de pérdida es proporcional a la función de valor absoluto y, por lo tanto, la regresión mediana es la misma que la regresión lineal por las desviaciones mínimas absolutas .
Cálculo de estimaciones para parámetros de regresión
Las formas matemáticas que surgen de la regresión cuantílica son distintas de las que surgen en el método de mínimos cuadrados . El método de mínimos cuadrados conduce a una consideración de problemas en un espacio de producto interno , que implica la proyección en subespacios, y por lo tanto, el problema de minimizar los errores al cuadrado puede reducirse a un problema de álgebra lineal numérica . La regresión cuantílica no tiene esta estructura y, en cambio, el problema de minimización puede reformularse como un problema de programación lineal.
dónde
- ,
Métodos simplex [1] : 181 o métodos de punto interior [1] : 190 se pueden aplicar para resolver el problema de programación lineal.
Propiedades asintóticas
Para , en algunas condiciones de regularidad, es asintóticamente normal :
dónde
- y
La estimación directa de la matriz de varianza-covarianza asintótica no siempre es satisfactoria. La inferencia de los parámetros de regresión de cuantiles se puede hacer con las pruebas de puntuación de rango de regresión o con los métodos de arranque. [9]
Equivariance
Consulte el estimador invariante para conocer los antecedentes de la invariancia o consulte la equivariancia .
Equivariancia de escala
Para cualquier y
Equivariancia de cambio
Para cualquier y
Equivariancia con la reparametrización del diseño
Dejar ser cualquiera matriz no singular y
Invarianza a transformaciones monótonas
Si es una función no decreciente en ' R , se aplica la siguiente propiedad de invariancia :
Ejemplo 1):
Si y , luego . La regresión media no tiene la misma propiedad ya que
Métodos bayesianos para la regresión cuantílica
Debido a que la regresión de cuantiles normalmente no asume una probabilidad paramétrica para las distribuciones condicionales de Y | X, los métodos bayesianos funcionan con una probabilidad de trabajo. Una opción conveniente es la verosimilitud asimétrica de Laplacian, [10] porque la moda del posterior resultante bajo un prior plano son las estimaciones de regresión cuantiles habituales. Sin embargo, la inferencia posterior debe interpretarse con cuidado. Yang, Wang y He [11] proporcionaron un ajuste de varianza posterior para una inferencia válida. Además, Yang y He [12] demostraron que se puede tener una inferencia posterior asintóticamente válida si se elige la probabilidad de trabajo como la probabilidad empírica.
Métodos de aprendizaje automático para la regresión cuantílica
Más allá de la regresión lineal simple, existen varios métodos de aprendizaje automático que pueden extenderse a la regresión por cuantiles. Un cambio del error al cuadrado a la función de pérdida de valor absoluto inclinado permite que los algoritmos de aprendizaje basados en el descenso de gradientes aprendan un cuantil específico en lugar de la media. Significa que podemos aplicar todas las redes neuronales y los algoritmos de aprendizaje profundo a la regresión de cuantiles. [13] [14] Los algoritmos de aprendizaje basados en árboles también están disponibles para la regresión de cuantiles (ver, por ejemplo, Bosques de regresión de cuantiles, [15] como una generalización simple de Bosques aleatorios ).
Regresión cuantílica censurada
Si la variable de respuesta está sujeta a censura, la media condicional no es identificable sin supuestos de distribución adicionales, pero el cuantil condicional a menudo es identificable. Para un trabajo reciente sobre regresión cuantílica censurada, ver: Portnoy [16] y Wang y Wang [17]
Ejemplo (2):
Dejar y . Luego. Este es el modelo de regresión por cuantiles censurados: los valores estimados pueden obtenerse sin hacer suposiciones distributivas, pero a costa de dificultades computacionales, [18] algunas de las cuales pueden evitarse utilizando un procedimiento de regresión cuantil censurado simple de tres pasos como una aproximación. [19]
Para la censura aleatoria de las variables de respuesta, la regresión cuantílica censurada de Portnoy (2003) [16] proporciona estimaciones consistentes de todas las funciones cuantílicas identificables basadas en la reponderación adecuada de cada punto censurado.
Implementaciones
Numerosos paquetes de software estadístico incluyen implementaciones de regresión cuantílica:
- Función Matlab
quantreg
[20] - Eviews , desde la versión 6. [ cita requerida ]
- gretl tiene el
quantreg
mando. [21] - R ofrece varios paquetes que implementan la regresión de cuantiles, más notablemente
quantreg
por Roger Koenker , [22] pero tambiéngbm
, [23]quantregForest
, [24]qrnn
[25] yqgam
[26] - Python , a través de
Scikit-garden
[27] ystatsmodels
[28] - SAS hasta
proc quantreg
(ver. 9.2) yproc quantselect
(ver. 9.3). [29] - Stata , a través del
qreg
comando. [30] [31] - Vowpal Wabbit , vía
--loss_function quantile
. [32] - Paquete Statsmodels para Python, a través de
QuantReg
[33] - Paquete Mathematica
QuantileRegression.m
[34] alojado en el proyecto MathematicaForPrediction en GitHub.
Referencias
- ↑ a b c d e Koenker, Roger (2005). Regresión cuantílica . Prensa de la Universidad de Cambridge. págs. 146 –7. ISBN 978-0-521-60827-5.
- ^ Cade, Brian S .; Mediodía, Barry R. (2003). "Una suave introducción a la regresión cuantílica para ecologistas" (PDF) . Fronteras en Ecología y Medio Ambiente . 1 (8): 412–420. doi : 10.2307 / 3868138 . JSTOR 3868138 .
- ^ Wei, Y .; Pere, A .; Koenker, R .; Él, X. (2006). "Métodos de regresión cuantílica para gráficos de crecimiento de referencia". Estadística en Medicina . 25 (8): 1369-1382. doi : 10.1002 / sim.2271 . PMID 16143984 .
- ^ Wei, Y .; Él, X. (2006). "Gráficos de crecimiento condicional (con discusiones)". Annals of Statistics . 34 (5): 2069–2097 y 2126–2131. arXiv : matemáticas / 0702634 . doi : 10.1214 / 009053606000000623 .
- ^ Stigler, S. (1984). "Boscovich, Simpson y una nota manuscrita de 1760 sobre el ajuste de una relación lineal". Biometrika . 71 (3): 615–620. doi : 10.1093 / biomet / 71.3.615 .
- ^ Koenker, Roger (2005). Regresión cuantílica . Cambridge: Cambridge University Press. págs. 2 . ISBN 9780521845731.
- ^ a b Furno, Marilena; Vistocco, Domenico (2018). Regresión cuantílica: estimación y simulación . Hoboken, Nueva Jersey: John Wiley & Sons. págs. xv. ISBN 9781119975281.
- ^ Koenker, Roger (agosto de 1998). "Galton, Edgeworth, Frisch y perspectivas de regresión cuantílica en economía" (PDF) . UIUC.edu . Consultado el 22 de agosto de 2018 .
- ^ Kocherginsky, M .; Él, X .; Mu, Y. (2005). "Intervalos de confianza prácticos para cuantiles de regresión". Revista de Estadística Computacional y Gráfica . 14 (1): 41–55. doi : 10.1198 / 106186005X27563 .
- ^ Kozumi, H .; Kobayashi, G. (2011). "Métodos de muestreo de Gibbs para la regresión cuantílica bayesiana" (PDF) . Revista de Computación y Simulación Estadística . 81 (11): 1565-1578. doi : 10.1080 / 00949655.2010.496117 .
- ^ Yang, Y .; Wang, HX; Él, X. (2016). "Inferencia posterior en regresión cuantílica bayesiana con probabilidad asimétrica de Laplace". Revista Estadística Internacional . 84 (3): 327–344. doi : 10.1111 / insr.12114 . hdl : 2027,42 / 135059 .
- ^ Yang, Y .; Él, X. (2010). "Probabilidad empírica bayesiana para la regresión de cuantiles". Annals of Statistics . 40 (2): 1102-1131. arXiv : 1207.5378 . doi : 10.1214 / 12-AOS1005 .
- ^ Petneházi, Gábor (21 de agosto de 2019). "QCNN: red neuronal convolucional de cuantiles". arXiv : 1908.07978 [ cs.LG ].
- ^ Rodrigues, Filipe; Pereira, Francisco C. (27 de agosto de 2018). "Más allá de las expectativas: media conjunta profunda y regresión cuantílica para problemas espacio-temporales". arXiv : 1808.08798 [ stat ].
- ^ Meinshausen, Nicolai (2006). "Bosques de regresión cuantílica" (PDF) . Revista de investigación sobre aprendizaje automático . 7 (6): 983–999.
- ^ a b Portnoy, SL (2003). "Cuantiles de regresión censurados". Revista de la Asociación Estadounidense de Estadística . 98 (464): 1001–1012. doi : 10.1198 / 016214503000000954 .
- ^ Wang, H .; Wang, L. (2009). "Regresión cuantílica censurada ponderada localmente". Revista de la Asociación Estadounidense de Estadística . 104 (487): 1117–1128. CiteSeerX 10.1.1.504.796 . doi : 10.1198 / jasa.2009.tm08230 .
- ^ Powell, James L. (1986). "Cuantiles de regresión censurados". Revista de Econometría . 32 (1): 143-155. doi : 10.1016 / 0304-4076 (86) 90016-3 .
- ^ Chernozhukov, Víctor; Hong, Han (2002). "Regresión de cuantiles censurados de tres pasos y asuntos extramatrimoniales". J. Amer. Estadístico. Assoc. 97 (459): 872–882. doi : 10.1198 / 016214502388618663 .
- ^ "quantreg (x, y, tau, orden, Nboot) - Intercambio de archivos - MATLAB Central" . www.mathworks.com . Consultado el 1 de febrero de 2016 .
- ^ "Referencia de comandos de Gretl" (PDF) . Abril de 2017.
- ^ "quantreg: regresión cuantílica" . Proyecto R . 2018-12-18.
- ^ "gbm: modelos de regresión potenciados generalizados" . Proyecto R . 2019-01-14.
- ^ "quantregForest: bosques de regresión cuantílica" . Proyecto R . 2017-12-19.
- ^ "qrnn: redes neuronales de regresión cuantílica" . Proyecto R . 2018-06-26.
- ^ "qgam: modelos de regresión cuantílica aditiva suave" . Proyecto R . 2019-05-23.
- ^ "Bosques de regresión cuantílica" . Jardín Scikit . Consultado el 3 de enero de 2019 .
- ^ "Statsmodels: regresión cuantílica" . Statsmodels . Consultado el 15 de noviembre de 2019 .
- ^ "Introducción a la regresión cuantílica y el procedimiento QUANTREG" (PDF) . Soporte SAS .
- ^ "qreg - regresión cuantílica" (PDF) . Stata Manual .
- ^ Cameron, A. Colin; Trivedi, Pravin K. (2010). "Regresión cuantílica" . Microeconometrics Using Stata (Ed. Revisada). College Station: Stata Press. págs. 211-234. ISBN 978-1-59718-073-3.
- ^ "JohnLangford / votepal_wabbit" . GitHub . Consultado el 9 de julio de 2016 .
- ^ "Regresión cuantílica" . statsmodels.org . Consultado el 3 de enero de 2019 .
- ^ "QuantileRegression.m" . MathematicaForPrediction . Consultado el 3 de enero de 2019 .
Otras lecturas
- Angrist, Joshua D .; Pischke, Jörn-Steffen (2009). "Regresión cuantílica" . Econometría mayoritariamente inofensiva: el compañero de un empirista . Prensa de la Universidad de Princeton. págs. 269-291. ISBN 978-0-691-12034-8.
- Koenker, Roger (2005). Regresión cuantílica . Prensa de la Universidad de Cambridge. ISBN 978-0-521-60827-5.