En estadística , la regresión de ángulo mínimo (LARS) es un algoritmo para ajustar modelos de regresión lineal a datos de alta dimensión, desarrollado por Bradley Efron , Trevor Hastie , Iain Johnstone y Robert Tibshirani . [1]
Suponga que esperamos que una variable de respuesta esté determinada por una combinación lineal de un subconjunto de covariables potenciales. Luego, el algoritmo LARS proporciona un medio para producir una estimación de qué variables incluir, así como sus coeficientes.
En lugar de dar un resultado vectorial, la solución LARS consiste en una curva que denota la solución para cada valor de la norma L1 del vector de parámetros. El algoritmo es similar a la regresión progresiva por pasos , pero en lugar de incluir variables en cada paso, los parámetros estimados se incrementan en una dirección equiangular a las correlaciones de cada uno con el residual.
Pros y contras
Las ventajas del método LARS son:
- Es computacionalmente tan rápido como la selección directa.
- Produce una ruta de solución lineal completa por partes, que es útil en la validación cruzada o intentos similares para ajustar el modelo.
- Si dos variables están correlacionadas casi por igual con la respuesta, entonces sus coeficientes deberían aumentar aproximadamente al mismo ritmo. Por lo tanto, el algoritmo se comporta como esperaría la intuición y también es más estable.
- Se modifica fácilmente para producir algoritmos eficientes para otros métodos que producen resultados similares, como el lazo y la regresión progresiva por etapas.
- Es eficaz en contextos donde p >> n (es decir, cuando el número de predictores p es significativamente mayor que el número de puntos n ) [2]
Las desventajas del método LARS incluyen:
- Con cualquier cantidad de ruido en la variable dependiente y con variables independientes multicolineales de alta dimensión , no hay razón para creer que las variables seleccionadas tendrán una alta probabilidad de ser las variables causales subyacentes reales. Este problema no es exclusivo de LARS, ya que es un problema general con los enfoques de selección de variables que buscan encontrar componentes deterministas subyacentes. Sin embargo, debido a que LARS se basa en un reajuste iterativo de los residuos, parecería ser especialmente sensible a los efectos del ruido. Este problema es discutido en detalle por Weisberg en la sección de discusión de Efron et al. (2004) Artículo de Annals of Statistics. [3] Weisberg proporciona un ejemplo empírico basado en un nuevo análisis de los datos utilizados originalmente para validar LARS de que la selección de variables parece tener problemas con variables altamente correlacionadas.
- Dado que casi todos los datos de alta dimensión en el mundo real exhibirán por casualidad cierto grado de colinealidad en al menos algunas variables, el problema que tiene LARS con las variables correlacionadas puede limitar su aplicación a datos de alta dimensión.
Algoritmo
Los pasos básicos del algoritmo de regresión de ángulo mínimo son:
- Empiece con todos los coeficientes igual a cero.
- Encuentra el predictor más correlacionado con
- Incrementar el coeficiente en la dirección del signo de su correlación con . Toma residuospor el camino. Deténgase cuando algún otro predictor tiene tanta correlación con como posee.
- Incrementar (, ) en su dirección conjunta de mínimos cuadrados, hasta que algún otro predictor tiene tanta correlación con el residuo .
- Incrementar (, , ) en su dirección conjunta de mínimos cuadrados, hasta que algún otro predictor tiene tanta correlación con el residuo .
- Continuar hasta que todos los predictores estén en el modelo [4]
Implementación de software
La regresión de ángulo mínimo se implementa en R a través del paquete lars , en Python con el paquete scikit-learn y en SAS a través del procedimiento GLMSELECT .
Ver también
Referencias
- ^ Efron, Bradley ; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Regresión de ángulo mínimo" (PDF) . Annals of Statistics . 32 (2): págs. 407–499. arXiv : matemáticas / 0406456 . doi : 10.1214 / 009053604000000067 . Señor 2060166 .
- ^ Hastie, Trevor; Robert, Tibshirani; Jerome, Friedman (2009). Los elementos de la minería, la inferencia y la predicción de datos de aprendizaje estadístico (2ª ed. 2009) (PDF) . Springer Nueva York. pag. 76. doi : 10.1007 / 978-0-387-84858-7 .
- ^ Ver discusión de Weisberg siguiente Efron, Bradley ; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Regresión de ángulo mínimo" (PDF) . Annals of Statistics . 32 (2): págs. 407–499. arXiv : matemáticas / 0406456 . doi : 10.1214 / 009053604000000067 . Señor 2060166 .
- ^ "Una explicación simple de la regresión de ángulo mínimo y lazo" .