Regularización de red elástica

En estadística y, en particular, en el ajuste de modelos de regresión lineal o logística , la red elástica es un método de regresión regularizado que combina linealmente las penalizaciones L ₁ y L ₂ de los métodos de lazo y cresta .

Especificación

El método de red elástica supera las limitaciones del método LASSO (operador de selección y contracción mínima absoluta) que utiliza una función de penalización basada en

{\ Displaystyle \ | \ beta \ | _ {1} = \ textstyle \ sum _ {j = 1} ^ {p} | \ beta _ {j} |.}

El uso de esta función de penalización tiene varias limitaciones. ^[1] Por ejemplo, en el caso " p grande , n pequeña " (datos de alta dimensión con pocos ejemplos), LASSO selecciona como máximo n variables antes de saturarse. Además, si hay un grupo de variables altamente correlacionadas, el LASSO tiende a seleccionar una variable de un grupo e ignorar las demás. Para superar estas limitaciones, la red elástica agrega una parte cuadrática a la penalización ( ${\ Displaystyle \ | \ beta \ | ^ {2}}$ ), que cuando se usa solo es la regresión de la cresta (conocida también como regularización de Tikhonov ). Las estimaciones del método de la red elástica están definidas por

{\ Displaystyle {\ hat {\ beta}} \ equiv {\ underset {\ beta} {\ operatorname {argmin}}} (\ | yX \ beta \ | ^ {2} + \ lambda _ {2} \ | \ beta \ | ^ {2} + \ lambda _ {1} \ | \ beta \ | _ {1}).}

El término de penalización cuadrático hace que la función de pérdida sea fuertemente convexa y, por lo tanto, tiene un mínimo único. El método de la red elástica incluye el LASSO y la regresión de la cresta: en otras palabras, cada uno de ellos es un caso especial donde ${\ Displaystyle \ lambda _ {1} = \ lambda, \ lambda _ {2} = 0}$ o ${\ Displaystyle \ lambda _ {1} = 0, \ lambda _ {2} = \ lambda}$ . Mientras tanto, la versión ingenua del método de la red elástica encuentra un estimador en un procedimiento de dos etapas: primero para cada fijo ${\ Displaystyle \ lambda _ {2}}$ encuentra los coeficientes de regresión de la cresta y luego realiza una contracción de tipo LASSO. Este tipo de estimación incurre en una cantidad doble de contracción, lo que conduce a un mayor sesgo y predicciones deficientes. Para mejorar el rendimiento de la predicción, los autores modifican la escala de los coeficientes de la versión ingenua de la red elástica multiplicando los coeficientes estimados por ${\ Displaystyle (1+ \ lambda _ {2})}$ . ^[1]

Ejemplos de dónde se ha aplicado el método de la red elástica son:

Máquina de vectores de soporte ^[2]
Aprendizaje métrico ^[3]
Optimización de la cartera ^[4]
Pronóstico del cáncer ^[5]

Reducción para apoyar la máquina de vectores

A finales de 2014, se comprobó que la red elástica se puede reducir a la máquina de vectores de soporte lineal . ^[6] Una reducción similar fue probada previamente para LASSO en 2014. ^[7] Los autores demostraron que para cada instancia de la red elástica, se puede construir un problema de clasificación binaria artificial tal que la solución hiperplana de un vector de soporte lineal máquina (SVM) es idéntica a la solución ${\ Displaystyle \ beta}$ (después de volver a escalar). La reducción permite inmediatamente el uso de solucionadores SVM altamente optimizados para problemas de redes elásticas. También permite el uso de la aceleración de GPU , que a menudo ya se usa para solucionadores de SVM a gran escala. ^[8] La reducción es una simple transformación de los datos originales y las constantes de regularización.

{\ Displaystyle X \ in {\ mathbb {R}} ^ {n \ times p}, y \ in {\ mathbb {R}} ^ {n}, \ lambda _ {1} \ geq 0, \ lambda _ { 2} \ geq 0}

en nuevas instancias de datos artificiales y una constante de regularización que especifican un problema de clasificación binaria y la constante de regularización de SVM

{\ Displaystyle X_ {2} \ in {\ mathbb {R}} ^ {2p \ times n}, y_ {2} \ in \ {- 1,1 \} ^ {2p}, C \ geq 0.}

Aquí, ${\ Displaystyle y_ {2}}$ consta de etiquetas binarias ${\ displaystyle {-1,1}}$ . Cuándo ${\ Displaystyle 2p> n}$ Por lo general, es más rápido resolver la SVM lineal en el primario, mientras que, de lo contrario, la formulación dual es más rápida. Los autores se refirieron a la transformación como Support Vector Elastic Net (SVEN) y proporcionaron el siguiente pseudocódigo de MATLAB:

función  β = SVEN ( X, y, t, λ2 ); [ n , p ] = tamaño ( X ); X2 = [ bsxfun (@ menos , X , y ./ t ); bsxfun (@ plus , X , y ./ t )] ' ;          Y2 = [ unidades ( p , 1 ); - unos ( p , 1 )];si  2 p > n entonces w = SVMPrimal ( X2 , Y2 , C = 1 / ( 2 * λ2 ));          α = C * máx ( 1 - Y2 . * ( X2 * w ), 0 ); demás      α = SVMDual ( X2 , Y2 , C = 1 / ( 2 * λ2 )); terminar si        β = t * ( α ( 1 : p ) - α ( p + 1 : 2 p )) / suma ( α );

Software

"Glmnet: Modelos lineales generalizados regularizados Lasso y elastic-net" es un software que se implementa como un paquete fuente R y como una caja de herramientas MATLAB . ^[9]^[10] Esto incluye algoritmos rápidos para la estimación de modelos lineales generalizados con ℓ ₁ (el lazo), ℓ ₂ (regresión de la cresta) y mezclas de las dos penalizaciones (la red elástica) usando el descenso cíclico de coordenadas, calculado a lo largo de una regularización camino.
JMP Pro 11 incluye regularización de red elástica, utilizando la personalidad de regresión generalizada con modelo de ajuste.
"pensim: simulación de datos de alta dimensión y regresión penalizada repetida paralelizada" implementa un método de ajuste "2D" alternativo y paralelizado de los parámetros ℓ, un método que, según se afirma, mejora la precisión de la predicción. ^[11]^[12]
scikit-learn incluye máquinas de vectores de regresión lineal, regresión logística y soporte lineal con regularización neta elástica.
SVEN, una implementación de Matlab de Support Vector Elastic Net. Este solucionador reduce el problema de Elastic Net a una instancia de clasificación binaria SVM y utiliza un solucionador Matlab SVM para encontrar la solución. Debido a que SVM se puede paralelizar fácilmente, el código puede ser más rápido que Glmnet en hardware moderno. ^[13]
SpaSM , una implementación de Matlab de regresión dispersa, clasificación y análisis de componentes principales, que incluye regresión regularizada neta elástica. ^[14]
Apache Spark brinda soporte para Elastic Net Regression en su biblioteca de aprendizaje automático MLlib . El método está disponible como parámetro de la clase LinearRegression más general. ^[15]
SAS (software) El procedimiento SAS Glmselect ^[16] admite el uso de la regularización neta elástica para la selección del modelo.

Referencias

^ ^a ^b Zou, Hui; Hastie, Trevor (2005). "Regularización y selección de variables a través de la red elástica". Revista de la Sociedad Real de Estadística, Serie B . 67 (2): 301–320. CiteSeerX 10.1.1.124.4696 . doi : 10.1111 / j.1467-9868.2005.00503.x .
^ Wang, Li; Zhu, Ji; Zou, Hui (2006). "La máquina de vectores de soporte doblemente regularizada" (PDF) . Statistica Sinica . 16 : 589–615.
^ Liu, Meizhu; Vemuri, Baba (2012). "Un enfoque de aprendizaje métrico doblemente regularizado robusto y eficiente" . Actas de la 12ª Conferencia Europea de Visión por Computador . Apuntes de conferencias en Ciencias de la Computación. Parte IV: 646–659. doi : 10.1007 / 978-3-642-33765-9_46 . ISBN 978-3-642-33764-2. PMC 3761969 . PMID 24013160 .
^ Shen, Weiwei; Wang, Jun; Ma, Shiqian (2014). "Cartera Doblemente Regularizada con Minimización de Riesgos". Actas de la vigésimo octava conferencia de AAAI sobre inteligencia artificial : 1286–1292. S2CID 11017740 .
^ Milanez-Almeida, Pedro; Martins, Andrew J .; Germain, Ronald N .; Tsang, John S. (10 de febrero de 2020). "Pronóstico del cáncer con secuenciación de ARN tumoral superficial" . Medicina de la naturaleza . 26 (2): 188-192. doi : 10.1038 / s41591-019-0729-3 . ISSN 1546-170X . PMID 32042193 . S2CID 211074147 .
^ Zhou, Quan; Chen, Wenlin; Song, Shiji; Gardner, Jacob; Weinberger, Kilian; Chen, Yixin. Una reducción de la red elástica para admitir máquinas vectoriales con una aplicación a la computación con GPU . Asociación para el Avance de la Inteligencia Artificial .
^ Jaggi, Martin (2014). Suykens, Johan; Signoretto, Marco; Argyriou, Andreas (eds.). Equivalencia entre las máquinas de vector de soporte y de lazo . Chapman y Hall / CRC. arXiv : 1303.1152 .
^ "GTSVM" . uchicago.edu .
^ Friedman, Jerome; Trevor Hastie; Rob Tibshirani (2010). "Rutas de regularización para modelos lineales generalizados mediante descenso de coordenadas" . Revista de software estadístico . 33 (1): 1–22. doi : 10.18637 / jss.v033.i01 . PMC 2929880 . PMID 20808728 .
^ "CRAN - Paquete glmnet" . r-project.org .
^ Waldron, L .; Pintilie, M .; Tsao, M. -S .; Shepherd, FA; Huttenhower, C .; Jurisica, I. (2011). "Aplicación optimizada de métodos de regresión penalizados a diversos datos genómicos" . Bioinformática . 27 (24): 3399–3406. doi : 10.1093 / bioinformatics / btr591 . PMC 3232376 . PMID 22156367 .
^ "GRÚA - Paquete pensim" . r-project.org .
^ "mlcircus / SVEN - Bitbucket" . bitbucket.org .
^ Sjöstrand, Karl; Clemmensen, Line; Einarsson, Gudmundur; Larsen, Rasmus; Ersbøll, Bjarne (2 de febrero de 2016). "SpaSM: una caja de herramientas de Matlab para modelado estadístico disperso" (PDF) . Revista de software estadístico .
^ "Paquete pyspark.ml - Documentación de PySpark 1.6.1" . spark.apache.org . Consultado el 17 de abril de 2019 .
^ "Proc Glmselect" . Consultado el 9 de mayo de 2019 .

Otras lecturas

Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2017). "Métodos de contracción" (PDF) . Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción (2ª ed.). Nueva York: Springer. págs. 61–79. ISBN 978-0-387-84857-0.

enlaces externos

Regularización y selección de variables a través de Elastic Net (presentación)

[ZH-1] Zou, Hui; Hastie, Trevor (2005). "Regularización y selección de variables a través de la red elástica". Revista de la Sociedad Real de Estadística, Serie B . 67 (2): 301–320. CiteSeerX 10.1.1.124.4696 . doi : 10.1111 / j.1467-9868.2005.00503.x .

[2] Wang, Li; Zhu, Ji; Zou, Hui (2006). "La máquina de vectores de soporte doblemente regularizada" (PDF) . Statistica Sinica . 16 : 589–615.

[3] Liu, Meizhu; Vemuri, Baba (2012). "Un enfoque de aprendizaje métrico doblemente regularizado robusto y eficiente" . Actas de la 12ª Conferencia Europea de Visión por Computador . Apuntes de conferencias en Ciencias de la Computación. Parte IV: 646–659. doi : 10.1007 / 978-3-642-33765-9_46 . ISBN 978-3-642-33764-2. PMC 3761969 . PMID 24013160 .

[4] Shen, Weiwei; Wang, Jun; Ma, Shiqian (2014). "Cartera Doblemente Regularizada con Minimización de Riesgos". Actas de la vigésimo octava conferencia de AAAI sobre inteligencia artificial : 1286–1292. S2CID 11017740 .

[5] Milanez-Almeida, Pedro; Martins, Andrew J .; Germain, Ronald N .; Tsang, John S. (10 de febrero de 2020). "Pronóstico del cáncer con secuenciación de ARN tumoral superficial" . Medicina de la naturaleza . 26 (2): 188-192. doi : 10.1038 / s41591-019-0729-3 . ISSN 1546-170X . PMID 32042193 . S2CID 211074147 .

[SV-6] Zhou, Quan; Chen, Wenlin; Song, Shiji; Gardner, Jacob; Weinberger, Kilian; Chen, Yixin. Una reducción de la red elástica para admitir máquinas vectoriales con una aplicación a la computación con GPU . Asociación para el Avance de la Inteligencia Artificial .

[MJ-7] Jaggi, Martin (2014). Suykens, Johan; Signoretto, Marco; Argyriou, Andreas (eds.). Equivalencia entre las máquinas de vector de soporte y de lazo . Chapman y Hall / CRC. arXiv : 1303.1152 .

[GT-8] "GTSVM" . uchicago.edu .

[9] Friedman, Jerome; Trevor Hastie; Rob Tibshirani (2010). "Rutas de regularización para modelos lineales generalizados mediante descenso de coordenadas" . Revista de software estadístico . 33 (1): 1–22. doi : 10.18637 / jss.v033.i01 . PMC 2929880 . PMID 20808728 .

[10] "CRAN - Paquete glmnet" . r-project.org .

[11] Waldron, L .; Pintilie, M .; Tsao, M. -S .; Shepherd, FA; Huttenhower, C .; Jurisica, I. (2011). "Aplicación optimizada de métodos de regresión penalizados a diversos datos genómicos" . Bioinformática . 27 (24): 3399–3406. doi : 10.1093 / bioinformatics / btr591 . PMC 3232376 . PMID 22156367 .

[12] "GRÚA - Paquete pensim" . r-project.org .

[13] "mlcircus / SVEN - Bitbucket" . bitbucket.org .

[14] Sjöstrand, Karl; Clemmensen, Line; Einarsson, Gudmundur; Larsen, Rasmus; Ersbøll, Bjarne (2 de febrero de 2016). "SpaSM: una caja de herramientas de Matlab para modelado estadístico disperso" (PDF) . Revista de software estadístico .

[15] "Paquete pyspark.ml - Documentación de PySpark 1.6.1" . spark.apache.org . Consultado el 17 de abril de 2019 .

[16] "Proc Glmselect" . Consultado el 9 de mayo de 2019 .

[1]