Lasso (estadísticas)

En estadística y aprendizaje automático , lasso ( operador de selección y contracción mínima absoluta ; también Lasso o LASSO ) es un método de análisis de regresión que realiza tanto la selección como la regularización de variables para mejorar la precisión de la predicción y la interpretabilidad del modelo estadístico resultante . Fue introducido originalmente en geofísica , ^[1] y más tarde por Robert Tibshirani , ^[2] quien acuñó el término.

Lasso se formuló originalmente para modelos de regresión lineal . Este simple caso revela una cantidad sustancial sobre el estimador. Estos incluyen su relación con la regresión de la cresta y la mejor selección de subconjuntos y las conexiones entre las estimaciones del coeficiente de lazo y los llamados umbrales suaves. También revela que (como la regresión lineal estándar) las estimaciones de coeficientes no necesitan ser únicas si las covariables son colineales .

Aunque originalmente se definió para la regresión lineal, la regularización lazo se extiende fácilmente a otros modelos estadísticos incluyendo modelos lineales generalizados , ecuaciones de estimación generalizadas , modelos de riesgos proporcionales , y M-estimadores . ^[2]^[3] La capacidad de Lasso para realizar la selección de subconjuntos se basa en la forma de la restricción y tiene una variedad de interpretaciones que incluyen en términos de geometría , estadísticas bayesianas y análisis convexo .

El LASSO está estrechamente relacionado con la eliminación de ruido de búsqueda de bases .

Motivación

Lasso se introdujo para mejorar la precisión de la predicción y la interpretabilidad de los modelos de regresión. Selecciona un conjunto reducido de las covariables conocidas para su uso en un modelo. ^[2]^[1]

Historia

Lasso se desarrolló de forma independiente en la literatura geofísica en 1986, sobre la base de un trabajo anterior que utilizó el ${\ Displaystyle \ ell ^ {1}}$ penalización tanto por el ajuste como por la penalización de los coeficientes. El estadístico Robert Tibshirani lo redescubrió y popularizó de forma independiente en 1996, basándose en el garrote no negativo de Breiman . ^[1]^[4]

Antes del lazo, el método más utilizado para elegir las covariables era la selección por pasos . Ese enfoque solo mejora la precisión de la predicción en ciertos casos, como cuando solo unas pocas covariables tienen una fuerte relación con el resultado. Sin embargo, en otros casos, puede aumentar el error de predicción.

En ese momento, la regresión de crestas era la técnica más popular para mejorar la precisión de la predicción. La regresión de crestas mejora el error de predicción al reducir la suma de los cuadrados de los coeficientes de regresión a menos de un valor fijo para reducir el sobreajuste , pero no realiza una selección de covariables y, por lo tanto, no ayuda a que el modelo sea más interpretable.

Lasso logra ambos objetivos al forzar que la suma del valor absoluto de los coeficientes de regresión sea menor que un valor fijo, lo que obliga a ciertos coeficientes a cero, excluyéndolos de impactar la predicción. Esta idea es similar a la regresión de crestas, que también reduce el tamaño de los coeficientes; sin embargo, la regresión de crestas tiende a establecer muchos menos coeficientes en cero.

Forma básica

Mínimos cuadrados

Considere una muestra que consta de N casos, cada uno de los cuales consta de p covariables y un único resultado. Dejar ${\ Displaystyle y_ {i}}$ ser el resultado y ${\ Displaystyle x_ {i}: = (x_ {1}, x_ {2}, \ ldots, x_ {p}) ^ {T}}$ ser el vector covariable para el i- ^ésimo caso. Entonces el objetivo del lazo es resolver

{\ Displaystyle \ min _ {\ beta _ {0}, \ beta} \ left \ {\ sum _ {i = 1} ^ {N} (y_ {i} - \ beta _ {0} -x_ {i} ^ {T} \ beta) ^ {2} \ right \} {\ text {sujeto a}} \ sum _ {j = 1} ^ {p} | \ beta _ {j} | \ leq t.}

^[2]

Aquí ${\ Displaystyle t}$ es un parámetro libre preespecificado que determina el grado de regularización. Dejando ${\ Displaystyle X}$ ser la matriz de covariables, de modo que ${\ Displaystyle X_ {ij} = (x_ {i}) _ {j}}$ y ${\ Displaystyle x_ {i} ^ {T}}$ es la i- ^ésima fila de ${\ Displaystyle X}$ , la expresión se puede escribir de forma más compacta como

{\ Displaystyle \ min _ {\ beta _ {0}, \ beta} \ left \ {{\ frac {1} {N}} \ left \ | y- \ beta _ {0} 1_ {N} -X \ beta \ right \ | _ {2} ^ {2} \ right \} {\ text {sujeto a}} \ | \ beta \ | _ {1} \ leq t.}

dónde ${\ Displaystyle \ | u \ | _ {p} = \ left (\ sum _ {i = 1} ^ {N} | u_ {i} | ^ {p} \ right) ^ {1 / p}}$ es el estándar ${\ Displaystyle \ ell ^ {p}}$ norma , y ${\ Displaystyle 1_ {N}}$ es un ${\ Displaystyle N \ times 1}$ vector de unos.

Denotando la media escalar de los puntos de datos ${\ Displaystyle x_ {i}}$ por ${\ displaystyle {\ bar {x}}}$ y la media de las variables de respuesta ${\ Displaystyle y_ {i}}$ por ${\ Displaystyle {\ bar {y}}}$ , la estimación resultante para ${\ Displaystyle \ beta _ {0}}$ es ${\ displaystyle {\ hat {\ beta}} _ {0} = {\ bar {y}} - {\ bar {x}} ^ {T} \ beta}$ , así que eso

{\ Displaystyle y_ {i} - {\ hat {\ beta}} _ {0} -x_ {i} ^ {T} \ beta = y_ {i} - ({\ bar {y}} - {\ bar { x}} ^ {T} \ beta) -x_ {i} ^ {T} \ beta = (y_ {i} - {\ bar {y}}) - (x_ {i} - {\ bar {x}} ) ^ {T} \ beta,}

y por lo tanto es estándar trabajar con variables que se han convertido en media cero. Además, las covariables suelen estar estandarizadas ${\ Displaystyle \ textstyle \ left (\ sum _ {i = 1} ^ {N} x_ {i} ^ {2} = 1 \ right)}$ para que la solución no dependa de la escala de medida.

Puede ser útil reescribir

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {{\ frac {1} {N}} \ left \ | yX \ beta \ right \ | _ {2} ^ {2} \ right \} {\ text {sujeto a}} \ | \ beta \ | _ {1} \ leq t.}

en la llamada forma lagrangiana

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {{\ frac {1} {N}} \ left \ | yX \ beta \ right \ | _ {2} ^ {2} + \ lambda \ | \ beta \ | _ {1} \ right \}}

donde la relación exacta entre ${\ Displaystyle t}$ y ${\ Displaystyle \ lambda}$ depende de los datos.

Covariables ortonormales

Ahora se pueden considerar algunas propiedades básicas del estimador de lazo.

Suponiendo primero que las covariables son ortonormales de modo que ${\ Displaystyle (x_ {i} \ mid x_ {j}) = \ delta _ {ij}}$ , dónde ${\ Displaystyle (\ cdot \ mid \ cdot)}$ es el producto interno y ${\ Displaystyle \ delta _ {ij}}$ es el delta de Kronecker o, de manera equivalente, ${\ Displaystyle X ^ {T} X = I}$ , luego usando métodos de subgradiente se puede demostrar que

{\ Displaystyle {\ begin {alineado} {\ hat {\ beta}} _ {j} = {} & S_ {N \ lambda} ({\ hat {\ beta}} _ {j} ^ {\ text {OLS} }) = {\ hat {\ beta}} _ {j} ^ {\ text {OLS}} \ max \ left (0,1 - {\ frac {N \ lambda} {| {\ hat {\ beta}} _ {j} ^ {\ text {OLS}} |}} \ right) \\ & {\ text {donde}} {\ hat {\ beta}} ^ {\ text {OLS}} = (X ^ {T } X) ^ {- 1} X ^ {T} y \ end {alineado}}}

^[2]

${\ Displaystyle S _ {\ alpha}}$ se conoce como el operador de umbral suave, ya que traduce los valores hacia cero (haciéndolos exactamente cero si son lo suficientemente pequeños) en lugar de establecer valores más pequeños en cero y dejar los más grandes intactos como el operador de umbral duro, a menudo denotado ${\ Displaystyle H _ {\ alpha}}$ , haría.

En la regresión de crestas, el objetivo es minimizar

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {{\ frac {1} {N}} \ | yX \ beta \ | _ {2} ^ {2} + \ lambda \ | \ beta \ | _ {2} ^ {2} \ right \}}

flexible

{\ Displaystyle {\ hat {\ beta}} _ {j} = (1 + N \ lambda) ^ {- 1} {\ hat {\ beta}} _ {j} ^ {\ text {OLS}}.}

La regresión de crestas reduce todos los coeficientes en un factor uniforme de ${\ displaystyle (1 + N \ lambda) ^ {- 1}}$ y no establece ningún coeficiente en cero.

También se puede comparar con la regresión con la mejor selección de subconjuntos , en la que el objetivo es minimizar

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {{\ frac {1} {N}} \ left \ | yX \ beta \ right \ | _ {2} ^ {2} + \ lambda \ | \ beta \ | _ {0} \ right \}}

dónde ${\ Displaystyle \ | \ cdot \ | _ {0}}$ es el " ${\ Displaystyle \ ell ^ {0}}$ norma ", que se define como ${\ Displaystyle \ | z \ | = m}$ si exactamente m componentes de z son distintos de cero. En este caso, se puede demostrar que

{\ Displaystyle {\ hat {\ beta}} _ {j} = H _ {\ sqrt {N \ lambda}} \ left ({\ hat {\ beta}} _ {j} ^ {\ text {OLS}} \ derecha) = {\ hat {\ beta}} _ {j} ^ {\ text {OLS}} \ mathrm {I} \ left (\ left | {\ hat {\ beta}} _ {j} ^ {\ text {OLS}} \ right | \ geq {\ sqrt {N \ lambda}} \ right)}

dónde ${\ Displaystyle H _ {\ alpha}}$ es la llamada función de umbralización dura y ${\ Displaystyle \ mathrm {I}}$ es una función indicadora (es 1 si su argumento es verdadero y 0 en caso contrario).

Por lo tanto, las estimaciones de lazo comparten características tanto de la regresión de selección de la cresta como del mejor subconjunto, ya que ambos reducen la magnitud de todos los coeficientes, como la regresión de la cresta, y establecen algunos de ellos en cero, como en el mejor caso de selección de subconjuntos. Además, mientras que la regresión de cresta escala todos los coeficientes por un factor constante, lasso traduce los coeficientes hacia cero por un valor constante y los pone a cero si lo alcanzan.

Covariables correlacionadas

En un caso especial, dos covariables, digamos j y k , son idénticas para cada observación, de modo que ${\ Displaystyle x _ {(j)} = x _ {(k)}}$ , dónde ${\ Displaystyle x _ {(j), i} = x _ {(k), i}}$ . Entonces los valores de ${\ Displaystyle \ beta _ {j}}$ y ${\ Displaystyle \ beta _ {k}}$ que minimizan la función objetivo del lazo no se determinan de forma única. De hecho, si algunos ${\ Displaystyle {\ hat {\ beta}}}$ en el cual ${\ Displaystyle {\ hat {\ beta}} _ {j} {\ hat {\ beta}} _ {k} \ geq 0}$ , Entonces sí ${\ Displaystyle s \ en [0,1]}$ reemplazando ${\ Displaystyle {\ hat {\ beta}} _ {j}}$ por ${\ Displaystyle s ({\ hat {\ beta}} _ {j} + {\ hat {\ beta}} _ {k})}$ y ${\ Displaystyle {\ hat {\ beta}} _ {k}}$ por ${\ Displaystyle (1-s) ({\ hat {\ beta}} _ {j} + {\ hat {\ beta}} _ {k})}$ , manteniendo todos los demás ${\ Displaystyle {\ hat {\ beta}} _ {i}}$ fijo, da una nueva solución, por lo que la función objetivo de lazo tiene un continuo de minimizadores válidos. ^[5] Se han diseñado varias variantes del lazo, incluida la regularización de la red elástica , para abordar esta deficiencia.

Forma general

Regularización Lasso se puede extender a otras funciones objetivas, tales como aquellos para los modelos lineales generalizados , Ecuaciones de estimación generalizadas , modelos de riesgos proporcionales , y M-estimadores . ^[2]^[3] Dada la función objetivo

{\ Displaystyle {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} f (x_ {i}, y_ {i}, \ alpha, \ beta)}

la versión regularizada de lazo del estimador es la solución para

{\ Displaystyle \ min _ {\ alpha, \ beta} {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} f (x_ {i}, y_ {i}, \ alpha, \ beta) {\ text {sujeto a}} \ | \ beta \ | _ {1} \ leq t}

donde solo ${\ Displaystyle \ beta}$ es penalizado mientras ${\ Displaystyle \ alpha}$ es libre de tomar cualquier valor permitido, al igual que ${\ Displaystyle \ beta _ {0}}$ no fue sancionado en el caso básico.

Interpretaciones

Interpretación geométrica

Formas de las regiones de restricción para la regresión de lazo y cresta.

Lasso puede establecer coeficientes en cero, mientras que la regresión de cresta superficialmente similar no puede. Esto se debe a la diferencia en la forma de sus límites de restricción. Tanto la regresión de lazo como de cresta pueden interpretarse como una minimización de la misma función objetivo.

{\ Displaystyle \ min _ {\ beta _ {0}, \ beta} \ left \ {{\ frac {1} {N}} \ left \ | y- \ beta _ {0} -X \ beta \ right \ | _ {2} ^ {2} \ right \}}

pero con respecto a diferentes restricciones: ${\ Displaystyle \ | \ beta \ | _ {1} \ leq t}$ para lazo y ${\ Displaystyle \ | \ beta \ | _ {2} ^ {2} \ leq t}$ para cresta. La figura muestra que la región de restricción definida por el ${\ Displaystyle \ ell ^ {1}}$ La norma es un cuadrado girado de modo que sus esquinas se encuentran en los ejes (en general un politopo cruzado ), mientras que la región definida por el ${\ Displaystyle \ ell ^ {2}}$ La norma es un círculo (en general, una n- esfera ), que es invariante en rotación y, por lo tanto, no tiene esquinas. Como se ve en la figura, un objeto convexo que se encuentra tangente al límite, como la línea que se muestra, es probable que encuentre una esquina (o un equivalente de dimensión superior) de un hipercubo, para el cual algunos componentes de ${\ Displaystyle \ beta}$ son idénticamente cero, mientras que en el caso de una n -esfera, los puntos en el límite para los cuales algunos de los componentes de ${\ Displaystyle \ beta}$ son cero no se distinguen de los demás y el objeto convexo no es más probable que entre en contacto con un punto en el que algunos componentes de ${\ Displaystyle \ beta}$ son cero que uno para el que ninguno de ellos lo es.

Haciendo que λ sea más fácil de interpretar con una compensación entre precisión y simplicidad

El lazo se puede cambiar de escala para que sea fácil anticipar e influir en el grado de contracción asociado con un valor dado de ${\ Displaystyle \ lambda}$ . ^[6] Se supone que ${\ Displaystyle X}$ está estandarizado con puntajes z y que ${\ Displaystyle y}$ está centrado (media cero). Dejar ${\ Displaystyle \ beta _ {0}}$ representar los coeficientes de regresión hipotéticos y dejar ${\ Displaystyle b_ {OLS}}$ consulte las soluciones de mínimos cuadrados ordinarios optimizados para datos. Luego, podemos definir el Lagrangiano como una compensación entre la precisión en la muestra de las soluciones optimizadas para datos y la simplicidad de ceñirse a los valores hipotéticos. Esto resulta en

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {{\ frac {(yX \ beta) '(yX \ beta)} {(yX \ beta _ {0} ) '(yX \ beta _ {0})}} + 2 \ lambda \ sum _ {i = 1} ^ {p} {\ frac {| \ beta _ {i} - \ beta _ {0, i} | } {q_ {i}}} \ right \}}

dónde ${\ Displaystyle q_ {i}}$ se especifica a continuación. La primera fracción representa la precisión relativa, la segunda fracción la simplicidad relativa y ${\ Displaystyle \ lambda}$ equilibrios entre los dos.

Rutas de solución para

{\ Displaystyle \ ell _ {1}}

norma y

{\ Displaystyle \ ell _ {2}}

norma cuando

{\ Displaystyle b_ {OLS} = 2}

y

{\ Displaystyle \ beta _ {0} = 0}

Dado un solo regresor, la simplicidad relativa se puede definir especificando ${\ Displaystyle q_ {i}}$ como ${\ Displaystyle | b_ {OLS} - \ beta _ {0} |}$ , que es la cantidad máxima de desviación de ${\ Displaystyle \ beta _ {0}}$ Cuándo ${\ Displaystyle \ lambda = 0}$ . Asumiendo que ${\ Displaystyle \ beta _ {0} = 0}$ , la ruta de la solución se puede definir en términos de R 2 {\ Displaystyle R ^ {2}} :

{\ Displaystyle b _ {\ ell _ {1}} = {\ begin {cases} (1- \ lambda / R ^ {2}) b_ {OLS} & {\ mbox {if}} \ lambda \ leq R ^ { 2}, \\ 0 & {\ mbox {if}} \ lambda> R ^ {2}. \ End {cases}}}

Si ${\ Displaystyle \ lambda = 0}$ , se utiliza la solución de mínimos cuadrados ordinarios (MCO). El valor hipotético de ${\ Displaystyle \ beta _ {0} = 0}$ se selecciona si ${\ Displaystyle \ lambda}$ es mayor que ${\ Displaystyle R ^ {2}}$ . Además, si ${\ Displaystyle R ^ {2} = 1}$ , luego ${\ Displaystyle \ lambda}$ representa la influencia proporcional de ${\ Displaystyle \ beta _ {0} = 0}$ . En otras palabras, ${\ Displaystyle \ lambda \ times 100 \%}$ mide en términos porcentuales la cantidad mínima de influencia del valor hipotético en relación con la solución OLS optimizada para datos.

Si una ${\ Displaystyle \ ell _ {2}}$ -norm se usa para penalizar las desviaciones de cero dado un solo regresor, la ruta de la solución está dada por

${\ Displaystyle b _ {\ ell _ {2}} = {\ bigg (} 1 + {\ frac {\ lambda} {R ^ {2} (1- \ lambda)}} {\ bigg)} ^ {- 1 } b_ {OLS}}$ . Como ${\ Displaystyle b _ {\ ell _ {1}}}$ , ${\ Displaystyle b _ {\ ell _ {2}}}$ se mueve en la dirección del punto ${\ Displaystyle (\ lambda = R ^ {2}, b = 0)}$ Cuándo ${\ Displaystyle \ lambda}$ está cerca de cero; pero a diferencia ${\ Displaystyle b _ {\ ell _ {1}}}$ , la influencia de ${\ Displaystyle R ^ {2}}$ disminuye en ${\ Displaystyle b _ {\ ell _ {2}}}$ Si ${\ Displaystyle \ lambda}$ aumenta (ver figura).
Dados múltiples regresores, el momento en que se activa un parámetro (es decir, se le permite desviarse de ${\ Displaystyle \ beta _ {0}}$ ) también está determinada por la contribución de un regresor a ${\ Displaystyle R ^ {2}}$ precisión. Primero,

{\ Displaystyle R ^ {2} = 1 - {\ frac {(y-Xb) '(y-Xb)} {(yX \ beta _ {0})' (yX \ beta _ {0})}}. }

Un ${\ Displaystyle R ^ {2}}$ del 75% significa que la precisión en la muestra mejora en un 75% si se utilizan las soluciones MCO sin restricciones en lugar de las hipotéticas ${\ Displaystyle \ beta _ {0}}$ valores. La contribución individual de desviarse de cada hipótesis se puede calcular con el ${\ Displaystyle p}$ X ${\ Displaystyle p}$ matriz

{\ displaystyle R ^ {\ otimes} = (X '{\ tilde {y}} _ {0}) (X' {\ tilde {y}} _ {0}) '(X'X) ^ {- 1 } ({\ tilde {y}} _ {0} '{\ tilde {y}} _ {0}) ^ {- 1},}

dónde ${\ Displaystyle {\ tilde {y}} _ {0} = yX \ beta _ {0}}$ . Si ${\ Displaystyle b = b_ {OLS}}$ Cuándo ${\ Displaystyle R ^ {2}}$ se calcula, entonces los elementos diagonales de ${\ Displaystyle R ^ {\ otimes}}$ suma a ${\ Displaystyle R ^ {2}}$ . La diagonal ${\ Displaystyle R ^ {\ otimes}}$ los valores pueden ser menores que 0 o, con menos frecuencia, mayores que 1. Si los regresores no están correlacionados, entonces el ${\ Displaystyle i ^ {th}}$ elemento diagonal de ${\ Displaystyle R ^ {\ otimes}}$ simplemente corresponde a la ${\ Displaystyle r ^ {2}}$ valor entre ${\ Displaystyle x_ {i}}$ y ${\ Displaystyle y}$ .

Se puede obtener una versión reescalada del lazo adaptativo de configurando ${\ displaystyle q _ {{\ mbox {lazo adaptable}}, i} = | b_ {OLS, i} - \ beta _ {0, i} |}$ . ^[7] Si los regresores no están correlacionados, el momento en que el ${\ Displaystyle i ^ {th}}$ El parámetro está activado viene dado por el ${\ Displaystyle i ^ {th}}$ elemento diagonal de ${\ Displaystyle R ^ {\ otimes}}$ . Asumiendo por conveniencia que ${\ Displaystyle \ beta _ {0}}$ es un vector de ceros,

{\ displaystyle b_ {i} = {\ begin {cases} (1- \ lambda / R_ {ii} ^ {\ otimes}) b_ {OLS, i} & {\ mbox {if}} \ lambda \ leq R_ { ii} ^ {\ otimes}, \\ 0 & {\ mbox {if}} \ lambda> R_ {ii} ^ {\ otimes}. \ end {cases}}}

Es decir, si los regresores no están correlacionados, ${\ Displaystyle \ lambda}$ especifica de nuevo la influencia mínima de ${\ Displaystyle \ beta _ {0}}$ . Incluso cuando los regresores están correlacionados, la primera vez que se activa un parámetro de regresión ocurre cuando ${\ Displaystyle \ lambda}$ es igual al elemento diagonal más alto de ${\ Displaystyle R ^ {\ otimes}}$ .

Estos resultados se pueden comparar con una versión reescalada del lazo definiendo ${\ Displaystyle q _ {{\ mbox {lazo}}, i} = {\ frac {1} {p}} \ sum _ {l} | b_ {OLS, l} - \ beta _ {0, l} |}$ , que es la desviación absoluta promedio de ${\ Displaystyle b_ {OLS}}$ de ${\ Displaystyle \ beta _ {0}}$ . Suponiendo que los regresores no están correlacionados, entonces el momento de activación de la ${\ Displaystyle i ^ {th}}$ regresor viene dado por

{\ Displaystyle {\ tilde {\ lambda}} _ {{\ text {lazo}}, i} = {\ frac {1} {p}} {\ sqrt {R_ {i} ^ {\ otimes}}} \ suma _ {l = 1} ^ {p} {\ sqrt {R_ {l} ^ {\ otimes}}}.}

Para ${\ Displaystyle p = 1}$ , el momento de activación viene dado nuevamente por ${\ Displaystyle {\ tilde {\ lambda}} _ {{\ text {lazo}}, i} = R ^ {2}}$ . Si ${\ Displaystyle \ beta _ {0}}$ es un vector de ceros y un subconjunto de ${\ Displaystyle p_ {B}}$ Los parámetros relevantes son igualmente responsables de un ajuste perfecto de ${\ Displaystyle R ^ {2} = 1}$ , entonces este subconjunto se activa en un ${\ Displaystyle \ lambda}$ valor de ${\ Displaystyle {\ frac {1} {p}}}$ . El momento de activación de un regresor relevante es igual a ${\ Displaystyle {\ frac {1} {p}} {\ frac {1} {\ sqrt {p_ {B}}}} p_ {B} {\ frac {1} {\ sqrt {p_ {B}}} } = {\ frac {1} {p}}}$ . En otras palabras, la inclusión de regresores irrelevantes retrasa el momento en que este lazo reescalado activa los regresores relevantes. El lazo adaptativo y el lazo son casos especiales de un estimador '1ASTc'. Este último solo agrupa los parámetros si la correlación absoluta entre regresores es mayor que un valor especificado por el usuario. ^[6]

Interpretación bayesiana

Las distribuciones de Laplace tienen un pico pronunciado en su media con más densidad de probabilidad concentrada allí en comparación con una distribución normal.

Así como la regresión de crestas se puede interpretar como una regresión lineal para la cual se han asignado distribuciones previas normales a los coeficientes, el lazo se puede interpretar como una regresión lineal para la cual los coeficientes tienen distribuciones previas de Laplace . La distribución de Laplace tiene un pico agudo en cero (su primera derivada es discontinua en cero) y concentra su masa de probabilidad más cerca de cero que la distribución normal. Esto proporciona una explicación alternativa de por qué lasso tiende a establecer algunos coeficientes en cero, mientras que la regresión de crestas no lo hace. ^[2]

Interpretación de relajación convexa

Lasso también puede verse como una relajación convexa del mejor problema de regresión de selección de subconjuntos, que es encontrar el subconjunto de ${\ Displaystyle \ leq k}$ covariables que dan como resultado el valor más pequeño de la función objetivo para algunos ${\ Displaystyle k \ leq n}$ , donde n es el número total de covariables. La " ${\ Displaystyle \ ell ^ {0}}$ norma", ${\ Displaystyle \ | \ cdot \ | _ {0}}$ , (el número de entradas distintas de cero de un vector), es el caso límite de " ${\ Displaystyle \ ell ^ {p}}$ normas ", de la forma ${\ Displaystyle \ textstyle \ | x \ | _ {p} = \ left (\ sum _ {i = 1} ^ {n} | x_ {j} | ^ {p} \ right) ^ {1 / p}}$ (donde las comillas significan que estas no son realmente normas para ${\ Displaystyle p <1}$ desde ${\ Displaystyle \ | \ cdot \ | _ {p}}$ no es convexo para ${\ Displaystyle p <1}$ , por lo que la desigualdad del triángulo no se cumple). Por lo tanto, dado que p = 1 es el valor más pequeño para el que " ${\ Displaystyle \ ell ^ {p}}$ norma "es convexa (y por lo tanto en realidad una norma), lazo es, en cierto sentido, la mejor aproximación convexa al mejor problema de selección de subconjuntos, ya que la región definida por ${\ Displaystyle \ | x \ | _ {1} \ leq t}$ es el casco convexo de la región definida por ${\ Displaystyle \ | x \ | _ {p} \ leq t}$ por ${\ Displaystyle p <1}$ .

Generalizaciones

Se han creado variantes de lazo para remediar las limitaciones de la técnica original y hacer que el método sea más útil para problemas particulares. Casi todos ellos se enfocan en respetar o explotar las dependencias entre las covariables.

La regularización de red elástica agrega una penalización adicional similar a la regresión de cresta que mejora el rendimiento cuando el número de predictores es mayor que el tamaño de la muestra, permite que el método seleccione juntas variables fuertemente correlacionadas y mejora la precisión general de la predicción. ^[5]

El lazo de grupo permite seleccionar grupos de covariables relacionadas como una sola unidad, lo que puede ser útil en entornos en los que no tiene sentido incluir algunas covariables sin otras. ^[8] Otras extensiones del lazo de grupo realizan una selección de variables dentro de grupos individuales (lazo de grupo disperso) y permiten la superposición entre grupos (lazo de grupo superpuesto). ^[9]^[10]

El lazo fusionado puede dar cuenta de las características espaciales o temporales de un problema, lo que da como resultado estimaciones que se ajustan mejor a la estructura del sistema. ^[11] Los modelos regularizados por lazo se pueden ajustar utilizando técnicas que incluyen métodos de subgradiente , regresión de ángulo mínimo (LARS) y métodos de gradiente proximal . Determinar el valor óptimo para el parámetro de regularización es una parte importante para garantizar que el modelo funcione bien; normalmente se elige mediante validación cruzada .

Red elástica

En 2005, Zou y Hastie introdujeron la red elástica . ^[5] Cuando p > n (el número de covariables es mayor que el tamaño de la muestra), el lazo puede seleccionar solo n covariables (incluso cuando hay más asociadas con el resultado) y tiende a seleccionar una covariable de cualquier conjunto de covariables altamente correlacionadas. Además, incluso cuando n > p , la regresión de crestas tiende a funcionar mejor dadas las covariables fuertemente correlacionadas.

La red elástica extiende el lazo agregando un ${\ Displaystyle \ ell ^ {2}}$ plazo de penalización dando

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {\ left \ | yX \ beta \ right \ | _ {2} ^ {2} + \ lambda _ {1 } \ | \ beta \ | _ {1} + \ lambda _ {2} \ | \ beta \ | _ {2} ^ {2} \ right \},}

que es equivalente a resolver

{\ Displaystyle {\ begin {alineado} \ min _ {\ beta _ {0}, \ beta} \ left \ {\ left \ | y- \ beta _ {0} -X \ beta \ right \ | _ {2 } ^ {2} \ right \} & {\ text {sujeto a}} (1- \ alpha) \ | \ beta \ | _ {1} + \ alpha \ | \ beta \ | _ {2} ^ {2 } \ leq t, \\ & {\ text {donde}} \ alpha = {\ frac {\ lambda _ {2}} {\ lambda _ {1} + \ lambda _ {2}}}. \ end {alineado }}}

Este problema se puede escribir en forma de lazo simple.

{\ Displaystyle \ min _ {\ beta ^ {*} \ in \ mathbb {R} ^ {p}} \ left \ {\ left \ | y ^ {*} - X ^ {*} \ beta ^ {*} \ right \ | _ {2} ^ {2} + \ lambda ^ {*} \ | \ beta ^ {*} \ | _ {1} \ right \}}

dejando

{\ Displaystyle X _ {(n + p) \ times p} ^ {*} = (1+ \ lambda _ {2}) ^ {- 1/2} {\ binom {X} {\ lambda _ {2} ^ {1/2} I_ {p \ times p}}}}

,

{\ Displaystyle y _ {(n + p)} ^ {*} = {\ binom {y} {0 ^ {p}}}, \ qquad \ lambda ^ {*} = {\ frac {\ lambda _ {1} } {\ sqrt {1+ \ lambda _ {2}}}}}

,

{\ Displaystyle \ beta ^ {*} = {\ sqrt {1+ \ lambda _ {2}}} \ beta.}

Luego ${\ displaystyle {\ hat {\ beta}} = {\ frac {{\ hat {\ beta}} ^ {*}} {\ sqrt {1+ \ lambda _ {2}}}}}$ , que, cuando las covariables son ortogonales entre sí, da

{\ Displaystyle {\ hat {\ beta}} _ {j} = {\ frac {{\ hat {\ beta}} _ {j} ^ {\ text {*, OLS}}} {\ sqrt {1+ \ lambda _ {2}}}} \ max \ left (0,1 - {\ frac {\ lambda ^ {*}} {\ left | {\ hat {\ beta}} _ {j} ^ {\ text {* , OLS}} \ right |}} \ right) = {\ frac {{\ hat {\ beta}} _ {j} ^ {\ text {OLS}}} {1+ \ lambda _ {2}}} \ max \ left (0,1 - {\ frac {\ lambda _ {1}} {\ left | {\ hat {\ beta}} _ {j} ^ {\ text {OLS}} \ right |}} \ right ) = (1+ \ lambda _ {2}) ^ {- 1} {\ hat {\ beta}} _ {j} ^ {\ text {lazo}}.}

Por tanto, el resultado de la penalización por red elástica es una combinación de los efectos de las penalizaciones por lazo y cresta.

Volviendo al caso general, el hecho de que la función de penalización sea ahora estrictamente convexa significa que si ${\ Displaystyle x _ {(j)} = x _ {(k)}}$ , ${\ Displaystyle {\ hat {\ beta}} _ {j} = {\ hat {\ beta}} _ {k}}$ , que es un cambio de lazo. ^[5] En general, si ${\ displaystyle {\ hat {\ beta}} _ {j} {\ hat {\ beta _ {k}}}> 0}$

{\ Displaystyle {\ frac {| {\ hat {\ beta}} _ {j} - {\ hat {\ beta _ {k}}} |} {\ | y \ |}} \ leq \ lambda _ {2 } ^ {- 1} {\ sqrt {2 (1- \ rho _ {jk})}}, {\ text {donde}} \ rho = X ^ {t} X,}

es la matriz de correlación de la muestra porque la ${\ Displaystyle x}$ están normalizados.

Por lo tanto, las covariables altamente correlacionadas tienden a tener coeficientes de regresión similares, y el grado de similitud depende de ambos ${\ Displaystyle \ | y \ | _ {1}}$ y ${\ Displaystyle \ lambda _ {2}}$ , que es diferente de lazo. Este fenómeno, en el que las covariables fuertemente correlacionadas tienen coeficientes de regresión similares, se denomina efecto de agrupación. La agrupación es deseable ya que, en aplicaciones tales como vincular genes a una enfermedad, es preferible encontrar todas las covariables asociadas, en lugar de seleccionar una de cada conjunto de covariables correlacionadas, como suele hacer el lazo. ^[5] Además, seleccionar solo uno de cada grupo generalmente da como resultado un mayor error de predicción, ya que el modelo es menos robusto (razón por la cual la regresión de crestas a menudo supera a lasso).

Lazo de grupo

En 2006, Yuan y Lin introdujeron el lazo de grupo para permitir la selección conjunta de grupos predefinidos de covariables dentro o fuera de un modelo. ^[8] Esto es útil en muchos entornos, quizás más obviamente cuando una variable categórica se codifica como una colección de covariables binarias. En este caso, el lazo de grupo puede garantizar que todas las variables que codifican la covariable categórica se incluyan o excluyan juntas. Otro escenario en el que la agrupación es natural es en los estudios biológicos. Dado que los genes y las proteínas a menudo se encuentran en vías conocidas, las vías que están relacionadas con un resultado pueden ser más importantes que si los genes individuales lo están. La función objetivo para el lazo de grupo es una generalización natural del objetivo de lazo estándar

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {\ left \ | y- \ sum _ {j = 1} ^ {J} X_ {j} \ beta _ {j} \ right \ | _ {2} ^ {2} + \ lambda \ sum _ {j = 1} ^ {J} \ | \ beta _ {j} \ | _ {K_ {j}} \ right \ }, \ qquad \ | z \ | _ {K_ {j}} = (z ^ {t} K_ {j} z) ^ {1/2}}

donde la matriz de diseño ${\ Displaystyle X}$ y vector covariable ${\ Displaystyle \ beta}$ han sido reemplazados por una colección de matrices de diseño ${\ Displaystyle X_ {j}}$ y vectores covariables ${\ Displaystyle \ beta _ {j}}$ , uno para cada uno de los grupos J. Además, el término de penalización es ahora una suma de más de ${\ Displaystyle \ ell ^ {2}}$ normas definidas por las matrices definidas positivas ${\ Displaystyle K_ {j}}$ . Si cada covariable está en su propio grupo y ${\ Displaystyle K_ {j} = I}$ , entonces esto se reduce al lazo estándar, mientras que si solo hay un grupo y ${\ Displaystyle K_ {1} = I}$ , se reduce a la regresión de la cresta. Dado que la pena se reduce a un ${\ Displaystyle \ ell ^ {2}}$ norma en los subespacios definidos por cada grupo, no puede seleccionar solo algunas de las covariables de un grupo, al igual que la regresión de crestas no puede. Sin embargo, debido a que la penalización es la suma de las diferentes normas del subespacio, como en el lazo estándar, la restricción tiene algunos puntos no diferenciales, que corresponden a algunos subespacios que son idénticamente cero. Por lo tanto, puede establecer los vectores de coeficientes correspondientes a algunos subespacios en cero, mientras que solo reduce otros. Sin embargo, es posible extender el lazo de grupo al llamado lazo de grupo disperso, que puede seleccionar covariables individuales dentro de un grupo, agregando un ${\ Displaystyle \ ell ^ {1}}$ penalización a cada subespacio de grupo. ^[9] Otra extensión, el lazo de grupo con superposición permite que las covariables se compartan entre los grupos, por ejemplo, si un gen ocurriera en dos vías. ^[10]

Lazo fusionado

En algunos casos, el fenómeno en estudio puede tener una estructura espacial o temporal importante que debe considerarse durante el análisis, como series de tiempo o datos basados en imágenes. En 2005, Tibshirani y sus colegas introdujeron el lazo fusionado para extender el uso del lazo a este tipo de datos. ^[11] La función de objetivo de lazo fusionado es

{\ Displaystyle {\ begin {alineado} & \ min _ {\ beta} \ left \ {{\ frac {1} {N}} \ sum _ {i = 1} ^ {N} \ left (y_ {i} -x_ {i} ^ {t} \ beta \ right) ^ {2} \ right \} \\ [4pt] & {\ text {sujeto a}} \ sum _ {j = 1} ^ {p} | \ beta _ {j} | \ leq t_ {1} {\ text {y}} \ sum _ {j = 2} ^ {p} | \ beta _ {j} - \ beta _ {j-1} | \ leq t_ {2}. \ end {alineado}}}

La primera restricción es la restricción de lazo, mientras que la segunda penaliza directamente los grandes cambios con respecto a la estructura temporal o espacial, lo que obliga a los coeficientes a variar suavemente para reflejar la lógica subyacente del sistema. Lazo agrupado ^[12] es una generalización de lazo fusionado que identifica y agrupa las covariables relevantes en función de sus efectos (coeficientes). La idea básica es penalizar las diferencias entre los coeficientes para que los distintos de cero se agrupen. Esto se puede modelar utilizando la siguiente regularización:

{\ Displaystyle \ sum _ {i }>

Por el contrario, las variables se pueden agrupar en grupos altamente correlacionados, y luego se puede extraer una única covariable representativa de cada grupo. ^[13]

Existen algoritmos que resuelven el problema del lazo fusionado y algunas generalizaciones del mismo. Los algoritmos pueden resolverlo exactamente en un número finito de operaciones. ^[14]

Cuasi-normas y regresión puente

Un ejemplo de una función potencial PQSQ (función cuadrática por partes de crecimiento subcuadrático)

{\ Displaystyle u (x)}

; aquí la función principal es

{\ Displaystyle f (x) = x}

; el potencial se define con el recorte después

{\ Displaystyle r_ {3}}

.

Un ejemplo de cuán eficiente funciona la regresión regularizada PQSQ al igual que

{\ Displaystyle \ ell ^ {1}}

-Norm lazo. ^[15]

Lazo, red elástica, grupo y lazo fusionado construyen las funciones de penalización a partir de la ${\ Displaystyle \ ell ^ {1}}$ y ${\ Displaystyle \ ell ^ {2}}$ normas (con pesos, si es necesario). La regresión puente utiliza general ${\ Displaystyle \ ell ^ {p}}$ normas ${\ Displaystyle p \ geq 1}$ ) y cuasinormas ( ${\ Displaystyle 0$ ). ^[16] Por ejemplo, para p = 1/2, el análogo del objetivo de lazo en la forma lagrangiana es resolver

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {{\ frac {1} {N}} \ left \ | yX \ beta \ right \ | _ {2} ^ {2} + \ lambda {\ sqrt {\ | \ beta \ | _ {1/2}}} \ right \},}

dónde

{\ Displaystyle \ | \ beta \ | _ {1/2} = \ left (\ sum _ {j = 1} ^ {p} {\ sqrt {| \ beta _ {j} |}} \ right) ^ { 2}}

Se afirma que las cuasi-normas fraccionarias ${\ Displaystyle \ ell ^ {p}}$ ( ${\ Displaystyle 0$ ) proporcionan resultados más significativos en el análisis de datos tanto teórica como empíricamente. ^[17] La no convexidad de estas cuasi-normas complica el problema de optimización. Para resolver este problema, se desarrolla un procedimiento de minimización de expectativas ^[18] y se implementa ^[15] para minimizar la función.

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {{\ frac {1} {N}} \ left \ | yX \ beta \ right \ | _ {2} ^ {2} + \ lambda \ sum _ {j = 1} ^ {p} \ vartheta (\ beta _ {j} ^ {2}) \ right \},}

dónde ${\ Displaystyle \ vartheta (\ gamma)}$ es una función cóncava arbitraria que aumenta monótonamente (por ejemplo, ${\ Displaystyle \ vartheta (\ gamma) = {\ sqrt {\ gamma}}}$ da la pena de lazo y ${\ Displaystyle \ vartheta (\ gamma) = \ gamma ^ {1/4}}$ da el ${\ Displaystyle \ ell ^ {1/2}}$ multa).

El algoritmo eficiente para la minimización se basa en la aproximación cuadrática por partes del crecimiento subcuadrático (PQSQ). ^[18]

Lazo adaptable

El lazo adaptativo fue introducido por Zou en 2006 para la regresión lineal ^[19] y por Zhang y Lu en 2007 para la regresión de riesgos proporcionales. ^[20]

Lazo previo

El lazo anterior fue introducido para modelos lineales generalizados por Jiang et al. en 2016 para incorporar información previa, como la importancia de determinadas covariables. ^[21] En el lazo anterior, dicha información se resume en pseudo respuestas (llamadas respuestas previas). ${\ Displaystyle {\ hat {y}} ^ {\ mathrm {p}}}$ y luego se agrega una función de criterio adicional a la función objetivo habitual con una penalización de lazo. Sin pérdida de generalidad, en regresión lineal, la nueva función objetivo se puede escribir como

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {{\ frac {1} {N}} \ left \ | yX \ beta \ right \ | _ {2} ^ {2} + {\ frac {1} {N}} \ eta \ left \ | {\ hat {y}} ^ {\ mathrm {p}} -X \ beta \ right \ | _ {2} ^ { 2} + \ lambda \ | \ beta \ | _ {1} \ right \},}

que es equivalente a

{\ Displaystyle \ min _ {\ beta \ in \ mathbb {R} ^ {p}} \ left \ {{\ frac {1} {N}} \ left \ | {\ tilde {y}} - X \ beta \ right \ | _ {2} ^ {2} + {\ frac {\ lambda} {1+ \ eta}} \ | \ beta \ | _ {1} \ right \},}

la función de objetivo de lazo habitual con las respuestas ${\ Displaystyle y}$ siendo reemplazado por un promedio ponderado de las respuestas observadas y las respuestas anteriores ${\ Displaystyle {\ tilde {y}} = (y + \ eta {\ hat {y}} ^ {\ mathrm {p}}) / (1+ \ eta)}$ (llamados valores de respuesta ajustados por la información previa).

En lazo anterior, el parámetro ${\ Displaystyle \ eta}$ se denomina parámetro de equilibrio, ya que equilibra la importancia relativa de los datos y la información previa. En el caso extremo de ${\ Displaystyle \ eta = 0}$ , el lazo anterior se reduce a lazo. Si ${\ Displaystyle \ eta = \ infty}$ , el lazo anterior se basará únicamente en la información previa para ajustarse al modelo. Además, el parámetro de equilibrio ${\ Displaystyle \ eta}$ tiene otra interpretación atractiva: controla la varianza de ${\ Displaystyle \ beta}$ en su distribución previa desde un punto de vista bayesiano.

El lazo a priori es más eficiente en la estimación y predicción de parámetros (con un error de estimación y un error de predicción más pequeños) cuando la información previa es de alta calidad y es robusto a la información previa de baja calidad con una buena elección del parámetro de equilibrio ${\ Displaystyle \ eta}$ .

Soluciones informáticas de lazo

La función de pérdida del lazo no es diferenciable, pero se ha desarrollado una amplia variedad de técnicas de análisis convexo y teoría de optimización para calcular la ruta de soluciones del lazo. Estos incluyen descenso de coordenadas, ^[22] métodos de subgradiente, regresión de ángulo mínimo (LARS) y métodos de gradiente proximal. ^[23] Los métodos de subgradiente son la generalización natural de métodos tradicionales como el descenso de gradiente y el descenso de gradiente estocástico al caso en el que la función objetivo no es diferenciable en todos los puntos. LARS es un método que está estrechamente relacionado con los modelos de lazo y, en muchos casos, permite que se ajusten de manera eficiente, aunque es posible que no funcione bien en todas las circunstancias. LARS genera rutas de solución completas. ^{[23] Los} métodos proximales se han vuelto populares debido a su flexibilidad y rendimiento y son un área de investigación activa. La elección del método dependerá de la variante de lazo particular, los datos y los recursos disponibles. Sin embargo, los métodos proximales generalmente funcionan bien.

Elección del parámetro de regularización

Elegir el parámetro de regularización ( ${\ Displaystyle \ lambda}$ ) es parte fundamental del lazo. Un buen valor es esencial para el rendimiento del lazo, ya que controla la fuerza de la contracción y la selección de variables, lo que, con moderación, puede mejorar tanto la precisión de la predicción como la interpretabilidad. Sin embargo, si la regularización se vuelve demasiado fuerte, se pueden omitir variables importantes y los coeficientes pueden reducirse excesivamente, lo que puede dañar tanto la capacidad predictiva como la inferencia. La validación cruzada se usa a menudo para encontrar el parámetro de regularización.

Los criterios de información como el criterio de información bayesiano (BIC) y el criterio de información de Akaike (AIC) pueden ser preferibles a la validación cruzada, porque son más rápidos de calcular y su rendimiento es menos volátil en muestras pequeñas. ^[24] Un criterio de información selecciona el parámetro de regularización del estimador maximizando la precisión en la muestra de un modelo y penalizando su número efectivo de parámetros / grados de libertad. Zou y col. propuso medir los grados de libertad efectivos contando el número de parámetros que se desvían de cero. ^[25] El enfoque de grados de libertad fue considerado defectuoso por Kaufman y Rosset ^[26] y Janson et al., ^[27] porque los grados de libertad de un modelo pueden aumentar incluso cuando se penaliza más con el parámetro de regularización. Como alternativa, la medida de simplicidad relativa definida anteriormente se puede utilizar para contar el número efectivo de parámetros. ^[24] Para el lazo, esta medida viene dada por

${\ Displaystyle {\ hat {\ mathcal {P}}} = \ sum _ {i = 1} ^ {p} {\ frac {| \ beta _ {i} - \ beta _ {0, i} |} { {\ frac {1} {p}} \ sum _ {l} | b_ {OLS, l} - \ beta _ {0, l} |}}}$ ,

que aumenta monótonamente de cero a ${\ Displaystyle p}$ a medida que el parámetro de regularización disminuye de ${\ Displaystyle \ infty}$ a cero.

Aplicaciones seleccionadas

LASSO se ha aplicado en economía y finanzas, y se ha descubierto que mejora la predicción y selecciona variables a veces descuidadas, por ejemplo, en la literatura sobre predicción de quiebras corporativas ^[28] o predicción de empresas de alto crecimiento. ^[29]

Ver también

Selección de modelo
Regresión no paramétrica
Regularización de Tikhonov

Referencias

^ a b c Santosa, Fadil; Symes, William W. (1986). "Inversión lineal de sismogramas de reflexión de banda limitada". Revista SIAM de Computación Científica y Estadística . SIAM. 7 (4): 1307-1330. doi : 10.1137 / 0907087 .
^ a b c d e f g Tibshirani, Robert (1996). "Contracción de regresión y selección a través del lazo". Revista de la Royal Statistical Society . Serie B (metodológica). Wiley. 58 (1): 267–88. JSTOR 2346178 .
^ a b Tibshirani, Robert (1997). "El método de lazo para la selección de variables en el modelo de Cox". Estadística en Medicina . 16 (4): 385–395. CiteSeerX 10.1.1.411.8024 . doi : 10.1002 / (SICI) 1097-0258 (19970228) 16: 4 <385 :: AID-SIM380> 3.0.CO; 2-3 . PMID 9044528 .
^ Breiman, Leo (1995). "Mejor regresión de subconjuntos usando el Garrote no negativo". Tecnometría . 37 (4): 373–84. doi : 10.1080 / 00401706.1995.10484371 .
^ a b c d e Zou, Hui; Hastie, Trevor (2005). "Regularización y selección de variables a través de la red elástica". Revista de la Royal Statistical Society . Serie B (Metodología estadística). Wiley. 67 (2): 301–20. doi : 10.1111 / j.1467-9868.2005.00503.x . JSTOR 3647580 .
^ a b Hoornweg, Victor (2018). "Capítulo 8" . Ciencia: Bajo presentación . Prensa de Hoornweg. ISBN 978-90-829188-0-9.
^ Zou, Hui (2006). "El lazo adaptativo y sus propiedades de Oracle" (PDF) .
^ a b Yuan, Ming; Lin, Yi (2006). "Selección y estimación de modelos en regresión con variables agrupadas". Revista de la Royal Statistical Society . Serie B (Metodología estadística). Wiley. 68 (1): 49–67. doi : 10.1111 / j.1467-9868.2005.00532.x . JSTOR 3647556 .
↑ a b Puig, Arnau Tibau, Ami Wiesel y Alfred O. Hero III . " Un operador multidimensional de umbral de contracción ". Actas del 15º taller sobre procesamiento estadístico de señales, SSP'09, IEEE, págs. 113-116.
↑ a b Jacob, Laurent, Guillaume Obozinski y Jean-Philippe Vert. " Grupo Lasso con superposición y gráfico LASSO ". Apareciendo en las Actas de la 26a Conferencia Internacional sobre Aprendizaje Automático, Montreal, Canadá, 2009.
^ a b Tibshirani, Robert, Michael Saunders, Saharon Rosset, Ji Zhu y Keith Knight. 2005. “Esparcimiento y suavidad a través del lazo fusionado”. Revista de la Royal Statistical Society. Serie B (Metodología estadística) 67 (1). Wiley: 91-108. https://www.jstor.org/stable/3647602 .
^ Ella, Yiyuan (2010). "Regresión escasa con agrupamiento exacto" . Revista Electrónica de Estadística . 4 : 1055–1096. doi : 10.1214 / 10-EJS578 .
^ Reid, Stephen (2015). "Regresión dispersa y pruebas marginales utilizando prototipos de clúster" . Bioestadística . 17 (2): 364–76. arXiv : 1503.00334 . Código Bibliográfico : 2015arXiv150300334R . doi : 10.1093 / bioestadística / kxv049 . PMC 5006118 . PMID 26614384 .
^ Bento, José (2018). "Sobre la complejidad del lazo fusionado ponderado". Cartas IEEE en procesamiento de señales . 25 (10): 1595-1599. arXiv : 1801.04987 . Código Bibliográfico : 2018ISPL ... 25.1595B . doi : 10.1109 / LSP.2018.2867800 . S2CID 5008891 .
^ a b Repositorio de regresión regularizada de Mirkes EM PQSQ , GitHub.
^ Fu, Wenjiang J. 1998. " El puente contra el lazo ". Revista de Estadística Computacional y Gráfica 7 (3). Taylor y Francis: 397-416.
^ Aggarwal CC, Hinneburg A., Keim DA (2001) " Sobre el sorprendente comportamiento de las métricas de distancia en el espacio de alta dimensión ". En: Van den Bussche J., Vianu V. (eds) Teoría de la base de datos - ICDT 2001. ICDT 2001. Lecture Notes in Computer Science, vol. 1973. Springer, Berlín, Heidelberg, págs. 420-434.
^ a b Gorban, AN; Mirkes, EM; Zinovyev, A. (2016) " Aproximaciones cuadráticas por partes de funciones de error arbitrarias para un aprendizaje automático rápido y robusto " . Neural Networks, 84, 28-38.
↑ Zou (2006, JASA)
^ Zhang y Lu (2007, Biometrika)
^ Jiang, Yuan (2016). "Selección de variables con información previa para modelos lineales generalizados mediante el método de lazo previo" . Revista de la Asociación Estadounidense de Estadística . 111 (513): 355–376. doi : 10.1080 / 01621459.2015.1008363 . PMC 4874534 . PMID 27217599 .
^ Jerome Friedman, Trevor Hastie y Robert Tibshirani. 2010. “Rutas de regularización para modelos lineales generalizados mediante descenso de coordenadas”. Revista de software estadístico 33 (1): 1-21. https://www.jstatsoft.org/article/view/v033i01/v33i01.pdf .
↑ a b Efron, Bradley, Trevor Hastie, Iain Johnstone y Robert Tibshirani. 2004. “Regresión de ángulo mínimo”. The Annals of Statistics 32 (2). Instituto de Estadística Matemática: 407–51. https://www.jstor.org/stable/3448465 .
^ a b Hoornweg, Victor (2018). "Capítulo 9" . Ciencia: Bajo presentación . Prensa de Hoornweg. ISBN 978-90-829188-0-9.
^ Zou, Hui; Hastie, Trevor; Tibshirani, Robert (2007). "Sobre los 'Grados de Libertad' del Lazo" . The Annals of Statistics . 35 (5): 2173–2792. doi : 10.1214 / 009053607000000127 .
^ Kaufman, S .; Rosset, S. (2014). "¿Cuándo más regularización implica menos grados de libertad? Condiciones suficientes y contraejemplos". Biometrika . 101 (4): 771–784. doi : 10.1093 / biomet / asu034 . ISSN 0006-3444 .
^ Janson, Lucas; Fithian, William; Hastie, Trevor J. (2015). "Grados efectivos de libertad: una metáfora defectuosa" . Biometrika . 102 (2): 479–485. doi : 10.1093 / biomet / asv019 . ISSN 0006-3444 . PMC 4787623 . PMID 26977114 .
^ Shaonan, Tian; Yu, Yan; Guo, Hui (2015). "Selección de variables y previsión de quiebras corporativas" . Revista de Banca y Finanzas . 52 (1): 89–100. doi : 10.1016 / j.jbankfin.2014.12.003 .
^ Coad, Alex; Srhoj, Stjepan (2020). "Atrapando gacelas con un lazo: técnicas de Big Data para la predicción de empresas de alto crecimiento" . Economía de la pequeña empresa . 55 (1): 541–565. doi : 10.1007 / s11187-019-00203-3 .

[Breiman_1995-1] Santosa, Fadil; Symes, William W. (1986). "Inversión lineal de sismogramas de reflexión de banda limitada". Revista SIAM de Computación Científica y Estadística . SIAM. 7 (4): 1307-1330. doi : 10.1137 / 0907087 .

[Tibshirani_1996-2] Tibshirani, Robert (1996). "Contracción de regresión y selección a través del lazo". Revista de la Royal Statistical Society . Serie B (metodológica). Wiley. 58 (1): 267–88. JSTOR 2346178 .

[Tibshirani_1997-3] Tibshirani, Robert (1997). "El método de lazo para la selección de variables en el modelo de Cox". Estadística en Medicina . 16 (4): 385–395. CiteSeerX 10.1.1.411.8024 . doi : 10.1002 / (SICI) 1097-0258 (19970228) 16: 4 <385 :: AID-SIM380> 3.0.CO; 2-3 . PMID 9044528 .

[4] Breiman, Leo (1995). "Mejor regresión de subconjuntos usando el Garrote no negativo". Tecnometría . 37 (4): 373–84. doi : 10.1080 / 00401706.1995.10484371 .

[Zou_2005-5] Zou, Hui; Hastie, Trevor (2005). "Regularización y selección de variables a través de la red elástica". Revista de la Royal Statistical Society . Serie B (Metodología estadística). Wiley. 67 (2): 301–20. doi : 10.1111 / j.1467-9868.2005.00503.x . JSTOR 3647580 .

[Hoornweg2018SUS-6] Hoornweg, Victor (2018). "Capítulo 8" . Ciencia: Bajo presentación . Prensa de Hoornweg. ISBN 978-90-829188-0-9.

[7] Zou, Hui (2006). "El lazo adaptativo y sus propiedades de Oracle" (PDF) .

[Yuan_2006-8] Yuan, Ming; Lin, Yi (2006). "Selección y estimación de modelos en regresión con variables agrupadas". Revista de la Royal Statistical Society . Serie B (Metodología estadística). Wiley. 68 (1): 49–67. doi : 10.1111 / j.1467-9868.2005.00532.x . JSTOR 3647556 .

[Puig_2009-9] Puig, Arnau Tibau, Ami Wiesel y Alfred O. Hero III . " Un operador multidimensional de umbral de contracción ". Actas del 15º taller sobre procesamiento estadístico de señales, SSP'09, IEEE, págs. 113-116.

[Jacob_2009-10] Jacob, Laurent, Guillaume Obozinski y Jean-Philippe Vert. " Grupo Lasso con superposición y gráfico LASSO ". Apareciendo en las Actas de la 26a Conferencia Internacional sobre Aprendizaje Automático, Montreal, Canadá, 2009.

[Tibshirani_2005-11] Tibshirani, Robert, Michael Saunders, Saharon Rosset, Ji Zhu y Keith Knight. 2005. “Esparcimiento y suavidad a través del lazo fusionado”. Revista de la Royal Statistical Society. Serie B (Metodología estadística) 67 (1). Wiley: 91-108. https://www.jstor.org/stable/3647602 .

[clusteredlasso-12] Ella, Yiyuan (2010). "Regresión escasa con agrupamiento exacto" . Revista Electrónica de Estadística . 4 : 1055–1096. doi : 10.1214 / 10-EJS578 .

[13] Reid, Stephen (2015). "Regresión dispersa y pruebas marginales utilizando prototipos de clúster" . Bioestadística . 17 (2): 364–76. arXiv : 1503.00334 . Código Bibliográfico : 2015arXiv150300334R . doi : 10.1093 / bioestadística / kxv049 . PMC 5006118 . PMID 26614384 .

[14] Bento, José (2018). "Sobre la complejidad del lazo fusionado ponderado". Cartas IEEE en procesamiento de señales . 25 (10): 1595-1599. arXiv : 1801.04987 . Código Bibliográfico : 2018ISPL ... 25.1595B . doi : 10.1109 / LSP.2018.2867800 . S2CID 5008891 .

[EMgithub-15] Repositorio de regresión regularizada de Mirkes EM PQSQ , GitHub.

[Fu_1998-16] Fu, Wenjiang J. 1998. " El puente contra el lazo ". Revista de Estadística Computacional y Gráfica 7 (3). Taylor y Francis: 397-416.

[17] Aggarwal CC, Hinneburg A., Keim DA (2001) " Sobre el sorprendente comportamiento de las métricas de distancia en el espacio de alta dimensión ". En: Van den Bussche J., Vianu V. (eds) Teoría de la base de datos - ICDT 2001. ICDT 2001. Lecture Notes in Computer Science, vol. 1973. Springer, Berlín, Heidelberg, págs. 420-434.

[GMZ2016-18] Gorban, AN; Mirkes, EM; Zinovyev, A. (2016) " Aproximaciones cuadráticas por partes de funciones de error arbitrarias para un aprendizaje automático rápido y robusto " . Neural Networks, 84, 28-38.

[19] Zou (2006, JASA)

[20] Zhang y Lu (2007, Biometrika)

[priorlasso-21] Jiang, Yuan (2016). "Selección de variables con información previa para modelos lineales generalizados mediante el método de lazo previo" . Revista de la Asociación Estadounidense de Estadística . 111 (513): 355–376. doi : 10.1080 / 01621459.2015.1008363 . PMC 4874534 . PMID 27217599 .

[Friedman_20102-22] Jerome Friedman, Trevor Hastie y Robert Tibshirani. 2010. “Rutas de regularización para modelos lineales generalizados mediante descenso de coordenadas”. Revista de software estadístico 33 (1): 1-21. https://www.jstatsoft.org/article/view/v033i01/v33i01.pdf .

[Efron_20042-23] Efron, Bradley, Trevor Hastie, Iain Johnstone y Robert Tibshirani. 2004. “Regresión de ángulo mínimo”. The Annals of Statistics 32 (2). Instituto de Estadística Matemática: 407–51. https://www.jstor.org/stable/3448465 .

[:0-24] Hoornweg, Victor (2018). "Capítulo 9" . Ciencia: Bajo presentación . Prensa de Hoornweg. ISBN 978-90-829188-0-9.

[Zou_20052-25] Zou, Hui; Hastie, Trevor; Tibshirani, Robert (2007). "Sobre los 'Grados de Libertad' del Lazo" . The Annals of Statistics . 35 (5): 2173–2792. doi : 10.1214 / 009053607000000127 .

[KaufmanRosset2014-26] Kaufman, S .; Rosset, S. (2014). "¿Cuándo más regularización implica menos grados de libertad? Condiciones suficientes y contraejemplos". Biometrika . 101 (4): 771–784. doi : 10.1093 / biomet / asu034 . ISSN 0006-3444 .

[JansonFithian2015-27] Janson, Lucas; Fithian, William; Hastie, Trevor J. (2015). "Grados efectivos de libertad: una metáfora defectuosa" . Biometrika . 102 (2): 479–485. doi : 10.1093 / biomet / asv019 . ISSN 0006-3444 . PMC 4787623 . PMID 26977114 .

[Tian-28] Shaonan, Tian; Yu, Yan; Guo, Hui (2015). "Selección de variables y previsión de quiebras corporativas" . Revista de Banca y Finanzas . 52 (1): 89–100. doi : 10.1016 / j.jbankfin.2014.12.003 .

[sbe-29] Coad, Alex; Srhoj, Stjepan (2020). "Atrapando gacelas con un lazo: técnicas de Big Data para la predicción de empresas de alto crecimiento" . Economía de la pequeña empresa . 55 (1): 541–565. doi : 10.1007 / s11187-019-00203-3 .

[1]