Mínimos cuadrados regularizados

Los mínimos cuadrados regularizados ( RLS ) son una familia de métodos para resolver el problema de mínimos cuadrados mientras se usa la regularización para restringir aún más la solución resultante.

El SPI se utiliza por dos razones principales. El primero surge cuando el número de variables en el sistema lineal excede el número de observaciones. En tales situaciones, el problema de mínimos cuadrados ordinarios está mal planteado y, por lo tanto, es imposible de ajustar porque el problema de optimización asociado tiene infinitas soluciones. RLS permite la introducción de restricciones adicionales que determinan de manera única la solución.

La segunda razón por la que se utiliza RLS ocurre cuando el número de variables no excede el número de observaciones, pero el modelo aprendido adolece de una mala generalización . RLS se puede utilizar en tales casos para mejorar la generalización del modelo al restringirlo en el momento del entrenamiento. Esta restricción puede obligar a la solución a ser "escasa" de alguna manera o reflejar otros conocimientos previos sobre el problema, como información sobre correlaciones entre características. A Bayesiano comprensión de este se puede llegar por lo que demuestra que los métodos de RLS a menudo son equivalentes a distribuciones previas en la solución para el problema de mínimos cuadrados.

Formulación general

Considere un entorno de aprendizaje dado por un espacio probabilístico ${\ Displaystyle (X \ times Y, \ rho (X, Y))}$ , ${\ Displaystyle Y \ in R}$ . Dejar ${\ Displaystyle S = \ {x_ {i}, y_ {i} \} _ {i = 1} ^ {n}}$ denotar un conjunto de entrenamiento de ${\ Displaystyle n}$ pares iid con respecto a ${\ Displaystyle \ rho}$ . Dejar ${\ Displaystyle V: Y \ times R \ rightarrow [0; \ infty)}$ ser una función de pérdida. Definir ${\ Displaystyle F}$ como el espacio de las funciones tal que el riesgo esperado:

{\ Displaystyle \ varepsilon (f) = \ int V (y, f (x)) \, d \ rho (x, y)}

está bien definido. El objetivo principal es minimizar el riesgo esperado:

{\ Displaystyle \ inf _ {f \ in F} \ varepsilon (f)}

Dado que el problema no se puede resolver exactamente, es necesario especificar cómo medir la calidad de una solución. Un buen algoritmo de aprendizaje debería proporcionar un estimador con un pequeño riesgo.

Como la distribución conjunta ${\ Displaystyle \ rho}$ normalmente se desconoce, se asume el riesgo empírico. Para mínimos cuadrados regularizados se introduce la función de pérdida cuadrada:

{\ Displaystyle \ varepsilon (f) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} V (y_ {i}, f (x_ {i})) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (y_ {i} -f (x_ {i})) ^ {2}}

Sin embargo, si las funciones provienen de un espacio relativamente libre, como el conjunto de funciones integrables cuadradas en ${\ Displaystyle X}$ , este enfoque puede sobreajustarse a los datos de entrenamiento y conducir a una mala generalización. Por lo tanto, debería restringir o penalizar de alguna manera la complejidad de la función. ${\ Displaystyle f}$ . En RLS, esto se logra eligiendo funciones de un espacio de Hilbert del núcleo de reproducción (RKHS) ${\ Displaystyle {\ mathcal {H}}}$ , y agregando un término de regularización a la función objetivo, proporcional a la norma de la función en ${\ Displaystyle {\ mathcal {H}}}$ :

{\ Displaystyle \ inf _ {f \ in F} \ varepsilon (f) + \ lambda R (f), \ lambda> 0}

Formulación de grano

Definición de RKHS

Un RKHS puede definirse mediante una función de núcleo simétrica positiva definida ${\ Displaystyle K (x, z)}$ con la propiedad de reproducción:

{\ Displaystyle \ langle K_ {x}, f \ rangle _ {\ mathcal {H}} = f (x),}

dónde ${\ Displaystyle K_ {x} (z) = K (x, z)}$ . El RKHS para un kernel ${\ Displaystyle K}$ Consiste en completar el espacio de funciones abarcadas por ${\ Displaystyle \ left \ {K_ {x} \ mid x \ in X \ right \}}$ : ${\ Displaystyle f (x) = \ sum _ {i = 1} ^ {n} \ alpha _ {i} K_ {x_ {i}} (x), \, f \ in {\ mathcal {H}}}$ , donde todos ${\ Displaystyle \ alpha _ {i}}$ son números reales. Algunos núcleos de uso común incluyen el núcleo lineal, que induce el espacio de funciones lineales:

{\ Displaystyle K (x, z) = x ^ {T} z,}

el núcleo polinomial, que induce el espacio de funciones polinomiales de orden ${\ Displaystyle d}$ :

{\ Displaystyle K (x, z) = (x ^ {T} z + 1) ^ {d},}

y el kernel gaussiano:

{\ Displaystyle K (x, z) = e ^ {- {\ frac {\ | xz \ | ^ {2}} {\ sigma ^ {2}}}}.}

Tenga en cuenta que para una función de pérdida arbitraria ${\ Displaystyle V}$ , este enfoque define una clase general de algoritmos denominada regularización de Tikhonov. Por ejemplo, el uso de la pérdida de bisagra conduce al algoritmo de la máquina de vectores de soporte , y el uso de la pérdida insensible a épsilon conduce al soporte de la regresión vectorial .

Kernel arbitrario

El teorema del representador garantiza que la solución se puede escribir como:

{\ Displaystyle f (x) = \ sum _ {i = 1} ^ {n} c_ {i} K (x_ {i}, x)}

para algunos

{\ Displaystyle c \ in \ mathbb {R} ^ {n}}

.

El problema de minimización se puede expresar como:

{\ Displaystyle \ min _ {c \ in R ^ {n}} {\ frac {1} {n}} \ | Y-Kc \ | _ {R ^ {n}} ^ {2} + \ lambda \ | f \ | _ {H} ^ {2}}

,

donde, con algún abuso de notación, el ${\ Displaystyle i, j}$ entrada de la matriz del núcleo ${\ Displaystyle K}$ (a diferencia de la función del kernel ${\ Displaystyle K (\ cdot, \ cdot)}$ ) es ${\ Displaystyle K (x_ {i}, x_ {j})}$ .

Para tal función,

{\ Displaystyle {\ begin {alineado} & \ | f \ | _ {H} ^ {2} = \ langle f, f \ rangle _ {H} = \ left \ langle \ sum _ {i = 1} ^ { n} c_ {i} K (x_ {i}, \ cdot), \ sum _ {j = 1} ^ {n} c_ {j} K (x_ {j}, \ cdot) \ right \ rangle _ {H } \\ = {} & \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} c_ {i} c_ {j} \ langle K (x_ {i}, \ cdot ), K (x_ {j}, \ cdot) \ rangle _ {H} = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} c_ {i} c_ {j } K (x_ {i}, x_ {j}) = c ^ {T} Kc, \ end {alineado}}}

Se puede obtener el siguiente problema de minimización:

{\ Displaystyle \ min _ {c \ in R ^ {n}} {\ frac {1} {n}} \ | Y-Kc \ | _ {R ^ {n}} ^ {2} + \ lambda c ^ {T} Kc}

.

Como la suma de las funciones convexas es convexa, la solución es única y su mínimo se puede encontrar estableciendo el gradiente wrt ${\ Displaystyle c}$ a ${\ Displaystyle 0}$ :

{\ Displaystyle - {\ frac {1} {n}} K (Y-Kc) + \ lambda Kc = 0 \ Rightarrow K (K + \ lambda nI) c = KY \ Rightarrow c = (K + \ lambda nI) ^ { -1} Y}

,

dónde ${\ Displaystyle c \ en R ^ {n}}$ .

Complejidad

La complejidad del entrenamiento es básicamente el costo de calcular la matriz del núcleo más el costo de resolver el sistema lineal que es aproximadamente ${\ Displaystyle O (n ^ {3})}$ . El cálculo de la matriz del núcleo para el núcleo lineal o gaussiano es ${\ Displaystyle O (n ^ {2} D)}$ . La complejidad de las pruebas es ${\ Displaystyle O (n)}$ .

Predicción

La predicción en un nuevo punto de prueba ${\ Displaystyle x _ {*}}$ es:

{\ Displaystyle f (x _ {*}) = \ sum _ {i = 1} ^ {n} c_ {i} K (x_ {i}, x _ {*}) = K (X, X _ {*}) ^ {T} c}

Núcleo lineal

Por conveniencia, se introduce una notación vectorial. Dejar ${\ Displaystyle X}$ frijol ${\ Displaystyle n \ times d}$ matriz, donde las filas son vectores de entrada, y ${\ Displaystyle Y}$ a ${\ Displaystyle n \ times 1}$ vector donde las entradas son salidas correspondientes. En términos de vectores, la matriz del núcleo se puede escribir como ${\ Displaystyle \ operatorname {K} = \ operatorname {X} \ operatorname {X} ^ {T}}$ . La función de aprendizaje se puede escribir como:

{\ displaystyle f (x _ {*}) = \ operatorname {K} _ {x _ {*}} c = x _ {*} ^ {T} \ operatorname {X} ^ {T} c = x _ {*} ^ { T} w}

Aquí definimos ${\ Displaystyle w = X ^ {T} do, w \ in R ^ {d}}$ . La función objetivo se puede reescribir como:

{\ Displaystyle {\ begin {alineado} & {\ frac {1} {n}} \ | Y- \ operatorname {K} c \ | _ {R ^ {n}} ^ {2} + \ lambda c ^ { T} \ operatorname {K} c \\ [4pt] = {} & {\ frac {1} {n}} \ | y- \ operatorname {X} \ operatorname {X} ^ {T} c \ | _ { R ^ {n}} ^ {2} + \ lambda c ^ {T} \ operatorname {X} \ operatorname {X} ^ {T} c = {\ frac {1} {n}} \ | y- \ operatorname {X} w \ | _ {R ^ {n}} ^ {2} + \ lambda \ | w \ | _ {R ^ {d}} ^ {2} \ end {alineado}}}

El primer término es la función objetivo de la regresión de mínimos cuadrados ordinarios (MCO), correspondiente a la suma de cuadrados residual . El segundo término es un término de regularización, no presente en OLS, que penaliza a grandes ${\ Displaystyle w}$ valores. Como se considera un problema de dimensión finita uniforme y es posible aplicar herramientas de cálculo estándar. Para minimizar la función objetivo, el gradiente se calcula con respecto a ${\ Displaystyle w}$ y ponerlo a cero:

{\ Displaystyle \ operatorname {X} ^ {T} \ operatorname {X} w- \ operatorname {X} ^ {T} y + \ lambda nw = 0}

{\ Displaystyle w = (\ operatorname {X} ^ {T} \ operatorname {X} + \ lambda n \ operatorname {I}) ^ {- 1} \ operatorname {X} ^ {T} y}

Esta solución se parece mucho a la de la regresión lineal estándar, con un término adicional ${\ Displaystyle \ lambda \ operatorname {I}}$ . Si se cumplen los supuestos de la regresión MCO, la solución ${\ Displaystyle w = (\ operatorname {X} ^ {T} \ operatorname {X}) ^ {- 1} \ operatorname {X} ^ {T} y}$ , con ${\ Displaystyle \ lambda = 0}$ , es un estimador insesgado y es el estimador insesgado lineal de mínima varianza, de acuerdo con el teorema de Gauss-Markov . El termino ${\ Displaystyle \ lambda n \ operatorname {I}}$ por lo tanto conduce a una solución sesgada; sin embargo, también tiende a reducir la varianza. Esto es fácil de ver, ya que la matriz de covarianza del ${\ Displaystyle w}$ -valores es proporcional a ${\ Displaystyle (\ operatorname {X} ^ {T} \ operatorname {X} + \ lambda n \ operatorname {I}) ^ {- 1}}$ , y por lo tanto grandes valores de ${\ Displaystyle \ lambda}$ conducirá a una menor variación. Por tanto, manipulando ${\ Displaystyle \ lambda}$ corresponde al sesgo de compensación y la varianza. Para problemas con alta varianza ${\ Displaystyle w}$ estimaciones, como los casos con relativamente pequeñas ${\ Displaystyle n}$ o con regresores correlacionados, la precisión de predicción óptima se puede obtener utilizando un valor distinto de cero ${\ Displaystyle \ lambda}$ e introduciendo así algún sesgo para reducir la varianza. Además, no es infrecuente en el aprendizaje automático tener casos en los que ${\ Displaystyle n }>$ , en ese caso ${\ Displaystyle X ^ {T} X}$ tiene un rango deficiente y un valor distinto de cero ${\ Displaystyle \ lambda}$ es necesario calcular ${\ Displaystyle (\ operatorname {X} ^ {T} \ operatorname {X} + \ lambda n \ operatorname {I}) ^ {- 1}}$ .

Complejidad

El parámetro ${\ Displaystyle \ lambda}$ controla la invertibilidad de la matriz ${\ Displaystyle X ^ {T} X + \ lambda nI}$ . Se pueden usar varios métodos para resolver el sistema lineal anterior, siendo probablemente la descomposición de Cholesky el método de elección, ya que la matriz ${\ Displaystyle X ^ {T} X + \ lambda nI}$ es simétrica y definida positiva . La complejidad de este método es ${\ Displaystyle O (nD ^ {2})}$ para entrenamiento y ${\ Displaystyle O (D)}$ para las pruebas. El costo ${\ Displaystyle O (nD ^ {2})}$ es esencialmente el de la informática ${\ Displaystyle X ^ {T} X}$ , mientras que el cálculo inverso (o más bien la solución del sistema lineal) es aproximadamente ${\ Displaystyle O (D ^ {3})}$ .

Mapas de características y teorema de Mercer

En esta sección se mostrará cómo extender RLS a cualquier tipo de kernel de reproducción K. En lugar de kernel lineal, se considera un mapa de características. ${\ Displaystyle \ Phi: X \ rightarrow F}$ por un poco de espacio de Hilbert ${\ Displaystyle F}$ , llamado espacio de características. En este caso, el núcleo se define como: La matriz ${\ Displaystyle X}$ ahora se reemplaza por la nueva matriz de datos ${\ Displaystyle \ Phi}$ , dónde ${\ Displaystyle \ Phi _ {ij} = \ phi _ {j} (x_ {i})}$ , o el ${\ Displaystyle j}$ -th componente de la ${\ Displaystyle \ phi (x_ {i})}$ .

{\ Displaystyle K (x, x ') = \ langle \ Phi (x), \ Phi (x') \ rangle _ {F}.}

Significa que para un conjunto de entrenamiento dado ${\ Displaystyle K = \ Phi \ Phi ^ {T}}$ . Por tanto, la función objetivo se puede escribir como:

{\ Displaystyle \ min _ {c \ in \ mathbb {R} ^ {n}} \ | Y- \ Phi \ Phi ^ {T} c \ | _ {R ^ {n}} ^ {2} + \ lambda c ^ {T} \ Phi \ Phi ^ {T} c}

Este enfoque se conoce como el truco del kernel . Esta técnica puede simplificar significativamente las operaciones computacionales. Si ${\ Displaystyle F}$ es de alta dimensión, informática ${\ Displaystyle \ phi (x_ {i})}$ puede ser bastante intensivo. Si se conoce la forma explícita de la función del kernel, solo necesitamos calcular y almacenar la ${\ Displaystyle n \ times n}$ matriz del núcleo ${\ Displaystyle \ operatorname {K}}$ .

De hecho, el espacio de Hilbert ${\ Displaystyle F}$ no necesita ser isomorfo para ${\ Displaystyle \ mathbb {R} ^ {m}}$ y puede ser de dimensión infinita. Esto se sigue del teorema de Mercer , que establece que una función de núcleo definida positiva, simétrica y continua se puede expresar como:

${\ Displaystyle K (x, z) = \ sum _ {i = 1} ^ {\ infty} \ sigma _ {i} e_ {i} (x) e_ {i} (z)}$

dónde ${\ Displaystyle e_ {i} (x)}$ forman una base ortonormal para ${\ Displaystyle \ ell ^ {2} (X)}$ , y ${\ Displaystyle \ sigma _ {i} \ in \ mathbb {R}}$ . Si se definen mapas de características ${\ Displaystyle \ phi (x)}$ con componentes ${\ Displaystyle \ phi _ {i} (x) = {\ sqrt {\ sigma _ {i}}} e_ {i} (x)}$ , resulta que ${\ Displaystyle K (x, z) = \ langle \ phi (x), \ phi (z) \ rangle}$ . Esto demuestra que cualquier núcleo puede asociarse con un mapa de características y que RLS generalmente consiste en RLS lineal realizado en algún espacio de características posiblemente de mayor dimensión. Si bien el teorema de Mercer muestra cómo un mapa de características que se puede asociar con un kernel, de hecho, se pueden asociar múltiples mapas de características con un kernel de reproducción dado. Por ejemplo, el mapa ${\ Displaystyle \ phi (x) = K_ {x}}$ satisface la propiedad ${\ Displaystyle K (x, z) = \ langle \ phi (x), \ phi (z) \ rangle}$ para un kernel de reproducción arbitraria.

Interpretación bayesiana

Los mínimos cuadrados pueden verse como una maximización de la probabilidad bajo el supuesto de residuos distribuidos normalmente. Esto se debe a que el exponente de la distribución gaussiana es cuadrático en los datos, y también lo es la función objetivo de mínimos cuadrados. En este marco, los términos de regularización de RLS pueden entenderse como codificación previa en ${\ Displaystyle w}$ . Por ejemplo, la regularización de Tikhonov corresponde a una distribución anterior en ${\ Displaystyle w}$ que está centrado en 0. Para ver esto, primero tenga en cuenta que el objetivo de MCO es proporcional a la función logarítmica de verosimilitud cuando cada muestra ${\ Displaystyle y ^ {i}}$ se distribuye normalmente alrededor ${\ Displaystyle w ^ {T} \ cdot x ^ {i}}$ . Luego observe que una previa normal ${\ Displaystyle w}$ centrado en 0 tiene una probabilidad logarítmica de la forma

{\ Displaystyle \ log P (w) = q- \ alpha \ sum _ {j = 1} ^ {d} w_ {j} ^ {2}}

dónde ${\ Displaystyle q}$ y ${\ Displaystyle \ alpha}$ son constantes que dependen de la varianza del anterior y son independientes de ${\ Displaystyle w}$ . Por lo tanto, minimizar el logaritmo de la probabilidad multiplicada por el anterior equivale a minimizar la suma de la función de pérdida de MCO y el término de regularización de regresión de cresta.

Esto da una interpretación más intuitiva de por qué la regularización de Tikhonov conduce a una solución única al problema de mínimos cuadrados: hay infinitos vectores ${\ Displaystyle w}$ satisfaciendo las restricciones obtenidas de los datos, pero dado que llegamos al problema con una creencia previa de que ${\ Displaystyle w}$ se distribuye normalmente alrededor del origen, terminaremos eligiendo una solución con esta restricción en mente.

Otros métodos de regularización corresponden a diferentes anteriores. Consulte la lista a continuación para obtener más detalles.

Ejemplos específicos

Regresión de crestas (o regularización de Tikhonov)

Una opción particularmente común para la función de penalización ${\ Displaystyle R}$ es el cuadrado ${\ Displaystyle \ ell _ {2}}$ norma , es decir,

{\ Displaystyle R (w) = \ sum _ {j = 1} ^ {d} w_ {j} ^ {2}}

{\ Displaystyle {\ frac {1} {n}} \ | Y- \ operatorname {X} w \ | _ {2} ^ {2} + \ lambda \ sum _ {j = 1} ^ {d} | w_ {j} | ^ {2} \ flecha derecha \ min _ {w \ in \ mathbf {R ^ {d}}}}

Los nombres más comunes para esto se denominan regularización de Tikhonov y regresión de crestas . Admite una solución de forma cerrada para ${\ Displaystyle w}$ :

{\ Displaystyle w = (X ^ {T} X + \ alpha I) ^ {- 1} X ^ {T} Y}

El nombre de regresión de la cresta alude al hecho de que la ${\ Displaystyle \ alpha I}$ término agrega entradas positivas a lo largo de la "cresta" diagonal de la matriz de covarianza de muestra ${\ Displaystyle X ^ {T} X}$ .

Cuándo ${\ Displaystyle \ alpha = 0}$ , es decir, en el caso de mínimos cuadrados ordinarios , la condición de que ${\ Displaystyle d> n}$ provoca la matriz de covarianza de la muestra ${\ Displaystyle X ^ {T} X}$ no tener rango completo y, por lo tanto, no se puede invertir para producir una solución única. Esta es la razón por la que puede haber una infinidad de soluciones al problema de mínimos cuadrados ordinarios cuando ${\ Displaystyle d> n}$ . Sin embargo cuando ${\ Displaystyle \ alpha> 0}$ , es decir, cuando se utiliza la regresión de crestas, la adición de ${\ Displaystyle \ alpha I}$ a la matriz de covarianza de la muestra asegura que todos sus valores propios serán estrictamente mayores que 0. En otras palabras, se vuelve invertible y la solución se vuelve única.

En comparación con los mínimos cuadrados ordinarios, la regresión de crestas no es insesgada. Acepta poco sesgo para reducir la varianza y el error cuadrático medio , y ayuda a mejorar la precisión de la predicción. Por lo tanto, el estimador de crestas produce soluciones más estables al reducir los coeficientes, pero adolece de la falta de sensibilidad a los datos.

Regresión de lazo

El método de selección y contracción mínima absoluta (LASSO) es otra opción popular. En la regresión de lazo , la función de penalización de lazo ${\ Displaystyle R}$ es el ${\ Displaystyle \ ell _ {1}}$ norma , es decir

{\ Displaystyle R (w) = \ sum _ {j = 1} ^ {d} \ left | w_ {j} \ right |}

{\ Displaystyle {\ frac {1} {n}} \ | Y- \ operatorname {X} w \ | _ {2} ^ {2} + \ lambda \ sum _ {j = 1} ^ {d} | w_ {j} | \ flecha derecha \ min _ {w \ in \ mathbf {R ^ {d}}}}

Tenga en cuenta que la función de penalización del lazo es convexa pero no estrictamente convexa. A diferencia de la regularización de Tikhonov , este esquema no tiene una solución conveniente de forma cerrada: en cambio, la solución generalmente se encuentra utilizando programación cuadrática o métodos de optimización convexa más generales , así como mediante algoritmos específicos como el algoritmo de regresión de ángulo mínimo .

Una diferencia importante entre la regresión de lazo y la regularización de Tikhonov es que la regresión de lazo fuerza más entradas de ${\ Displaystyle w}$ para ser realmente igual a 0 de lo que sería de otra manera. Por el contrario, mientras que la regularización de Tikhonov fuerza la entrada de ${\ Displaystyle w}$ para ser pequeño, no obliga a que más de ellos sean 0 de lo que sería de otra manera. Por lo tanto, la regularización LASSO es más apropiada que la regularización de Tikhonov en los casos en los que esperamos el número de entradas distintas de cero de ${\ Displaystyle w}$ ser pequeño, y la regularización de Tikhonov es más apropiada cuando esperamos que las entradas de ${\ Displaystyle w}$ generalmente será pequeño pero no necesariamente cero. Cuál de estos regímenes es más relevante depende del conjunto de datos específicos disponibles.

Además de la selección de funciones descrita anteriormente, LASSO tiene algunas limitaciones. La regresión de crestas proporciona una mejor precisión en el caso ${\ Displaystyle n> d}$ para variables altamente correlacionadas. ^[1] En otro caso, ${\ Displaystyle n }>$ , LASSO selecciona como máximo ${\ Displaystyle n}$ variables. Además, LASSO tiende a seleccionar algunas variables arbitrarias de un grupo de muestras altamente correlacionadas, por lo que no hay efecto de agrupación.

ℓ ₀ Penalización

{\ displaystyle {\ frac {1} {n}} \ | Y- \ operatorname {X} w \ | _ {2} ^ {2} + \ lambda \ | w_ {j} \ | _ {0} \ rightarrow \ min _ {w \ in \ mathbf {R ^ {d}}}}

La forma más extrema de imponer la escasez es decir que la magnitud real de los coeficientes de ${\ Displaystyle w}$ no importa; más bien, lo único que determina la complejidad de ${\ Displaystyle w}$ es el número de entradas distintas de cero. Esto corresponde a la configuración ${\ Displaystyle R (w)}$ ser el ℓ 0 {\ Displaystyle \ ell _ {0}} norma de ${\ Displaystyle w}$ . Esta función de regularización, aunque atractiva por la escasez que garantiza, es muy difícil de resolver porque hacerlo requiere la optimización de una función que ni siquiera es débilmente convexa . La regresión de lazo es la relajación mínima posible de ${\ Displaystyle \ ell _ {0}}$ penalización que produce un problema de optimización débilmente convexo.

Red elástica

Para cualquier no negativo ${\ Displaystyle \ lambda _ {1}}$ y ${\ Displaystyle \ lambda _ {2}}$ el objetivo tiene la siguiente forma:

{\ Displaystyle {\ frac {1} {n}} \ | Y- \ operatorname {X} w \ | _ {2} ^ {2} + \ lambda _ {1} \ sum _ {j = 1} ^ { d} | w_ {j} | + \ lambda _ {2} \ sum _ {j = 1} ^ {d} | w_ {j} | ^ {2} \ rightarrow \ min _ {w \ in \ mathbf {R ^ {d}}}}

Dejar ${\ Displaystyle \ alpha = {\ frac {\ lambda _ {1}} {\ lambda _ {1} + \ lambda _ {2}}}}$ , entonces la solución del problema de minimización se describe como:

{\ Displaystyle {\ frac {1} {n}} \ | Y- \ operatorname {X} w \ | _ {2} ^ {2} \ rightarrow \ min _ {w \ in \ mathbf {R ^ {d} }} {\ text {st}} (1- \ alpha) \ | w \ | _ {1} + \ alpha \ | w \ | _ {2} \ leq t}

para algunos

{\ Displaystyle t}

.

Considerar ${\ Displaystyle (1- \ alpha) \ | w \ | _ {1} + \ alpha \ | w \ | _ {2} \ leq t}$ como una función de penalización de Elastic Net.

Cuándo ${\ Displaystyle \ alpha = 1}$ , la red elástica se convierte en regresión de la cresta, mientras que ${\ Displaystyle \ alpha = 0}$ se convierte en Lasso. ${\ Displaystyle \ forall \ alpha \ in (0,1]}$ La función de penalización de Elastic Net no tiene la primera derivada en 0 y es estrictamente convexa ${\ Displaystyle \ forall \ alpha> 0}$ teniendo las propiedades tanto lasso de regresión y regresión cresta .

Una de las principales propiedades de Elastic Net es que puede seleccionar grupos de variables correlacionadas. La diferencia entre los vectores de peso de las muestras. ${\ Displaystyle x_ {i}}$ y ${\ Displaystyle x_ {j}}$ es dado por:

{\ Displaystyle | w_ {i} ^ {*} (\ lambda _ {1}, \ lambda _ {2}) - w_ {j} ^ {*} (\ lambda _ {1}, \ lambda _ {2} ) | \ leq {\ frac {\ sum _ {i = 1} ^ {n} | y_ {i} |} {\ lambda _ {2}}} {\ sqrt {2 (1- \ rho _ {ij} )}}}

, dónde

{\ Displaystyle \ rho _ {ij} = x_ {i} ^ {T} x_ {j}}

. ^[2]

Si ${\ Displaystyle x_ {i}}$ y ${\ Displaystyle x_ {j}}$ están altamente correlacionados ${\ Displaystyle \ rho _ {ij} \ rightarrow 1}$ ), los vectores de peso están muy cerca. En el caso de muestras correlacionadas negativamente ( ${\ Displaystyle \ rho _ {ij} \ rightarrow -1}$ ) Las muestras ${\ Displaystyle -x_ {j}}$ puede ser tomado. En resumen, para las variables altamente correlacionadas, los vectores de ponderación tienden a ser iguales hasta un signo en el caso de las variables correlacionadas negativamente.

Lista parcial de métodos RLS

La siguiente es una lista de posibles opciones de la función de regularización. ${\ Displaystyle R (\ cdot)}$ , junto con el nombre de cada uno, el previo correspondiente si es sencillo, y las formas de calcular la solución al problema de optimización resultante.

Nombre	Función de regularización	Correspondiente anterior	Métodos para resolver
Regularización de Tikhonov	${\ Displaystyle \ \| w \ \| _ {2} ^ {2}}$	Normal	Forma cerrada
Regresión de lazo	${\ Displaystyle \ \| w \ \| _ {1}}$	Laplace	Descenso de gradiente proximal , regresión de ángulo mínimo
${\ Displaystyle \ ell _ {0}}$ castigo	${\ Displaystyle \ \| w \ \| _ {0}}$	-	Selección hacia adelante , eliminación hacia atrás , uso de anteriores como picos y losas
Redes elásticas	${\ Displaystyle \ beta \ \| w \ \| _ {1} + (1- \ beta) \ \| w \ \| _ {2} ^ {2}}$	Mezcla normal y de Laplace	Descenso de gradiente proximal
Regularización de variación total	${\ Displaystyle \ sum _ {j = 1} ^ {d-1} \| w_ {j + 1} -w_ {j} \|}$	-	Método Split-Bregman , entre otros

Ver también

Mínimos cuadrados
Regularización en matemáticas.
Error de generalización , una de las razones por las que se utiliza la regularización.
Regularización de Tikhonov
Regresión de lazo
Regularización de red elástica
Regresión de ángulo mínimo

Referencias

^ Tibshirani Robert (1996). "Contracción de regresión y selección a través del lazo" (PDF) . Revista de la Sociedad Real de Estadística, Serie B . 58 : págs. 266–288.
^ Hui, Zou ; Hastie, Trevor (2003). "Regularización y selección de variables vía Elastic Net" (PDF) . Revista de la Sociedad Real de Estadística, Serie B . 67 (2): págs. 301–320.

enlaces externos

http://www.stanford.edu/~hastie/TALKS/enet_talk.pdf Regularización y selección de variables a través de Elastic Net (presentación)
Mínimos cuadrados regularizados y máquinas de vectores de soporte (presentación)
Mínimos cuadrados regularizados (presentación)

[1] Tibshirani Robert (1996). "Contracción de regresión y selección a través del lazo" (PDF) . Revista de la Sociedad Real de Estadística, Serie B . 58 : págs. 266–288.

[2] Hui, Zou ; Hastie, Trevor (2003). "Regularización y selección de variables vía Elastic Net" (PDF) . Revista de la Sociedad Real de Estadística, Serie B . 67 (2): págs. 301–320.

Mínimos cuadrados regularizados

Formulación general

Formulación de grano

Definición de RKHS

Kernel arbitrario

Complejidad

Predicción

Núcleo lineal

Complejidad

Mapas de características y teorema de Mercer

Interpretación bayesiana

Ejemplos específicos

Regresión de crestas (o regularización de Tikhonov)

Regresión de lazo

ℓ 0 Penalización

Red elástica

Lista parcial de métodos RLS

Ver también

Referencias

enlaces externos

ℓ ₀ Penalización