Mínimos cuadrados regularizados

Los mínimos cuadrados regularizados ( RLS ) son una familia de métodos para resolver el problema de los mínimos cuadrados mientras se usa la regularización para restringir aún más la solución resultante.

RLS se utiliza por dos razones principales. El primero surge cuando el número de variables en el sistema lineal excede el número de observaciones. En tales entornos, el problema de los mínimos cuadrados ordinarios está mal planteado y, por lo tanto, es imposible de ajustar porque el problema de optimización asociado tiene infinitas soluciones. RLS permite la introducción de restricciones adicionales que determinan de forma única la solución.

La segunda razón para usar RLS surge cuando el modelo aprendido sufre de mala generalización . RLS se puede usar en tales casos para mejorar la capacidad de generalización del modelo al restringirlo en el tiempo de entrenamiento. Esta restricción puede obligar a que la solución sea "escasa" de alguna manera o reflejar otro conocimiento previo sobre el problema, como información sobre correlaciones entre características. Se puede llegar a una comprensión bayesiana de esto mostrando que los métodos RLS a menudo son equivalentes a los métodos previos en la solución del problema de los mínimos cuadrados.

Considere un escenario de aprendizaje dado por un espacio probabilístico , . Denotemos un conjunto de entrenamiento de pares iid con respecto a . Sea una función de pérdida. Definir como el espacio de las funciones tal que el riesgo esperado: ${\ estilo de visualización (X \ veces Y, \ rho (X, Y))}$ ${\ estilo de visualización Y \ en R}$ $S=\{x_{i},y_{i}\}_{i=1}^{n}$ ${\ estilo de visualización n}$ ${\ estilo de visualización \ rho}$ $V:Y\times R\rightarrow [0;\infty )$ ${\ estilo de visualización F}$

Dado que el problema no se puede resolver exactamente, es necesario especificar cómo medir la calidad de una solución. Un buen algoritmo de aprendizaje debería proporcionar un estimador con un riesgo pequeño.

Como normalmente se desconoce la distribución conjunta , se asume el riesgo empírico. Para mínimos cuadrados regularizados se introduce la función de pérdida cuadrática: ${\ estilo de visualización \ rho}$