La regularización de Tikhonov , llamada así por Andrey Tikhonov , es un método de regularización de problemas mal planteados . La regresión de crestas [a] es un caso especial de regularización de Tikhonov en el que todos los parámetros se regularizan por igual. La regresión de crestas es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal , que ocurre comúnmente en modelos con un gran número de parámetros. [1] En general, el método proporciona una mayor eficiencia en los problemas de estimación de parámetros a cambio de una cantidad tolerable de sesgo (consulte la compensación entre sesgo y varianza ).[2]
En el caso más simple, el problema de una matriz de momentos casi singular se alivia agregando elementos positivos a las diagonales , disminuyendo así su número de condición . De manera análoga al estimador de mínimos cuadrados ordinario, el estimador de cresta simple viene dado por
dónde es la regressand ,es la matriz de diseño ,es la matriz de identidad y el parámetro de crestasirve como el cambio constante de las diagonales de la matriz de momentos. [3] Se puede demostrar que este estimador es la solución al problema de mínimos cuadrados sujeto a la restricción , que se puede expresar como lagrangiano:
que muestra que no es más que el multiplicador de Lagrange de la restricción. En el caso de, en el que la restricción no es vinculante , el estimador de crestas se reduce a mínimos cuadrados ordinarios . A continuación se analiza un enfoque más general de la regularización de Tikhonov.
Historia
La regularización de Tikhonov se ha inventado de forma independiente en muchos contextos diferentes. Se hizo ampliamente conocido por su aplicación a las ecuaciones integrales del trabajo de Andrey Tikhonov [4] [5] [6] [7] [8] y David L. Phillips. [9] Algunos autores utilizan el término regularización de Tikhonov-Phillips . El caso de dimensión finita fue expuesto por Arthur E. Hoerl , quien adoptó un enfoque estadístico, [10] y por Manus Foster, quien interpretó este método como un filtro de Wiener-Kolmogorov (Kriging) . [11] Siguiendo a Hoerl, se conoce en la literatura estadística como regresión de crestas. [12]
Regularización de Tikhonov
Suponga que para una matriz conocida y vector , deseamos encontrar un vector tal que [ aclaración necesaria ]
El método estándar es la regresión lineal de mínimos cuadrados ordinarios. [ aclaración necesaria ] Sin embargo, si no satisface la ecuación o más de una sí, es decir, la solución no es única, se dice que el problema está mal planteado . En tales casos, la estimación de mínimos cuadrados ordinarios conduce a una sobredeterminada , o más a menudo un underdetermined sistema de ecuaciones. La mayoría de los fenómenos del mundo real tienen el efecto de filtros de paso bajo en la dirección de avance donde mapas a . Por lo tanto, al resolver el problema inverso, el mapeo inverso opera como un filtro de paso alto que tiene la tendencia indeseable de amplificar el ruido (los valores propios / valores singulares son más grandes en el mapeo inverso donde eran más pequeños en el mapeo directo). Además, los mínimos cuadrados ordinarios anulan implícitamente todos los elementos de la versión reconstruida de que está en el espacio nulo de , en lugar de permitir que un modelo se utilice como un antecedente para . Mínimos cuadrados ordinarios busca minimizar la suma de los residuos cuadrados , que se pueden escribir de forma compacta como
dónde es la norma euclidiana .
Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización:
para una matriz de Tikhonov adecuadamente elegida . En muchos casos, esta matriz se elige como un múltiplo de la matriz identidad (), dando preferencia a soluciones con normas menores ; esto se conoce como regularización L 2 . [13] En otros casos, los operadores de paso alto (por ejemplo, un operador de diferencia o un operador de Fourier ponderado ) pueden usarse para hacer cumplir la suavidad si se cree que el vector subyacente es mayormente continuo. Esta regularización mejora el acondicionamiento del problema, permitiendo así una solución numérica directa. Una solución explícita, denotada por, es dado por
El efecto de la regularización puede variar según la escala de la matriz. . Paraesto se reduce a la solución de mínimos cuadrados no regularizada, siempre que exista (A T A) −1 .
La regularización L 2 se utiliza en muchos contextos además de la regresión lineal, como la clasificación con regresión logística o máquinas de vectores de soporte , [14] y la factorización matricial. [15]
Regularización generalizada de Tikhonov
Para distribuciones normales multivariadas generales para y el error de datos, se puede aplicar una transformación de las variables para reducir al caso anterior. De manera equivalente, uno puede buscar una minimizar
donde hemos usado para representar la norma ponderada al cuadrado (compárese con la distancia de Mahalanobis ). En la interpretación bayesianaes la matriz de covarianza inversa de, es el valor esperado de, y es la matriz de covarianza inversa de . La matriz de Tikhonov se da luego como una factorización de la matriz.(por ejemplo, la factorización Cholesky ) y se considera un filtro blanqueador .
Este problema generalizado tiene una solución óptima que se puede escribir explícitamente usando la fórmula
o equivalente
Regularización de Lavrentyev
En algunas situaciones, se puede evitar el uso de la transposición , según lo propuesto por Mikhail Lavrentyev . [16] Por ejemplo, si es simétrico positivo definido, es decir , así es su inverso , que por lo tanto se puede utilizar para establecer la norma ponderada al cuadrado en la regularización generalizada de Tikhonov, lo que lleva a minimizar
o, equivalentemente hasta un término constante,
- .
Este problema de minimización tiene una solución óptima que se puede escribir explícitamente usando la fórmula
- ,
que no es más que la solución del problema generalizado de Tikhonov donde
La regularización de Lavrentyev, si corresponde, es ventajosa para la regularización de Tikhonov original, ya que la matriz de Lavrentyev puede estar mejor condicionado, es decir, tener un número de condición más pequeño , en comparación con la matriz de Tikhonov
Regularización en el espacio de Hilbert
Típicamente, los problemas lineales discretos mal condicionados resultan de la discretización de ecuaciones integrales , y se puede formular una regularización de Tikhonov en el contexto original de dimensión infinita. En lo anterior podemos interpretarcomo operador compacto en espacios Hilbert , y y como elementos en el dominio y rango de . El operadores entonces un operador invertible acotado autoadjunto .
Relación con la descomposición de valores singulares y el filtro de Wiener
Con , esta solución de mínimos cuadrados se puede analizar de una manera especial utilizando la descomposición de valores singulares . Dada la descomposición del valor singular
con valores singulares , la solución regularizada de Tikhonov se puede expresar como
dónde tiene valores diagonales
y es cero en otros lugares. Esto demuestra el efecto del parámetro Tikhonov sobre el número de condición del problema regularizado. Para el caso generalizado, se puede derivar una representación similar utilizando una descomposición generalizada de valores singulares . [17]
Finalmente, está relacionado con el filtro Wiener :
donde están los pesos de la salchicha y es el rango de.
Determinación del factor Tikhonov
El parámetro de regularización óptimo generalmente se desconoce y, a menudo, en problemas prácticos se determina mediante un método ad hoc . Un posible enfoque se basa en la interpretación bayesiana que se describe a continuación. Otros enfoques incluyen el principio de discrepancia , la validación cruzada , el método de la curva en L , [18] probabilidad máxima restringida y estimador de riesgo predictivo no sesgado . Grace Wahba demostró que el parámetro óptimo, en el sentido de la validación cruzada de dejar uno fuera minimiza [19] [20]
dónde es la suma residual de cuadrados , yes el número efectivo de grados de libertad .
Usando la descomposición de SVD anterior, podemos simplificar la expresión anterior:
y
Relación con la formulación probabilística
La formulación probabilística de un problema inverso introduce (cuando todas las incertidumbres son gaussianas) una matriz de covarianzaque representa las incertidumbres a priori en los parámetros del modelo y una matriz de covarianzaque representan las incertidumbres sobre los parámetros observados. [21] En el caso especial cuando estas dos matrices son diagonales e isotrópicas, y , y, en este caso, las ecuaciones de la teoría inversa se reducen a las ecuaciones anteriores, con .
Interpretación bayesiana
Aunque al principio la elección de la solución a este problema regularizado puede parecer artificial, y de hecho la matriz Parece bastante arbitrario, el proceso se puede justificar desde un punto de vista bayesiano . Tenga en cuenta que para un problema mal planteado, es necesario introducir algunos supuestos adicionales para obtener una solución única. Estadísticamente, la distribución de probabilidad previa dea veces se considera una distribución normal multivariante . Para simplificar aquí, se hacen las siguientes suposiciones: las medias son cero; sus componentes son independientes; los componentes tienen la misma desviación estándar . Los datos también están sujetos a errores, y los errores entambién se supone que son independientes con media cero y desviación estándar. Bajo estos supuestos, la solución regularizada por Tikhonov es la solución más probable dados los datos y la distribución a priori de, según el teorema de Bayes . [22]
Si el supuesto de normalidad se reemplaza por supuestos de homocedasticidad y falta de correlación de errores , y si todavía se supone una media cero, entonces el teorema de Gauss-Markov implica que la solución es el estimador lineal insesgado mínimo . [23]
Ver también
- El estimador LASSO es otro método de regularización en estadística.
- Regularización de red elástica
- Regularización de matrices
Notas
- ^ En estadística , el método se conoce como regresión de crestas , en aprendizaje automático se conoce como disminución de peso y, con múltiples descubrimientos independientes, también se conoce como el método de Tikhonov-Miller , el método de Phillips-Twomey , la inversión lineal restringida método, regularización L 2 y el método de regularización lineal . Está relacionado con el algoritmo de Levenberg-Marquardt paraproblemas de mínimos cuadrados no lineales .
Referencias
- ^ Kennedy, Peter (2003). Una guía de econometría (Quinta ed.). Cambridge: The MIT Press. págs. 205–206. ISBN 0-262-61183-X.
- ^ Gruber, Marvin (1998). Mejora de la eficiencia por contracción: los estimadores de regresión de James-Stein y Ridge . Boca Ratón: CRC Press. págs. 7–15. ISBN 0-8247-0156-9.
- ^ Para la elección de en la práctica, ver Khalaf, Ghadban; Shukur, Ghazi (2005). "Elección del parámetro de cresta para problemas de regresión". Comunicaciones en estadística: teoría y métodos . 34 (5): 1177–1182. doi : 10.1081 / STA-200056836 . S2CID 122983724 .
- ^ Tikhonov, Andrey Nikolayevich (1943). "Об устойчивости обратных задач" [Sobre la estabilidad de los problemas inversos]. Doklady Akademii Nauk SSSR . 39 (5): 195-198.
- ^ Tikhonov, AN (1963). "О решении некорректно поставленных задач и методе регуляризации". Doklady Akademii Nauk SSSR . 151 : 501–504.. Traducido en "Solución de problemas formulados incorrectamente y método de regularización". Matemáticas soviéticas . 4 : 1035-1038.
- ^ Tikhonov, AN; VY Arsenin (1977). Solución de problemas mal planteados . Washington: Winston & Sons. ISBN 0-470-99124-0.
- ^ Tikhonov, Andrey Nikolayevich; Goncharsky, A .; Stepanov, VV; Yagola, Anatolij Grigorevic (30 de junio de 1995). Métodos numéricos para la solución de problemas planteados . Holanda: Springer Holanda. ISBN 079233583X. Consultado el 9 de agosto de 2018 .
- ^ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S .; Yagola, Anatolij Grigorevic (1998). Problemas no lineales mal planteados . Londres: Chapman & Hall. ISBN 0412786605. Consultado el 9 de agosto de 2018 .
- ^ Phillips, DL (1962). "Una técnica para la solución numérica de ciertas ecuaciones integrales de primer tipo". Revista de la ACM . 9 : 84–97. doi : 10.1145 / 321105.321114 . S2CID 35368397 .
- ^ Hoerl, Arthur E. (1962). "Aplicación del análisis de crestas a problemas de regresión". Progreso de la ingeniería química . 58 (3): 54–59.
- ^ Foster, M. (1961). "Una aplicación de la teoría de suavizado de Wiener-Kolmogorov a la inversión matricial". Revista de la Sociedad de Matemáticas Industriales y Aplicadas . 9 (3): 387–392. doi : 10.1137 / 0109031 .
- ^ Hoerl, AE; RW Kennard (1970). "Regresión de cresta: estimación sesgada para problemas no ortogonales". Tecnometría . 12 (1): 55–67. doi : 10.1080 / 00401706.1970.10488634 .
- ^ Ng, Andrew Y. (2004). Selección de características, regularización L1 vs. L2 e invariancia rotacional (PDF) . Proc. ICML .
- ^ RE. Ventilador; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (2008). "LIBLINEAR: una biblioteca para grandes clasificaciones lineales". Revista de investigación sobre aprendizaje automático . 9 : 1871-1874.
- ^ Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo (2012). "Factorización de matrices no negativas en línea con aproximación estocástica robusta". Transacciones IEEE en redes neuronales y sistemas de aprendizaje . 23 (7): 1087–1099. doi : 10.1109 / TNNLS.2012.2197827 . PMID 24807135 . S2CID 8755408 .
- ^ Lavrentiev, MM (1967). Algunos problemas de física matemática planteados incorrectamente . Nueva York: Springer.
- ^ Hansen, Per Christian (1 de enero de 1998). Problemas de rango deficiente y discretos mal planteados: aspectos numéricos de la inversión lineal (1ª ed.). Filadelfia, Estados Unidos: SIAM. ISBN 9780898714036.
- ^ PC Hansen, "La curva L y su uso en el tratamiento numérico de problemas inversos", [1]
- ^ Wahba, G. (1990). "Modelos de spline para datos de observación". Serie de conferencias regionales de CBMS-NSF sobre matemáticas aplicadas . Sociedad de Matemáticas Industriales y Aplicadas. Bibcode : 1990smod.conf ..... W .
- ^ Golub, G .; Heath, M .; Wahba, G. (1979). "Validación cruzada generalizada como método para elegir un buen parámetro de cresta" (PDF) . Tecnometría . 21 (2): 215-223. doi : 10.1080 / 00401706.1979.10489751 .
- ^ Tarantola, Albert (2005). Teoría del problema inverso y métodos para la estimación de parámetros del modelo (1ª ed.). Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas (SIAM). ISBN 0898717922. Consultado el 9 de agosto de 2018 .
- ^ Vogel, Curtis R. (2002). Métodos computacionales para problemas inversos . Filadelfia: Sociedad de Matemáticas Industriales y Aplicadas. ISBN 0-89871-550-4.
- ^ Amemiya, Takeshi (1985). Econometría avanzada . Prensa de la Universidad de Harvard. págs. 60–61 . ISBN 0-674-00560-0.
Otras lecturas
- Gruber, Marvin (1998). Mejora de la eficiencia por contracción: los estimadores de regresión de James-Stein y Ridge . Boca Ratón: CRC Press. ISBN 0-8247-0156-9.
- Kress, Rainer (1998). "Regularización de Tikhonov" . Análisis numérico . Nueva York: Springer. págs. 86–90. ISBN 0-387-98408-9.
- Presione, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Sección 19.5. Métodos de regularización lineal" . Recetas numéricas: el arte de la informática científica (3ª ed.). Nueva York: Cambridge University Press. ISBN 978-0-521-88068-8.
- Saleh, AK Md. Ehsanes; Arashi, Mohammad; Kibria, BM Golam (2019). Teoría de la estimación de regresión de crestas con aplicaciones . Nueva York: John Wiley & Sons. ISBN 978-1-118-64461-4.
- Taddy, Matt (2019). "Regularización" . Ciencia de datos empresariales: combinación de aprendizaje automático y economía para optimizar, automatizar y acelerar las decisiones empresariales . Nueva York: McGraw-Hill. págs. 69-104. ISBN 978-1-260-45277-8.