Minimización de riesgos empíricos

La minimización de riesgos empíricos (ERM) es un principio de la teoría del aprendizaje estadístico que define una familia de algoritmos de aprendizaje y se utiliza para dar límites teóricos a su desempeño. La idea central es que no podemos saber exactamente qué tan bien funcionará un algoritmo en la práctica (el verdadero "riesgo") porque no conocemos la verdadera distribución de los datos con los que funcionará el algoritmo, pero podemos medir su rendimiento en un conjunto conocido de datos de entrenamiento (el riesgo "empírico").

Fondo

Considere la siguiente situación, que es un escenario general de muchos problemas de aprendizaje supervisado . Tenemos dos espacios de objetos ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ y me gustaría aprender una función ${\ Displaystyle \ h: X \ to Y}$ (a menudo llamado hipótesis ) que genera un objeto ${\ Displaystyle y \ in Y}$ , dado ${\ Displaystyle x \ in X}$ . Para ello, tenemos a nuestra disposición un conjunto de formación de ${\ Displaystyle n}$ ejemplos ${\ Displaystyle \ (x_ {1}, y_ {1}), \ ldots, (x_ {n}, y_ {n})}$ dónde ${\ Displaystyle x_ {i} \ in X}$ es una entrada y ${\ Displaystyle y_ {i} \ in Y}$ es la respuesta correspondiente que deseamos obtener de ${\ Displaystyle \ h (x_ {i})}$ .

Para decirlo de manera más formal, asumimos que existe una distribución de probabilidad conjunta ${\ Displaystyle P (x, y)}$ encima ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ , y que el conjunto de entrenamiento consta de ${\ Displaystyle n}$ instancias ${\ Displaystyle \ (x_ {1}, y_ {1}), \ ldots, (x_ {n}, y_ {n})}$ dibujado iid de ${\ Displaystyle P (x, y)}$ . Tenga en cuenta que el supuesto de una distribución de probabilidad conjunta nos permite modelar la incertidumbre en las predicciones (por ejemplo, a partir del ruido en los datos) porque ${\ Displaystyle y}$ no es una función determinista de ${\ Displaystyle x}$ , sino más bien una variable aleatoria con distribución condicional ${\ Displaystyle P (y | x)}$ por un fijo ${\ Displaystyle x}$ .

También asumimos que se nos da una función de pérdida de valor real no negativa ${\ Displaystyle L ({\ hat {y}}, y)}$ que mide qué tan diferente es la predicción ${\ Displaystyle {\ hat {y}}}$ de una hipótesis es del resultado verdadero ${\ Displaystyle y.}$ El riesgo asociado a la hipótesis ${\ Displaystyle h (x)}$ Entonces se define como la expectativa de la función de pérdida:

{\ Displaystyle R (h) = \ mathbf {E} [L (h (x), y)] = \ int L (h (x), y) \, dP (x, y).}

Una función de pérdida comúnmente utilizada en teoría es la función de pérdida 0-1 : ${\ displaystyle L ({\ hat {y}}, y) = {\ begin {cases} 1 & {\ mbox {If}} \ quad {\ hat {y}} \ neq y \\ 0 & {\ mbox {If }} \ quad {\ hat {y}} = y \ end {cases}}}$ .

El objetivo final de un algoritmo de aprendizaje es encontrar una hipótesis ${\ Displaystyle h ^ {*}}$ entre una clase fija de funciones ${\ Displaystyle {\ mathcal {H}}}$ por el cual el riesgo ${\ Displaystyle R (h)}$ es mínimo:

{\ Displaystyle h ^ {*} = \ arg \ min _ {h \ in {\ mathcal {H}}} R (h).}

Minimización de riesgos empíricos

En general, el riesgo ${\ Displaystyle R (h)}$ no se puede calcular porque la distribución ${\ Displaystyle P (x, y)}$ es desconocido para el algoritmo de aprendizaje (esta situación se conoce como aprendizaje agnóstico ). Sin embargo, podemos calcular una aproximación, llamada riesgo empírico , promediando la función de pérdida en el conjunto de entrenamiento:

{\ Displaystyle \! R _ {\ text {emp}} (h) = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} L (h (x_ {i}), y_ {I}).}

El principio empírico de minimización del riesgo ^[1] establece que el algoritmo de aprendizaje debe elegir una hipótesis ${\ Displaystyle {\ hat {h}}}$ que minimiza el riesgo empírico:

{\ Displaystyle {\ hat {h}} = \ arg \ min _ {h \ in {\ mathcal {H}}} R _ {\ text {emp}} (h).}

Así, el algoritmo de aprendizaje definido por el principio ERM consiste en resolver el problema de optimización anterior .

Propiedades

Complejidad computacional

Se sabe que la minimización del riesgo empírico para un problema de clasificación con una función de pérdida de 0-1 es un problema NP-difícil incluso para una clase de funciones tan relativamente simple como los clasificadores lineales . ^[2] Sin embargo, se puede resolver de manera eficiente cuando el riesgo empírico mínimo es cero, es decir, los datos se pueden separar linealmente .

En la práctica, los algoritmos de aprendizaje automático se las arreglan empleando una aproximación convexa a la función de pérdida 0-1 (como la pérdida de bisagra para SVM ), que es más fácil de optimizar, o imponiendo supuestos en la distribución ${\ Displaystyle P (x, y)}$ (y así dejar de ser algoritmos de aprendizaje agnósticos a los que se aplica el resultado anterior).

Ver también

Referencias

^ V. Vapnik (1992). [ http://papers.nips.cc/paper/506-principles-of-risk-minimization-for-learning-theory.pdf Principios de minimización de riesgos para la teoría del aprendizaje. ]
^ V. Feldman, V. Guruswami, P. Raghavendra y Yi Wu (2009). El aprendizaje agnóstico de monomios por medio espacio es difícil. (Consulte el artículo y las referencias que contiene)

Otras lecturas

Vapnik, V. (2000). La naturaleza de la teoría del aprendizaje estadístico . Ciencias de la información y estadística. Springer-Verlag . ISBN 978-0-387-98780-4.

[1] V. Vapnik (1992). [ http://papers.nips.cc/paper/506-principles-of-risk-minimization-for-learning-theory.pdf Principios de minimización de riesgos para la teoría del aprendizaje. ]

[2] V. Feldman, V. Guruswami, P. Raghavendra y Yi Wu (2009). El aprendizaje agnóstico de monomios por medio espacio es difícil. (Consulte el artículo y las referencias que contiene)

[1]