Teoría del aprendizaje estadístico

La teoría del aprendizaje estadístico es un marco para el aprendizaje automático que se basa en los campos de la estadística y el análisis funcional . ^[1]^[2] La teoría del aprendizaje estadístico se ocupa del problema de encontrar una función predictiva basada en datos. La teoría del aprendizaje estadístico ha dado lugar a aplicaciones exitosas en campos como la visión por computadora , el reconocimiento de voz y la bioinformática .

Introducción

Los objetivos del aprendizaje son la comprensión y la predicción. El aprendizaje se divide en muchas categorías, incluido el aprendizaje supervisado , el aprendizaje no supervisado , el aprendizaje en línea y el aprendizaje reforzado . Desde la perspectiva de la teoría del aprendizaje estadístico, el aprendizaje supervisado se comprende mejor. ^[3] El aprendizaje supervisado implica aprender de un conjunto de datos de formación . Cada punto del entrenamiento es un par de entrada-salida, donde la entrada se asigna a una salida. El problema de aprendizaje consiste en inferir la función que se correlaciona entre la entrada y la salida, de modo que la función aprendida pueda usarse para predecir la salida de la entrada futura.

Dependiendo del tipo de salida, los problemas de aprendizaje supervisado son problemas de regresión o problemas de clasificación . Si la salida toma un rango continuo de valores, es un problema de regresión. Usando la ley de Ohm como ejemplo, se podría realizar una regresión con voltaje como entrada y corriente como salida. La regresión encontraría que la relación funcional entre voltaje y corriente es ${\ Displaystyle R}$ , tal que

{\ Displaystyle V = IR}

Los problemas de clasificación son aquellos para los que la salida será un elemento de un conjunto discreto de etiquetas. La clasificación es muy común para las aplicaciones de aprendizaje automático. En el reconocimiento facial , por ejemplo, una imagen del rostro de una persona sería la entrada y la etiqueta de salida sería el nombre de esa persona. La entrada estaría representada por un gran vector multidimensional cuyos elementos representan píxeles en la imagen.

Después de aprender una función basada en los datos del conjunto de entrenamiento, esa función se valida en un conjunto de datos de prueba, datos que no aparecieron en el conjunto de entrenamiento.

Descripción formal

Llevar ${\ Displaystyle X}$ ser el espacio vectorial de todas las entradas posibles, y ${\ Displaystyle Y}$ para ser el espacio vectorial de todas las salidas posibles. La teoría del aprendizaje estadístico toma la perspectiva de que existe una distribución de probabilidad desconocida en el espacio del producto. ${\ Displaystyle Z = X \ times Y}$ , es decir, existe alguna desconocida ${\ Displaystyle p (z) = p ({\ vec {x}}, y)}$ . El conjunto de entrenamiento se compone de ${\ Displaystyle n}$ muestras de esta distribución de probabilidad, y se anota

{\ Displaystyle S = \ {({\ vec {x}} _ {1}, y_ {1}), \ dots, ({\ vec {x}} _ {n}, y_ {n}) \} = \ {{\ vec {z}} _ {1}, \ dots, {\ vec {z}} _ {n} \}}

Cada ${\ Displaystyle {\ vec {x}} _ {i}}$ es un vector de entrada de los datos de entrenamiento, y ${\ Displaystyle y_ {i}}$ es la salida que le corresponde.

En este formalismo, el problema de inferencia consiste en encontrar una función ${\ Displaystyle f: X \ to Y}$ tal que ${\ Displaystyle f ({\ vec {x}}) \ sim y}$ . Dejar ${\ Displaystyle {\ mathcal {H}}}$ ser un espacio de funciones ${\ Displaystyle f: X \ to Y}$ llamado espacio de hipótesis. El espacio de hipótesis es el espacio de funciones a través del cual buscará el algoritmo. Dejar ${\ Displaystyle V (f ({\ vec {x}}), y)}$ ser la función de pérdida , una métrica para la diferencia entre el valor predicho ${\ Displaystyle f ({\ vec {x}})}$ y el valor real ${\ Displaystyle y}$ . El riesgo esperado se define como

{\ Displaystyle I [f] = \ Displaystyle \ int _ {X \ times Y} V (f ({\ vec {x}}), y) \, p ({\ vec {x}}, y) \, d {\ vec {x}} \, dy}

La función de destino, la mejor función posible ${\ Displaystyle f}$ que se puede elegir, viene dado por el ${\ Displaystyle f}$ que satisface

{\ Displaystyle f = \ inf _ {h \ in {\ mathcal {H}}} I [h]}

Porque la distribución de probabilidad ${\ Displaystyle p ({\ vec {x}}, y)}$ se desconoce, se debe utilizar una medida indirecta del riesgo esperado. Esta medida se basa en el conjunto de entrenamiento, una muestra de esta distribución de probabilidad desconocida. Se llama riesgo empírico

{\ Displaystyle I_ {S} [f] = {\ frac {1} {n}} \ Displaystyle \ sum _ {i = 1} ^ {n} V (f ({\ vec {x}} _ {i} ), y_ {i})}

Un algoritmo de aprendizaje que elige la función. ${\ Displaystyle f_ {S}}$ que minimiza el riesgo empírico se llama minimización del riesgo empírico .

Funciones de pérdida

La elección de la función de pérdida es un factor determinante en la función. ${\ Displaystyle f_ {S}}$ que será elegido por el algoritmo de aprendizaje. La función de pérdida también afecta la tasa de convergencia de un algoritmo. Es importante que la función de pérdida sea convexa. ^[4]

Se utilizan diferentes funciones de pérdida según se trate de un problema de regresión o de clasificación.

Regresión

La función de pérdida más común para la regresión es la función de pérdida al cuadrado (también conocida como norma L2 ). Esta función de pérdida familiar se utiliza en la regresión de mínimos cuadrados ordinarios . La forma es:

{\ Displaystyle V (f ({\ vec {x}}), y) = (yf ({\ vec {x}})) ^ {2}}

La pérdida de valor absoluto (también conocida como norma L1 ) también se usa a veces:

{\ Displaystyle V (f ({\ vec {x}}), y) = | yf ({\ vec {x}}) |}

Clasificación

En cierto sentido, la función del indicador 0-1 es la función de pérdida más natural para la clasificación. Toma el valor 0 si la salida predicha es la misma que la salida real, y toma el valor 1 si la salida predicha es diferente de la salida real. Para clasificación binaria con ${\ Displaystyle Y = \ {- 1,1 \}}$ , esto es:

{\ Displaystyle V (f ({\ vec {x}}), y) = \ theta (-yf ({\ vec {x}}))}

dónde ${\ Displaystyle \ theta}$ es la función escalón Heaviside .

Regularización

Esta imagen representa un ejemplo de sobreajuste en el aprendizaje automático. Los puntos rojos representan los datos del conjunto de entrenamiento. La línea verde representa la verdadera relación funcional, mientras que la línea azul muestra la función aprendida, que se ha sobreajustado a los datos del conjunto de entrenamiento.

En los problemas de aprendizaje automático, un problema importante que surge es el de sobreajuste . Debido a que el aprendizaje es un problema de predicción, el objetivo no es encontrar una función que se ajuste más a los datos (previamente observados), sino encontrar una que prediga con mayor precisión el resultado de la entrada futura. La minimización del riesgo empírico corre el riesgo de sobreajuste: encontrar una función que coincida exactamente con los datos pero que no prediga bien la producción futura.

El sobreajuste es sintomático de soluciones inestables; una pequeña perturbación en los datos del conjunto de entrenamiento causaría una gran variación en la función aprendida. Se puede demostrar que si se puede garantizar la estabilidad de la solución, también se garantizan la generalización y la coherencia. ^[5]^{[6] La} regularización puede resolver el problema de sobreajuste y darle estabilidad.

La regularización se puede lograr restringiendo el espacio de hipótesis ${\ Displaystyle {\ mathcal {H}}}$ . Un ejemplo común sería restringir ${\ Displaystyle {\ mathcal {H}}}$ a funciones lineales: esto puede verse como una reducción al problema estándar de regresión lineal . ${\ Displaystyle {\ mathcal {H}}}$ también podría restringirse al polinomio de grado ${\ Displaystyle p}$ , exponenciales o funciones acotadas en L1 . La restricción del espacio de hipótesis evita el sobreajuste porque la forma de las funciones potenciales es limitada, por lo que no permite la elección de una función que dé un riesgo empírico arbitrariamente cercano a cero.

Un ejemplo de regularización es la regularización de Tikhonov . Consiste en minimizar

{\ Displaystyle {\ frac {1} {n}} \ Displaystyle \ sum _ {i = 1} ^ {n} V (f ({\ vec {x}} _ {i}), y_ {i}) + \ gamma \ | f \ | _ {\ mathcal {H}} ^ {2}}

dónde ${\ Displaystyle \ gamma}$ es un parámetro fijo y positivo, el parámetro de regularización. La regularización de Tikhonov asegura la existencia, singularidad y estabilidad de la solución. ^[7]

Ver también

La reproducción de los espacios de Hilbert del kernel es una opción útil para ${\ Displaystyle {\ mathcal {H}}}$ .
Métodos de gradiente proximal para el aprendizaje.

Referencias

^ Trevor Hastie , Robert Tibshirani, Jerome Friedman (2009) Los elementos del aprendizaje estadístico , Springer-Verlag ISBN 978-0-387-84857-0 .
^ Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . Estados Unidos, Massachusetts: MIT Press. ISBN 9780262018258.
^ Tomaso Poggio, Lorenzo Rosasco, et al. Teoría y aplicaciones del aprendizaje estadístico , 2012, Clase 1
^ Rosasco, L., Vito, ED, Caponnetto, A., Fiana, M. y Verri A. 2004. Neural computation Vol 16, pp 1063-1076
^ Vapnik, VN y Chervonenkis, AY 1971. Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades . Teoría de la probabilidad y sus aplicaciones Vol 16, pp 264-280.
^ Mukherjee, S., Niyogi, P. Poggio, T. y Rifkin, R. 2006. Teoría del aprendizaje: la estabilidad es suficiente para la generalización y necesaria y suficiente para la coherencia de la minimización del riesgo empírico . Avances en Matemática Computacional . Vol 25, págs. 161-193.
^ Tomaso Poggio, Lorenzo Rosasco, et al. Teoría y aplicaciones del aprendizaje estadístico , 2012, Clase 2

[1] Trevor Hastie , Robert Tibshirani, Jerome Friedman (2009) Los elementos del aprendizaje estadístico , Springer-Verlag ISBN 978-0-387-84857-0 .

[2] Mohri, Mehryar ; Rostamizadeh, Afshin; Talwalkar, Ameet (2012). Fundamentos del aprendizaje automático . Estados Unidos, Massachusetts: MIT Press. ISBN 9780262018258.

[3] Tomaso Poggio, Lorenzo Rosasco, et al. Teoría y aplicaciones del aprendizaje estadístico , 2012, Clase 1

[4] Rosasco, L., Vito, ED, Caponnetto, A., Fiana, M. y Verri A. 2004. Neural computation Vol 16, pp 1063-1076

[5] Vapnik, VN y Chervonenkis, AY 1971. Sobre la convergencia uniforme de frecuencias relativas de eventos a sus probabilidades . Teoría de la probabilidad y sus aplicaciones Vol 16, pp 264-280.

[6] Mukherjee, S., Niyogi, P. Poggio, T. y Rifkin, R. 2006. Teoría del aprendizaje: la estabilidad es suficiente para la generalización y necesaria y suficiente para la coherencia de la minimización del riesgo empírico . Avances en Matemática Computacional . Vol 25, págs. 161-193.

[7] Tomaso Poggio, Lorenzo Rosasco, et al. Teoría y aplicaciones del aprendizaje estadístico , 2012, Clase 2

[1]