En el aprendizaje automático , los métodos del kernel surgen de la suposición de un espacio de producto interno o una estructura de similitud en las entradas. Para algunos de estos métodos, como las máquinas de vectores de soporte (SVM), la formulación original y su regularización no eran de naturaleza bayesiana. Es útil comprenderlos desde una perspectiva bayesiana . Debido a que los núcleos no son necesariamente semidefinidos positivos, la estructura subyacente puede no ser espacios de productos internos, sino más espacios de Hilbert reproductores del núcleo . En el núcleo de probabilidad bayesiano, los métodos son un componente clave de los procesos gaussianos., donde la función del núcleo se conoce como función de covarianza. Los métodos de kernel se han utilizado tradicionalmente en problemas de aprendizaje supervisado donde el espacio de entrada suele ser un espacio de vectores mientras que el espacio de salida es un espacio de escalares . Más recientemente, estos métodos se han extendido a problemas que tratan con múltiples resultados , como en el aprendizaje de múltiples tareas . [1]
Una equivalencia matemática entre la regularización y el punto de vista bayesiano se demuestra fácilmente en los casos en que el espacio de Hilbert del núcleo que se reproduce es de dimensión finita . El caso de dimensión infinita plantea cuestiones matemáticas sutiles; consideraremos aquí el caso de dimensión finita. Comenzamos con una breve revisión de las ideas principales que subyacen a los métodos del kernel para el aprendizaje escalar y presentamos brevemente los conceptos de regularización y procesos gaussianos. Luego mostramos cómo ambos puntos de vista llegan a estimadores esencialmente equivalentes y mostramos la conexión que los une.
El problema del aprendizaje supervisado
El problema clásico de aprendizaje supervisado requiere estimar la salida para algún nuevo punto de entrada. aprendiendo un estimador con valores escalares sobre la base de un conjunto de formación que consiste en pares de entrada-salida, . [2] Dada una función bivariada simétrica y positivallamado kernel , uno de los estimadores más populares en el aprendizaje automático viene dado por
( 1 )
dónde es la matriz del kernel con entradas, , y . Veremos cómo se puede derivar este estimador tanto desde una regularización como desde una perspectiva bayesiana.
Una perspectiva de regularización
El principal supuesto en la perspectiva de la regularización es que el conjunto de funciones se supone que pertenece a un espacio de Hilbert del núcleo que se reproduce . [2] [3] [4] [5]
Reproducción del espacio de Hilbert del kernel
Un espacio de Hilbert del núcleo de reproducción (RKHS)es un espacio de Hilbert de funciones definida por una simétrica , la función definida positiva llamado el kernel de reproducción de modo que la función pertenece a para todos . [6] [7] [8] Hay tres propiedades principales que hacen que un RKHS sea atractivo:
1. La propiedad de reproducción , que da nombre al espacio,
dónde es el producto interno en .
2. Las funciones en un RKHS están en el cierre de la combinación lineal del kernel en puntos dados,
- .
Esto permite la construcción en un marco unificado de modelos lineales tanto lineales como generalizados.
3. La norma al cuadrado en un RKHS se puede escribir como
y podría considerarse como una medida de la complejidad de la función.
El funcional regularizado
El estimador se deriva como el minimizador del funcional regularizado.
( 2 )
dónde y es la norma en . El primer término de esta funcional, que mide el promedio de los cuadrados de los errores entre los y el , se llama riesgo empírico y representa el costo que pagamos al predecir por el verdadero valor . El segundo término en el funcional es la norma al cuadrado en un RKHS multiplicado por un pesoy sirve para estabilizar el problema [3] [5] , así como para agregar una compensación entre el ajuste y la complejidad del estimador. [2] El peso, llamado regularizador , determina el grado en que la inestabilidad y la complejidad del estimador deben ser penalizadas (penalización más alta por aumentar el valor de).
Derivación del estimador
La forma explícita del estimador en la ecuación ( 1 ) se deriva en dos pasos. Primero, el teorema del representador [9] [10] [11] establece que el minimizador del funcional ( 2 ) siempre se puede escribir como una combinación lineal de los núcleos centrados en los puntos de ajuste de entrenamiento,
( 3 )
para algunos . La forma explícita de los coeficientes se puede encontrar sustituyendo por en lo funcional ( 2 ). Para una función de la forma en la ecuación ( 3 ), tenemos que
Podemos reescribir el funcional ( 2 ) como
Este funcional es convexo en y por lo tanto podemos encontrar su mínimo estableciendo el gradiente con respecto a a cero,
Sustituyendo esta expresión por los coeficientes de la ecuación ( 3 ), obtenemos el estimador indicado anteriormente en la ecuación ( 1 ),
Una perspectiva bayesiana
La noción de núcleo juega un papel crucial en la probabilidad bayesiana como función de covarianza de un proceso estocástico llamado proceso gaussiano .
Una revisión de la probabilidad bayesiana
Como parte del marco bayesiano, el proceso gaussiano especifica la distribución previa que describe las creencias previas sobre las propiedades de la función que se modela. Estas creencias se actualizan después de tener en cuenta los datos observacionales mediante una función de verosimilitud que relaciona las creencias previas con las observaciones. Tomados en conjunto, el anterior y la probabilidad conducen a una distribución actualizada llamada distribución posterior que se usa habitualmente para predecir casos de prueba.
El proceso gaussiano
Un proceso gaussiano (GP) es un proceso estocástico en el que cualquier número finito de variables aleatorias muestreadas sigue una distribución normal conjunta . [12] El vector medio y la matriz de covarianza de la distribución gaussiana especifican completamente el GP. Los GP se usan generalmente como distribución a priori para funciones y, como tal, el vector medio y la matriz de covarianza pueden verse como funciones, donde la función de covarianza también se denomina núcleo de GP. Deja una función seguir un proceso gaussiano con función media y función del kernel ,
En términos de la distribución gaussiana subyacente, tenemos que para cualquier conjunto finito si dejamos luego
dónde es el vector medio y es la matriz de covarianza de la distribución gaussiana multivariante.
Derivación del estimador
En un contexto de regresión, generalmente se asume que la función de verosimilitud es una distribución gaussiana y que las observaciones son independientes e idénticamente distribuidas (iid),
Esta suposición corresponde a las observaciones que se corrompen con ruido gaussiano de media cero con varianza . El supuesto iid hace posible factorizar la función de verosimilitud sobre los puntos de datos dado el conjunto de entradas y la varianza del ruido , y así la distribución posterior se puede calcular analíticamente. Para un vector de entrada de prueba, dados los datos de entrenamiento , la distribución posterior viene dada por
dónde denota el conjunto de parámetros que incluyen la varianza del ruido y cualquier parámetro de la función de covarianza y donde
La conexión entre regularización y Bayes
Una conexión entre la teoría de la regularización y la teoría bayesiana solo se puede lograr en el caso de RKHS de dimensión finita . Bajo este supuesto, la teoría de la regularización y la teoría bayesiana están conectadas a través de la predicción del proceso gaussiano. [3] [12]
En el caso de dimensión finita, cada RKHS se puede describir en términos de un mapa de características tal que [2]
Funciones en RKHS con kernel luego se puede escribir como
y tambien tenemos eso
Ahora podemos construir un proceso gaussiano asumiendo distribuirse de acuerdo con una distribución gaussiana multivariante con media cero y una matriz de covarianza de identidad,
Si asumimos una probabilidad gaussiana, tenemos
dónde . La distribución posterior resultante es la dada por
Podemos ver que una estimación posterior máxima (MAP) es equivalente al problema de minimización que define la regularización de Tikhonov , donde en el caso bayesiano el parámetro de regularización está relacionado con la varianza del ruido.
Desde una perspectiva filosófica, la función de pérdida en un entorno de regularización juega un papel diferente al de la función de verosimilitud en el entorno bayesiano. Mientras que la función de pérdida mide el error en el que se incurre al predecir en lugar de , la función de verosimilitud mide qué tan probables son las observaciones del modelo que se asumió como verdadero en el proceso generativo. Sin embargo, desde una perspectiva matemática, las formulaciones de la regularización y los marcos bayesianos hacen que la función de pérdida y la función de probabilidad tengan el mismo papel matemático de promover la inferencia de funciones. que se aproximan a las etiquetas cuanto más se pueda.
Ver también
- Mínimos cuadrados regularizados
- Regresión lineal bayesiana
- Interpretación bayesiana de la regularización de Tikhonov
Referencias
- ^ Álvarez, Mauricio A .; Rosasco, Lorenzo; Lawrence, Neil D. (junio de 2011). "Núcleos para funciones con valores vectoriales: una revisión". arXiv : 1106.6251 [ stat.ML ].
- ^ a b c d Vapnik, Vladimir (1998). Teoría del aprendizaje estadístico . Wiley. ISBN 9780471030034.
- ^ a b c Wahba, Grace (1990). Modelos spline para datos de observación . SIAM.
- ^ Schölkopf, Bernhard; Smola, Alexander J. (2002). Aprendizaje con kernels: máquinas de vectores de soporte, regularización, optimización y más . Prensa del MIT. ISBN 9780262194754.
- ^ a b Girosi, F .; Poggio, T. (1990). "Redes y la mejor propiedad de aproximación" (PDF) . Cibernética biológica . Saltador. 63 (3): 169-176. doi : 10.1007 / bf00195855 . hdl : 1721,1 / 6017 .
- ^ Aronszajn, N (mayo de 1950). "Teoría de la reproducción de granos" . Transacciones de la American Mathematical Society . 68 (3): 337–404. doi : 10.2307 / 1990404 . JSTOR 1990404 .
- ^ Schwartz, Laurent (1964). "Sous espaces hilbertiens d'espaces vectoriels topologiques et noyaux associés (noyaux reproduisants)". Journal d'Analyse Mathématique . Saltador. 13 (1): 115–256. doi : 10.1007 / bf02786620 .
- ^ Cucker, Felipe; Smale, Steve (5 de octubre de 2001). "Sobre las bases matemáticas del aprendizaje" . Boletín de la American Mathematical Society . 39 (1): 1–49. doi : 10.1090 / s0273-0979-01-00923-5 .
- ^ Kimeldorf, George S .; Wahba, Grace (1970). "Una correspondencia entre la estimación bayesiana en procesos estocásticos y suavizado por splines" . Los Anales de Estadística Matemática . 41 (2): 495–502. doi : 10.1214 / aoms / 1177697089 .
- ^ Schölkopf, Bernhard; Herbrich, Ralf; Smola, Alex J. (2001). "Un teorema del representante generalizado". COLT / EuroCOLT 2001, LNCS . Apuntes de conferencias en informática. 2111/2001: 416–426. doi : 10.1007 / 3-540-44581-1_27 . ISBN 978-3-540-42343-0.
- ^ De Vito, Ernesto; Rosasco, Lorenzo; Caponnetto, Andrea; Piana, Michele; Verri, Alessandro (octubre de 2004). "Algunas propiedades de los métodos de kernel regularizados". Revista de investigación sobre aprendizaje automático . 5 : 1363-1390.
- ^ a b Rasmussen, Carl Edward; Williams, Christopher KI (2006). Procesos gaussianos para el aprendizaje automático . La prensa del MIT. ISBN 0-262-18253-X.