El siguiente teorema del Representante y su demostración se deben a Schölkopf , Herbrich y Smola:
Teorema: considere un kernel de valor real definido positivo en un conjunto no vacío con un espacio de Hilbert del núcleo de reproducción correspondiente . Que se dé
una muestra de entrenamiento ,
una función de valor real estrictamente creciente , y
una función de error arbitraria ,
que en conjunto definen el siguiente riesgo empírico regularizado funcional en :
Entonces, cualquier minimizador del riesgo empírico
admite una representación de la forma:
dónde para todos .
Prueba: Defina un mapeo
(así que eso es en sí mismo un mapa ). Desde es un kernel en reproducción, entonces
dónde es el producto interior en .
Dado cualquier , se puede utilizar la proyección ortogonal para descomponer cualquier en una suma de dos funciones, una que se encuentra en , y el otro en el complemento ortogonal:
dónde para todos .
La descomposición ortogonal anterior y la propiedad de reproducción juntas muestran que la aplicación a cualquier punto de entrenamiento produce
que observamos es independiente de . En consecuencia, el valor de la función de error en (*) es igualmente independiente de . Para el segundo término (el término de regularización), ya que es ortogonal a y es estrictamente monótono, tenemos
Por lo tanto, estableciendo no afecta el primer término de (*), mientras que disminuye estrictamente el segundo término. En consecuencia, cualquier minimizador en (*) debe tener , es decir, debe tener la forma
que es el resultado deseado.
Generalizaciones
El teorema establecido anteriormente es un ejemplo particular de una familia de resultados que se denominan colectivamente "teoremas del representante"; aquí describimos varios de ellos.
El primer enunciado de un teorema del representador se debió a Kimeldorf y Wahba para el caso especial en el que
por . Schölkopf, Herbrich y Smola generalizaron este resultado relajando la suposición del costo de pérdida al cuadrado y permitiendo que el regularizador sea cualquier función estrictamente creciente monótona de la norma espacial de Hilbert.
Es posible generalizar aún más aumentando la función de riesgo empírico regularizado mediante la adición de términos de compensación no penalizados. Por ejemplo, Schölkopf, Herbrich y Smola también consideran la minimización
es decir, consideramos funciones de la forma , dónde y es una función no penalizada que se encuentra en el intervalo de un conjunto finito de funciones de valor real . Bajo el supuesto de que el matriz tiene rango , muestran que el minimizador en admite una representación de la forma
dónde y el todos están determinados de forma única.
Las condiciones bajo las cuales existe un teorema del representador fueron investigadas por Argyriou, Micchelli y Pontil, quienes demostraron lo siguiente:
Teorema: Sea ser un conjunto no vacío, un kernel de valor real definido positivo en con el correspondiente espacio de Hilbert del núcleo de reproducción , y deja ser una función de regularización diferenciable. Luego, dada una muestra de entrenamiento y una función de error arbitraria , un minimizador
del riesgo empírico regularizado admite una representación de la forma
dónde para todos , si y solo si existe una función no decreciente para cual
Efectivamente, este resultado proporciona una condición necesaria y suficiente en un regularizador diferenciable bajo el cual la correspondiente minimización empírica regularizada del riesgo tendrá un teorema del representador. En particular, esto muestra que una amplia clase de minimizaciones de riesgo regularizadas (mucho más amplias que las originalmente consideradas por Kimeldorf y Wahba) tienen teoremas representativos.
Aplicaciones
Los teoremas de Representer son útiles desde un punto de vista práctico porque simplifican drásticamente el problema empírico regularizado de minimización de riesgos.. En las aplicaciones más interesantes, el dominio de búsqueda para la minimización será un subespacio de dimensión infinita de , y por lo tanto la búsqueda (tal como está escrita) no admite implementación en computadoras de memoria finita y precisión finita. Por el contrario, la representación de proporcionado por un teorema del representador reduce el problema de minimización original (dimensión infinita) a una búsqueda del óptimo -vector dimensional de coeficientes ; luego se puede obtener aplicando cualquier algoritmo estándar de minimización de funciones. En consecuencia, los teoremas del representador proporcionan la base teórica para la reducción del problema general del aprendizaje automático a algoritmos que realmente se pueden implementar en las computadoras en la práctica.
A continuación se proporciona un ejemplo de cómo resolver el minimizador cuya existencia está garantizada por el teorema del representador. Este método funciona para cualquier kernel definido positivo, y nos permite transformar un problema de optimización complicado (posiblemente de dimensión infinita) en un sistema lineal simple que se puede resolver numéricamente.
Suponga que estamos usando una función de error de mínimos cuadrados
y una función de regularización para algunos . Por el teorema del representador, el minimizador
tiene la forma
para algunos . Señalando que
vemos eso tiene la forma
dónde y . Esto se puede factorizar y simplificar para
Desde es positivo definido, de hecho hay un mínimo global único para esta expresión. Dejar y nota que es convexo. Luego, los mínimos globales, se pueden resolver configurando . Recordando que todas las matrices definidas positivas son invertibles, vemos que
por lo que el minimizador se puede encontrar mediante una resolución lineal.
Argyriou, Andreas; Micchelli, Charles A .; Pontil, Massimiliano (2009). "¿Cuándo hay un teorema de representador? Vector versus regularizadores matriciales". Revista de investigación sobre aprendizaje automático . 10 (diciembre): 2507–2529.
Schölkopf, Bernhard; Herbrich, Ralf; Smola, Alex J. (2001). Un teorema del representante generalizado . Teoría del aprendizaje computacional . Apuntes de conferencias en Ciencias de la Computación. 2111 . págs. 416–426. CiteSeerX 10.1.1.42.8617 . doi : 10.1007 / 3-540-44581-1_27 . ISBN 978-3-540-42343-0.