Representante teorema

En la teoría del aprendizaje estadístico , un teorema del representador es cualquiera de varios resultados relacionados que indican que un minimizador ${\ Displaystyle f ^ {*}}$ de un funcional de riesgo empírico regularizado definido sobre un núcleo de reproducción El espacio de Hilbert se puede representar como una combinación lineal finita de productos del núcleo evaluados en los puntos de entrada en los datos del conjunto de entrenamiento.

Declaración formal

El siguiente teorema del Representante y su demostración se deben a Schölkopf , Herbrich y Smola:

Teorema: considere un kernel de valor real definido positivo ${\ Displaystyle k: {\ mathcal {X}} \ times {\ mathcal {X}} \ to \ mathbb {R}}$ en un conjunto no vacío ${\ Displaystyle {\ mathcal {X}}}$ con un espacio de Hilbert del núcleo de reproducción correspondiente ${\ Displaystyle H_ {k}}$ . Que se dé

una muestra de entrenamiento ${\ Displaystyle (x_ {1}, y_ {1}), \ dotsc, (x_ {n}, y_ {n}) \ in {\ mathcal {X}} \ times \ mathbb {R}}$ ,
una función de valor real estrictamente creciente ${\ Displaystyle g \ colon [0, \ infty) \ to \ mathbb {R}}$ , y
una función de error arbitraria ${\ Displaystyle E \ colon ({\ mathcal {X}} \ times \ mathbb {R} ^ {2}) ^ {n} \ to \ mathbb {R} \ cup \ lbrace \ infty \ rbrace}$ ,

que en conjunto definen el siguiente riesgo empírico regularizado funcional en ${\ Displaystyle H_ {k}}$ :

{\ Displaystyle f \ mapsto E \ left ((x_ {1}, y_ {1}, f (x_ {1})), ..., (x_ {n}, y_ {n}, f (x_ {n) })) \ right) + g \ left (\ lVert f \ rVert \ right).}

Entonces, cualquier minimizador del riesgo empírico

{\ Displaystyle f ^ {*} = \ operatorname {argmin} _ {f \ in H_ {k}} \ left \ lbrace E \ left ((x_ {1}, y_ {1}, f (x_ {1}) ), ..., (x_ {n}, y_ {n}, f (x_ {n})) \ right) + g \ left (\ lVert f \ rVert \ right) \ right \ rbrace, \ quad (* )}

admite una representación de la forma:

{\ Displaystyle f ^ {*} (\ cdot) = \ sum _ {i = 1} ^ {n} \ alpha _ {i} k (\ cdot, x_ {i}),}

dónde ${\ Displaystyle \ alpha _ {i} \ in \ mathbb {R}}$ para todos ${\ Displaystyle 1 \ leq i \ leq n}$ .

Prueba: Defina un mapeo

{\ Displaystyle {\ begin {alineado} \ varphi \ colon {\ mathcal {X}} & \ to H_ {k} \\\ varphi (x) & = k (\ cdot, x) \ end {alineado}}}

(así que eso ${\ Displaystyle \ varphi (x) = k (\ cdot, x)}$ es en sí mismo un mapa ${\ Displaystyle {\ mathcal {X}} \ to \ mathbb {R}}$ ). Desde ${\ Displaystyle k}$ es un kernel en reproducción, entonces

{\ Displaystyle \ varphi (x) (x ') = k (x', x) = \ langle \ varphi (x '), \ varphi (x) \ rangle,}

dónde ${\ Displaystyle \ langle \ cdot, \ cdot \ rangle}$ es el producto interior en ${\ Displaystyle H_ {k}}$ .

Dado cualquier ${\ Displaystyle x_ {1}, ..., x_ {n}}$ , se puede utilizar la proyección ortogonal para descomponer cualquier ${\ Displaystyle f \ in H_ {k}}$ en una suma de dos funciones, una que se encuentra en ${\ Displaystyle \ operatorname {span} \ left \ lbrace \ varphi (x_ {1}), ..., \ varphi (x_ {n}) \ right \ rbrace}$ , y el otro en el complemento ortogonal:

{\ Displaystyle f = \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ varphi (x_ {i}) + v,}

dónde ${\ Displaystyle \ langle v, \ varphi (x_ {i}) \ rangle = 0}$ para todos ${\ Displaystyle i}$ .

La descomposición ortogonal anterior y la propiedad de reproducción juntas muestran que la aplicación ${\ Displaystyle f}$ a cualquier punto de entrenamiento ${\ Displaystyle x_ {j}}$ produce

{\ Displaystyle f (x_ {j}) = \ left \ langle \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ varphi (x_ {i}) + v, \ varphi (x_ {j }) \ right \ rangle = \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ langle \ varphi (x_ {i}), \ varphi (x_ {j}) \ rangle,}

que observamos es independiente de ${\ Displaystyle v}$ . En consecuencia, el valor de la función de error ${\ Displaystyle E}$ en (*) es igualmente independiente de ${\ Displaystyle v}$ . Para el segundo término (el término de regularización), ya que ${\ Displaystyle v}$ es ortogonal a ${\ Displaystyle \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ varphi (x_ {i})}$ y ${\ Displaystyle g}$ es estrictamente monótono, tenemos

{\ Displaystyle {\ begin {alineado} g \ left (\ lVert f \ rVert \ right) & = g \ left (\ lVert \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ varphi ( x_ {i}) + v \ rVert \ right) \\ & = g \ left ({\ sqrt {\ lVert \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ varphi (x_ {i }) \ rVert ^ {2} + \ lVert v \ rVert ^ {2}}} \ right) \\ & \ geq g \ left (\ lVert \ sum _ {i = 1} ^ {n} \ alpha _ { i} \ varphi (x_ {i}) \ rVert \ right). \ end {alineado}}}

Por lo tanto, estableciendo ${\ Displaystyle v = 0}$ no afecta el primer término de (*), mientras que disminuye estrictamente el segundo término. En consecuencia, cualquier minimizador ${\ Displaystyle f ^ {*}}$ en (*) debe tener ${\ Displaystyle v = 0}$ , es decir, debe tener la forma

{\ Displaystyle f ^ {*} (\ cdot) = \ sum _ {i = 1} ^ {n} \ alpha _ {i} \ varphi (x_ {i}) = \ sum _ {i = 1} ^ { n} \ alpha _ {i} k (\ cdot, x_ {i}),}

que es el resultado deseado.

Generalizaciones

El teorema establecido anteriormente es un ejemplo particular de una familia de resultados que se denominan colectivamente "teoremas del representante"; aquí describimos varios de ellos.

El primer enunciado de un teorema del representador se debió a Kimeldorf y Wahba para el caso especial en el que

{\ Displaystyle {\ begin {alineado} E \ left ((x_ {1}, y_ {1}, f (x_ {1})), ..., (x_ {n}, y_ {n}, f ( x_ {n})) \ right) & = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} (f (x_ {i}) - y_ {i}) ^ {2 }, \\ g (\ lVert f \ rVert) & = \ lambda \ lVert f \ rVert ^ {2} \ end {alineado}}}

por ${\ Displaystyle \ lambda> 0}$ . Schölkopf, Herbrich y Smola generalizaron este resultado relajando la suposición del costo de pérdida al cuadrado y permitiendo que el regularizador sea cualquier función estrictamente creciente monótona ${\ Displaystyle g (\ cdot)}$ de la norma espacial de Hilbert.

Es posible generalizar aún más aumentando la función de riesgo empírico regularizado mediante la adición de términos de compensación no penalizados. Por ejemplo, Schölkopf, Herbrich y Smola también consideran la minimización

{\ Displaystyle {\ tilde {f}} ^ {*} = \ operatorname {argmin} \ left \ lbrace E \ left ((x_ {1}, y_ {1}, {\ tilde {f}} (x_ {1 })), ..., (x_ {n}, y_ {n}, {\ tilde {f}} (x_ {n})) \ right) + g \ left (\ lVert f \ rVert \ right) \ mid {\ tilde {f}} = f + h \ in H_ {k} \ oplus \ operatorname {span} \ lbrace \ psi _ {p} \ mid 1 \ leq p \ leq M \ rbrace \ right \ rbrace, \ quad (\ daga)}

es decir, consideramos funciones de la forma ${\ Displaystyle {\ tilde {f}} = f + h}$ , dónde ${\ Displaystyle f \ in H_ {k}}$ y ${\ Displaystyle h}$ es una función no penalizada que se encuentra en el intervalo de un conjunto finito de funciones de valor real ${\ Displaystyle \ lbrace \ psi _ {p} \ colon {\ mathcal {X}} \ to \ mathbb {R} \ mid 1 \ leq p \ leq M \ rbrace}$ . Bajo el supuesto de que el ${\ Displaystyle m \ times M}$ matriz ${\ Displaystyle \ left (\ psi _ {p} (x_ {i}) \ right) _ {ip}}$ tiene rango ${\ Displaystyle M}$ , muestran que el minimizador ${\ Displaystyle {\ tilde {f}} ^ {*}}$ en ${\ Displaystyle (\ daga)}$ admite una representación de la forma

{\ Displaystyle {\ tilde {f}} ^ {*} (\ cdot) = \ sum _ {i = 1} ^ {n} \ alpha _ {i} k (\ cdot, x_ {i}) + \ sum _ {p = 1} ^ {M} \ beta _ {p} \ psi _ {p} (\ cdot)}

dónde ${\ Displaystyle \ alpha _ {i}, \ beta _ {p} \ in \ mathbb {R}}$ y el ${\ Displaystyle \ beta _ {p}}$ todos están determinados de forma única.

Las condiciones bajo las cuales existe un teorema del representador fueron investigadas por Argyriou, Micchelli y Pontil, quienes demostraron lo siguiente:

Teorema: Sea ${\ Displaystyle {\ mathcal {X}}}$ ser un conjunto no vacío, ${\ Displaystyle k}$ un kernel de valor real definido positivo en ${\ Displaystyle {\ mathcal {X}} \ times {\ mathcal {X}}}$ con el correspondiente espacio de Hilbert del núcleo de reproducción ${\ Displaystyle H_ {k}}$ , y deja ${\ Displaystyle R \ dos puntos H_ {k} \ to \ mathbb {R}}$ ser una función de regularización diferenciable. Luego, dada una muestra de entrenamiento ${\ Displaystyle (x_ {1}, y_ {1}), ..., (x_ {n}, y_ {n}) \ in {\ mathcal {X}} \ times \ mathbb {R}}$ y una función de error arbitraria ${\ Displaystyle E \ colon ({\ mathcal {X}} \ times \ mathbb {R} ^ {2}) ^ {m} \ to \ mathbb {R} \ cup \ lbrace \ infty \ rbrace}$ , un minimizador

{\ Displaystyle f ^ {*} = \ operatorname {argmin} _ {f \ in H_ {k}} \ left \ lbrace E \ left ((x_ {1}, y_ {1}, f (x_ {1}) ), ..., (x_ {n}, y_ {n}, f (x_ {n})) \ right) + R (f) \ right \ rbrace \ quad (\ ddagger)}

del riesgo empírico regularizado admite una representación de la forma

{\ Displaystyle f ^ {*} (\ cdot) = \ sum _ {i = 1} ^ {n} \ alpha _ {i} k (\ cdot, x_ {i}),}

dónde ${\ Displaystyle \ alpha _ {i} \ in \ mathbb {R}}$ para todos ${\ Displaystyle 1 \ leq i \ leq n}$ , si y solo si existe una función no decreciente ${\ Displaystyle h \ colon [0, \ infty) \ to \ mathbb {R}}$ para cual

{\ Displaystyle R (f) = h (\ lVert f \ rVert).}

Efectivamente, este resultado proporciona una condición necesaria y suficiente en un regularizador diferenciable ${\ Displaystyle R (\ cdot)}$ bajo el cual la correspondiente minimización empírica regularizada del riesgo ${\ Displaystyle (\ ddagger)}$ tendrá un teorema del representador. En particular, esto muestra que una amplia clase de minimizaciones de riesgo regularizadas (mucho más amplias que las originalmente consideradas por Kimeldorf y Wahba) tienen teoremas representativos.

Aplicaciones

Los teoremas de Representer son útiles desde un punto de vista práctico porque simplifican drásticamente el problema empírico regularizado de minimización de riesgos. ${\ Displaystyle (\ ddagger)}$ . En las aplicaciones más interesantes, el dominio de búsqueda ${\ Displaystyle H_ {k}}$ para la minimización será un subespacio de dimensión infinita de ${\ Displaystyle L ^ {2} ({\ mathcal {X}})}$ , y por lo tanto la búsqueda (tal como está escrita) no admite implementación en computadoras de memoria finita y precisión finita. Por el contrario, la representación de ${\ Displaystyle f ^ {*} (\ cdot)}$ proporcionado por un teorema del representador reduce el problema de minimización original (dimensión infinita) a una búsqueda del óptimo ${\ Displaystyle n}$ -vector dimensional de coeficientes ${\ Displaystyle \ alpha = (\ alpha _ {1}, ..., \ alpha _ {n}) \ in \ mathbb {R} ^ {n}}$ ; ${\ Displaystyle \ alpha}$ luego se puede obtener aplicando cualquier algoritmo estándar de minimización de funciones. En consecuencia, los teoremas del representador proporcionan la base teórica para la reducción del problema general del aprendizaje automático a algoritmos que realmente se pueden implementar en las computadoras en la práctica.

A continuación se proporciona un ejemplo de cómo resolver el minimizador cuya existencia está garantizada por el teorema del representador. Este método funciona para cualquier kernel definido positivo ${\ Displaystyle K}$ , y nos permite transformar un problema de optimización complicado (posiblemente de dimensión infinita) en un sistema lineal simple que se puede resolver numéricamente.

Suponga que estamos usando una función de error de mínimos cuadrados

{\ Displaystyle E [(x_ {1}, y_ {1}, f (x_ {1})), \ dots, (x_ {n}, y_ {n}, f (x_ {n}))]: = \ sum _ {j = 1} ^ {n} (y_ {i} -f (x_ {i})) ^ {2}}

y una función de regularización ${\ Displaystyle g (x) = \ lambda x ^ {2}}$ para algunos ${\ Displaystyle \ lambda> 0}$ . Por el teorema del representador, el minimizador

{\ Displaystyle f ^ {*} = \ mathrm {argmin} _ {f \ in {\ mathcal {H}}} {\ Big \ {} E [(x_ {1}, y_ {1}, f (x_ { 1})), \ puntos, (x_ {n}, y_ {n}, f (x_ {n}))] + g (|| f || _ {\ mathcal {H}}) {\ Big \} } = \ mathrm {argmin} _ {f \ in {\ mathcal {H}}} \ left \ {\ sum _ {i = 1} ^ {n} (y_ {i} -f (x_ {i})) ^ {2} + \ lambda || f || _ {\ mathcal {H}} ^ {2} \ right \}}

tiene la forma

{\ Displaystyle f ^ {*} (x) = \ sum _ {i = 1} ^ {n} \ alpha _ {i} ^ {*} k (x, x_ {i})}

para algunos ${\ Displaystyle \ alpha ^ {*} = (\ alpha _ {1} ^ {*}, \ dots, \ alpha _ {n} ^ {*}) \ in \ mathbb {R} ^ {n}}$ . Señalando que

{\ Displaystyle || f || _ {\ mathcal {H}} ^ {2} = {\ Big \ langle} \ sum _ {i = 1} ^ {n} \ alpha _ {i} ^ {*} k (\ cdot, x_ {i}), \ sum _ {j = 1} ^ {n} \ alpha _ {j} ^ {*} k (\ cdot, x_ {j}) {\ Big \ rangle} _ { \ mathcal {H}} = \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} \ alpha _ {i} ^ {*} \ alpha _ {j} ^ {* } {\ big \ langle} k (\ cdot, x_ {i}), k (\ cdot, x_ {j}) {\ big \ rangle} _ {\ mathcal {H}} = \ sum _ {i = 1 } ^ {n} \ sum _ {j = 1} ^ {n} \ alpha _ {i} ^ {*} \ alpha _ {j} ^ {*} k (x_ {i}, x_ {j}), }

vemos eso ${\ Displaystyle \ alpha ^ {*}}$ tiene la forma

{\ Displaystyle \ alpha ^ {*} = \ mathrm {argmin} _ {\ alpha \ in \ mathbb {R} ^ {n}} \ left \ {\ sum _ {i = 1} ^ {n} \ left ( y_ {i} - \ sum _ {j = 1} ^ {n} \ alpha _ {i} k (x_ {j}, x_ {i}) \ right) ^ {2} + \ lambda || f || _ {\ mathcal {H}} ^ {2} \ right \} = \ mathrm {argmin} _ {\ alpha \ in \ mathbb {R} ^ {n}} \ left \ {|| yA \ alpha || ^ {2} + \ lambda \ alpha ^ {\ intercal} A \ alpha \ right \}.}

dónde ${\ Displaystyle A_ {ij} = k (x_ {j}, x_ {i})}$ y ${\ Displaystyle y = (y_ {1}, \ dots, y_ {n})}$ . Esto se puede factorizar y simplificar para

{\ Displaystyle \ alpha ^ {*} = \ mathrm {argmin} _ {\ alpha \ in \ mathbb {R} ^ {n}} \ left \ {\ alpha ^ {\ intercal} (A ^ {\ intercal} A + \ lambda A) \ alpha -2 \ alpha ^ {\ intercal} Ay \ right \}.}

Desde ${\ Displaystyle A ^ {\ intercal} A + \ lambda A}$ es positivo definido, de hecho hay un mínimo global único para esta expresión. Dejar ${\ Displaystyle F (\ alpha) = \ alpha ^ {\ intercal} (A ^ {\ intercal} A + \ lambda A) \ alpha -2 \ alpha ^ {\ intercal} Ay}$ y nota que ${\ Displaystyle F}$ es convexo. Luego ${\ Displaystyle \ alpha ^ {*}}$ , los mínimos globales, se pueden resolver configurando ${\ Displaystyle \ nabla _ {\ alpha} F = 0}$ . Recordando que todas las matrices definidas positivas son invertibles, vemos que

{\ Displaystyle \ nabla _ {\ alpha} F = 2 (A ^ {\ intercal} A + \ lambda A) \ alpha ^ {*} - 2Ay = 0 \ Longrightarrow \ alpha ^ {*} = (A ^ {\ intercal } A + \ lambda A) ^ {- 1} Ay,}

por lo que el minimizador se puede encontrar mediante una resolución lineal.

Ver también

Referencias

Argyriou, Andreas; Micchelli, Charles A .; Pontil, Massimiliano (2009). "¿Cuándo hay un teorema de representador? Vector versus regularizadores matriciales". Revista de investigación sobre aprendizaje automático . 10 (diciembre): 2507–2529.
Cucker, Felipe; Smale, Steve (2002). "Sobre los fundamentos matemáticos del aprendizaje" . Boletín de la American Mathematical Society . 39 (1): 1–49. doi : 10.1090 / S0273-0979-01-00923-5 . Señor 1864085 .
Kimeldorf, George S .; Wahba, Grace (1970). "Una correspondencia entre la estimación bayesiana en procesos estocásticos y suavizado por splines" . Los Anales de Estadística Matemática . 41 (2): 495–502. doi : 10.1214 / aoms / 1177697089 .
Schölkopf, Bernhard; Herbrich, Ralf; Smola, Alex J. (2001). Un teorema del representante generalizado . Teoría del aprendizaje computacional . Apuntes de conferencias en Ciencias de la Computación. 2111 . págs. 416–426. CiteSeerX 10.1.1.42.8617 . doi : 10.1007 / 3-540-44581-1_27 . ISBN 978-3-540-42343-0.