Reproducción del espacio de Hilbert del kernel

En el análisis funcional (una rama de las matemáticas ), un espacio de Hilbert del núcleo de reproducción ( RKHS ) es un espacio de funciones de Hilbert en el que la evaluación puntual es un funcional lineal continuo . En términos generales, esto significa que si dos funciones ${\ Displaystyle f}$ y ${\ Displaystyle g}$ en el RKHS están cerca de la norma, es decir, ${\ Displaystyle \ | fg \ |}$ es pequeño, entonces ${\ Displaystyle f}$ y ${\ Displaystyle g}$ también son puntiagudos, es decir, ${\ Displaystyle | f (x) -g (x) |}$ es pequeño para todos ${\ Displaystyle x}$ . Lo contrario no tiene por qué ser cierto.

La figura ilustra enfoques relacionados pero variados para ver RKHS

No es del todo sencillo construir un espacio de funciones de Hilbert que no sea un RKHS. ^[1] Sin embargo, se han encontrado algunos ejemplos. ^[2] ^[3]

Tenga en cuenta que los espacios L ² no son espacios de funciones de Hilbert (y, por tanto, no RKHS), sino más bien espacios de Hilbert de clases de equivalencia de funciones (por ejemplo, las funciones ${\ Displaystyle f}$ y ${\ Displaystyle g}$ definido por ${\ Displaystyle f (x) = 0}$ y ${\ Displaystyle g (x) = 1 _ {\ mathbb {Q}}}$ son equivalentes en L ² ). Sin embargo, hay RKHS en los que la norma es una norma L ² , como el espacio de funciones de banda limitada (ver el ejemplo a continuación).

Un RKHS está asociado con un kernel que reproduce cada función en el espacio en el sentido de que para cualquier ${\ Displaystyle x}$ en el conjunto en el que se definen las funciones, "evaluación en ${\ Displaystyle x}$ "se puede realizar tomando un producto interno con una función determinada por el núcleo. Tal núcleo de reproducción existe si y sólo si cada función de evaluación es continua.

El núcleo de reproducción se introdujo por primera vez en el trabajo de 1907 de Stanisław Zaremba sobre problemas de valor límite para funciones armónicas y biharmónicas . James Mercer examinó simultáneamente funciones que satisfacen la propiedad de reproducción en la teoría de ecuaciones integrales . La idea del núcleo de reproducción permaneció intacta durante casi veinte años hasta que apareció en las disertaciones de Gábor Szegő , Stefan Bergman y Salomon Bochner . El tema fue finalmente desarrollado sistemáticamente a principios de la década de 1950 por Nachman Aronszajn y Stefan Bergman. ^[4]

Estos espacios tienen amplias aplicaciones, incluido el análisis complejo , el análisis armónico y la mecánica cuántica . La reproducción de los espacios de Hilbert del núcleo es particularmente importante en el campo de la teoría del aprendizaje estadístico debido al célebre teorema del representador que establece que cada función en un RKHS que minimiza una función de riesgo empírico puede escribirse como una combinación lineal de la función del núcleo evaluada en los puntos de entrenamiento. . Este es un resultado prácticamente útil ya que simplifica eficazmente el problema de minimización del riesgo empírico de un problema de optimización de dimensión infinita a uno de dimensión finita.

Para facilitar la comprensión, proporcionamos el marco para espacios Hilbert de valor real. La teoría puede extenderse fácilmente a espacios de funciones con valores complejos y, por lo tanto, incluir los muchos ejemplos importantes de reproducción de espacios de Hilbert del núcleo que son espacios de funciones analíticas . ^[5]

Definición

Dejar ${\ Displaystyle X}$ ser un conjunto arbitrario y ${\ Displaystyle H}$ un espacio de Hilbert de funciones de valor real en ${\ Displaystyle X}$ , equipado con suma puntual y multiplicación escalar puntual. La evaluación funcional sobre el espacio de funciones de Hilbert ${\ Displaystyle H}$ es un funcional lineal que evalúa cada función en un punto ${\ Displaystyle x}$ ,

{\ Displaystyle L_ {x}: f \ mapsto f (x) {\ text {}} \ forall f \ in H.}

Decimos que H es un espacio de Hilbert del núcleo que se reproduce si, para todos ${\ Displaystyle x}$ en ${\ Displaystyle X}$ , ${\ Displaystyle L_ {x}}$ es continuo en cualquier ${\ Displaystyle f}$ en ${\ Displaystyle H}$ o, de manera equivalente, si ${\ Displaystyle L_ {x}}$ es un operador acotado en ${\ Displaystyle H}$ , es decir, existe alguna ${\ Displaystyle M_ {x}> 0}$ tal que

{\ Displaystyle | L_ {x} (f) |: = | f (x) | \ leq M_ {x} \, \ | f \ | _ {H} \ qquad \ forall f \ in H. \,}

( 1 )

Aunque ${\ Displaystyle M_ {x} <\ infty}$ se asume para todos ${\ Displaystyle x \ in X}$ , aún podría darse el caso de que ${\ textstyle \ sup _ {x} M_ {x} = \ infty}$ .

Mientras que la propiedad ( 1 ) es la condición más débil que asegura tanto la existencia de un producto interno como la evaluación de cada función en ${\ Displaystyle H}$ en todos los puntos del dominio, no se presta a una fácil aplicación en la práctica. Se puede obtener una definición más intuitiva del RKHS observando que esta propiedad garantiza que la evaluación funcional puede ser representada tomando el producto interno de ${\ Displaystyle f}$ con una función ${\ Displaystyle K_ {x}}$ en ${\ Displaystyle H}$ . Esta función es el llamado núcleo de reproducción para el espacio de Hilbert. ${\ Displaystyle H}$ de donde el RKHS toma su nombre. Más formalmente, el teorema de representación de Riesz implica que para todos ${\ Displaystyle x}$ en ${\ Displaystyle X}$ existe un elemento único ${\ Displaystyle K_ {x}}$ de ${\ Displaystyle H}$ con la propiedad de reproducción,

{\ Displaystyle f (x) = L_ {x} (f) = \ langle f, \ K_ {x} \ rangle _ {H} \ quad \ forall f \ in H.}

( 2 )

Desde ${\ Displaystyle K_ {x}}$ es en sí misma una función definida en ${\ Displaystyle X}$ con valores en el campo ${\ Displaystyle \ mathbb {R}}$ (o ${\ Displaystyle \ mathbb {C}}$ en el caso de espacios complejos de Hilbert) y como ${\ Displaystyle K_ {x}}$ es en ${\ Displaystyle H}$ tenemos eso

{\ Displaystyle K_ {x} (y) = L_ {y} (K_ {x}) = \ langle K_ {x}, \ K_ {y} \ rangle _ {H},}

dónde ${\ Displaystyle K_ {y} \ in H}$ es el elemento en ${\ Displaystyle H}$ asociado a ${\ Displaystyle L_ {y}}$ .

Esto nos permite definir el núcleo de reproducción de ${\ Displaystyle H}$ como una función ${\ Displaystyle K: X \ times X \ to \ mathbb {R}}$ por

{\ Displaystyle K (x, y) = \ langle K_ {x}, \ K_ {y} \ rangle _ {H}.}

A partir de esta definición, es fácil ver que ${\ Displaystyle K: X \ times X \ to \ mathbb {R}}$ (o ${\ Displaystyle \ mathbb {C}}$ en el caso complejo) es simétrico (respectivamente simétrico conjugado) y definido positivo , es decir

{\ Displaystyle \ sum _ {i, j = 1} ^ {n} c_ {i} c_ {j} K (x_ {i}, x_ {j}) = \ sum _ {i = 1} ^ {n} c_ {i} \ left \ langle K_ {x_ {i}}, \ sum _ {j = 1} ^ {n} c_ {j} K_ {x_ {j}} \ right \ rangle _ {H} = \ left \ langle \ sum _ {i = 1} ^ {n} c_ {i} K_ {x_ {i}}, \ sum _ {j = 1} ^ {n} c_ {j} K_ {x_ {j}} \ right \ rangle _ {H} = \ left \ | \ sum _ {i = 1} ^ {n} c_ {i} K_ {x_ {i}} \ right \ | _ {H} ^ {2} \ geq 0 }

para cualquier ${\ Displaystyle n \ in \ mathbb {N}, x_ {1}, \ dots, x_ {n} \ in X, {\ text {y}} c_ {1}, \ dots, c_ {n} \ in \ mathbb {R}.}$ ^[6] El teorema de Moore-Aronszajn (ver más abajo) es una especie de inverso a esto: si una función ${\ Displaystyle K}$ satisface estas condiciones, entonces hay un espacio de funciones de Hilbert en ${\ Displaystyle X}$ para lo cual es un núcleo de reproducción.

Ejemplo

El espacio de las funciones continuas limitadas por banda ${\ Displaystyle H}$ es un RKHS, como mostramos ahora. Formalmente, arregle alguna frecuencia de corte ${\ Displaystyle 0$ y definir el espacio de Hilbert

{\ Displaystyle H = \ {f \ en C (\ mathbb {R}) \ mid \ operatorname {supp} (F) \ subset [-a, a] \}}

dónde ${\ Displaystyle C (\ mathbb {R})}$ es el conjunto de funciones continuas, y ${\ textstyle F (\ omega) = \ int _ {- \ infty} ^ {\ infty} f (t) e ^ {- i \ omega t} dt}$ es la transformada de Fourier de ${\ Displaystyle f}$ .

Del teorema de la inversión de Fourier , tenemos

{\ Displaystyle f (x) = {\ frac {1} {2 \ pi}} \ int _ {- a} ^ {a} F (\ omega) e ^ {ix \ omega} d \ omega.}

Luego sigue la desigualdad de Cauchy-Schwarz y el teorema de Plancherel de que, para todos ${\ Displaystyle x}$ ,

{\ Displaystyle | f (x) | \ leq {\ frac {1} {2 \ pi}} {\ sqrt {\ int _ {- a} ^ {a} 2a | F (\ omega) | ^ {2} d \ omega}} = {\ frac {1} {\ pi}} {\ sqrt {{\ frac {a} {2}} \ int _ {- \ infty} ^ {\ infty} | F (\ omega) | ^ {2} d \ omega}} = {\ sqrt {\ frac {a} {\ pi}}} \ | f \ | _ {L ^ {2}}.}

Esta desigualdad muestra que el funcional de evaluación está acotado, lo que demuestra que ${\ Displaystyle H}$ es de hecho un RKHS.

La función del kernel ${\ Displaystyle K_ {x}}$ en este caso viene dado por

{\ Displaystyle K_ {x} (y) = {\ frac {a} {\ pi}} \ operatorname {sinc} (a (yx)) = {\ frac {\ sin (a (yx))} {\ pi (yx)}}.}

Para ver esto, primero notamos que la transformada de Fourier de ${\ Displaystyle K_ {x} (y)}$ definido anteriormente viene dado por

{\ Displaystyle \ int _ {- \ infty} ^ {\ infty} K_ {x} (y) e ^ {- i \ omega y} dy = {\ begin {cases} e ^ {- i \ omega x} & {\ text {if}} \ omega \ in [-a, a], \\ 0 & {\ text {if}} {\ textrm {de otro modo}}, \ end {cases}}}

que es una consecuencia de la propiedad de desplazamiento temporal de la transformada de Fourier . En consecuencia, utilizando el teorema de Plancherel , tenemos

{\ Displaystyle \ langle f, K_ {x} \ rangle _ {L ^ {2}} = \ int _ {- \ infty} ^ {\ infty} f (y) \ cdot {\ overline {K_ {x} ( y)}} dy = {\ frac {1} {2 \ pi}} \ int _ {- a} ^ {a} F (\ omega) \ cdot e ^ {i \ omega x} d \ omega = f ( X).}

Así obtenemos la propiedad de reproducción del kernel.

Tenga en cuenta que ${\ Displaystyle K_ {x}}$ en este caso es la "versión de banda limitada" de la función delta de Dirac , y que ${\ Displaystyle K_ {x} (y)}$ converge a ${\ Displaystyle \ delta (yx)}$ en el sentido débil como la frecuencia de corte ${\ Displaystyle a}$ tiende al infinito.

Teorema de Moore-Aronszajn

Hemos visto cómo un espacio de Hilbert del núcleo en reproducción define una función del núcleo en reproducción que es simétrica y definida positiva . El teorema de Moore-Aronszajn va en la otra dirección; establece que cada kernel definido positivo simétrico define un espacio de Hilbert del kernel de reproducción único. El teorema apareció por primera vez en la Teoría de la reproducción de núcleos de Aronszajn , aunque lo atribuye a EH Moore .

Teorema . Supongamos que K es un simétrica, núcleo definida positiva en un conjunto X . Entonces hay un espacio de funciones de Hilbert único en X para el cual K es un núcleo de reproducción.

Prueba . Para todo x en X , defina K _x = K ( x , ⋅). Sea H ₀ el tramo lineal de { K _x : x ∈ X }. Defina un producto interno en H ₀ por

{\ Displaystyle \ left \ langle \ sum _ {j = 1} ^ {n} b_ {j} K_ {y_ {j}}, \ sum _ {i = 1} ^ {m} a_ {i} K_ {x_ {i}} \ right \ rangle _ {H_ {0}} = \ sum _ {i = 1} ^ {m} \ sum _ {j = 1} ^ {n} {a_ {i}} b_ {j} K (y_ {j}, x_ {i}),}

lo que implica ${\ Displaystyle K (x, y) = \ left \ langle K_ {x}, K_ {y} \ right \ rangle _ {H_ {0}}}$ . La simetría de este producto interno se deriva de la simetría de K y la no degeneración se deriva del hecho de que K es positivo definido.

Sea H la terminación de H ₀ con respecto a este producto interno. Entonces H consta de funciones de la forma

{\ Displaystyle f (x) = \ sum _ {i = 1} ^ {\ infty} a_ {i} K_ {x_ {i}} (x) \ quad {\ text {donde}} \ quad \ lim _ { n \ to \ infty} \ sup _ {p \ geq 0} \ left \ | \ sum _ {i = n} ^ {n + p} a_ {i} K_ {x_ {i}} \ right \ | _ { H_ {0}} = 0.}

Ahora podemos verificar la propiedad de reproducción ( 2 ):

{\ Displaystyle \ langle f, K_ {x} \ rangle _ {H} = \ sum _ {i = 1} ^ {\ infty} a_ {i} \ left \ langle K_ {x_ {i}}, K_ {x } \ right \ rangle _ {H_ {0}} = \ sum _ {i = 1} ^ {\ infty} a_ {i} K (x_ {i}, x) = f (x).}

Para demostrar la unicidad, sea G otro espacio de funciones de Hilbert para el que K es un núcleo de reproducción. Para cualquier x y y en X , ( 2 ) implica que

{\ Displaystyle \ langle K_ {x}, K_ {y} \ rangle _ {H} = K (x, y) = \ langle K_ {x}, K_ {y} \ rangle _ {G}.}

Por linealidad, ${\ Displaystyle \ langle \ cdot, \ cdot \ rangle _ {H} = \ langle \ cdot, \ cdot \ rangle _ {G}}$ en el lapso de ${\ Displaystyle \ {K_ {x}: x \ in X \}}$ . Luego ${\ Displaystyle H \ subconjunto G}$ porque G es completo y contiene H ₀ y, por tanto, contiene su finalización.

Ahora tenemos que demostrar que cada elemento de G se encuentra en H . Dejar ${\ Displaystyle f}$ ser un elemento de G . Dado que H es un subespacio cerrado de G , podemos escribir ${\ Displaystyle f = f_ {H} + f_ {H ^ {\ bot}}}$ dónde ${\ Displaystyle f_ {H} \ in H}$ y ${\ Displaystyle f_ {H ^ {\ bot}} \ in H ^ {\ bot}}$ . Ahora si ${\ Displaystyle x \ in X}$ entonces, dado que K es un núcleo que se reproduce de G y H :

{\ Displaystyle f (x) = \ langle K_ {x}, f \ rangle _ {G} = \ langle K_ {x}, f_ {H} \ rangle _ {G} + \ langle K_ {x}, f_ { H ^ {\ bot}} \ rangle _ {G} = \ langle K_ {x}, f_ {H} \ rangle _ {G} = \ langle K_ {x}, f_ {H} \ rangle _ {H} = f_ {H} (x),}

donde hemos utilizado el hecho de que ${\ Displaystyle K_ {x}}$ pertenece a H de modo que su producto interno con ${\ Displaystyle f_ {H ^ {\ bot}}}$ en G es cero. Esto muestra que ${\ Displaystyle f = f_ {H}}$ en G y concluye la demostración.

Operadores integrales y teorema de Mercer

Podemos caracterizar un núcleo definido positivo simétrico ${\ Displaystyle K}$ mediante el operador integral utilizando el teorema de Mercer y obtener una vista adicional del RKHS. Dejar ${\ Displaystyle X}$ ser un espacio compacto equipado con una medida de Borel finita estrictamente positiva ${\ Displaystyle \ mu}$ y ${\ Displaystyle K: X \ times X \ to \ mathbb {R}}$ una función definida continua, simétrica y positiva. Definir el operador integral ${\ Displaystyle T_ {K}: L_ {2} (X) \ to L_ {2} (X)}$ como

{\ Displaystyle [T_ {K} f] (\ cdot) = \ int _ {X} K (\ cdot, t) f (t) \, d \ mu (t)}

dónde ${\ Displaystyle L_ {2} (X)}$ es el espacio de funciones cuadradas integrables con respecto a ${\ Displaystyle \ mu}$ .

El teorema de Mercer establece que la descomposición espectral del operador integral ${\ Displaystyle T_ {K}}$ de ${\ Displaystyle K}$ produce una representación en serie de ${\ Displaystyle K}$ en términos de los valores propios y las funciones propias de ${\ Displaystyle T_ {K}}$ . Esto implica entonces que ${\ Displaystyle K}$ es un núcleo de reproducción de modo que el RKHS correspondiente se puede definir en términos de estos valores propios y funciones propias. Proporcionamos los detalles a continuación.

Bajo estos supuestos ${\ Displaystyle T_ {K}}$ es un operador compacto, continuo, autoadjunto y positivo. El teorema espectral para los operadores autoadjuntos implica que hay una secuencia decreciente como máximo contable ${\ Displaystyle (\ sigma _ {i}) _ {i} \ geq 0}$ tal que ${\ textstyle \ lim _ {i \ to \ infty} \ sigma _ {i} = 0}$ y ${\ Displaystyle T_ {K} \ phi _ {i} (x) = \ sigma _ {i} \ phi _ {i} (x)}$ , donde el ${\ Displaystyle \ {\ phi _ {i} \}}$ forman una base ortonormal de ${\ Displaystyle L_ {2} (X)}$ . Por la positividad de ${\ Displaystyle T_ {K}, \ sigma _ {i}> 0}$ para todos ${\ Displaystyle i.}$ También se puede demostrar que ${\ Displaystyle T_ {K}}$ mapas continuamente en el espacio de funciones continuas ${\ Displaystyle C (X)}$ y por lo tanto podemos elegir funciones continuas como autovectores, es decir, ${\ Displaystyle \ phi _ {i} \ en C (X)}$ para todos ${\ Displaystyle i.}$ Entonces, por el teorema de Mercer ${\ Displaystyle K}$ puede escribirse en términos de valores propios y funciones propias continuas como

{\ Displaystyle K (x, y) = \ sum _ {j = 1} ^ {\ infty} \ sigma _ {j} \, \ phi _ {j} (x) \, \ phi _ {j} (y )}

para todos ${\ Displaystyle x, y \ en X}$ tal que

{\ Displaystyle \ lim _ {n \ to \ infty} \ sup _ {u, v} \ left | K (u, v) - \ sum _ {j = 1} ^ {n} \ sigma _ {j} \ , \ phi _ {j} (u) \, \ phi _ {j} (v) \ right | = 0.}

Esta representación de la serie anterior se denomina kernel de Mercer o representación de Mercer de ${\ Displaystyle K}$ .

Además, se puede demostrar que el RKHS ${\ Displaystyle H}$ de ${\ Displaystyle K}$ es dado por

{\ Displaystyle H = \ left \ {f \ in L_ {2} (X) \ left | \ sum _ {i = 1} ^ {\ infty} {\ frac {\ left \ langle f, \ phi _ {i } \ right \ rangle _ {L_ {2}} ^ {2}} {\ sigma _ {i}}} <\ infty \ right. \ right \}}

donde el producto interno de ${\ Displaystyle H}$ dada por

{\ Displaystyle \ left \ langle f, g \ right \ rangle _ {H} = \ sum _ {i = 1} ^ {\ infty} {\ frac {\ left \ langle f, \ phi _ {i} \ right \ rangle _ {L_ {2}} \ left \ langle g, \ phi _ {i} \ right \ rangle _ {L_ {2}}} {\ sigma _ {i}}}.}

Esta representación del RKHS tiene aplicación en probabilidad y estadística, por ejemplo en la representación de Karhunen-Loève para procesos estocásticos y PCA del núcleo .

Mapas de características

Un mapa de características es un mapa ${\ Displaystyle \ varphi \ colon X \ rightarrow F}$ , dónde ${\ Displaystyle F}$ es un espacio de Hilbert al que llamaremos espacio de características. Las primeras secciones presentaron la conexión entre funciones de evaluación limitadas / continuas, funciones definidas positivas y operadores integrales y en esta sección proporcionamos otra representación del RKHS en términos de mapas de características.

Primero notamos que cada mapa de características define un kernel a través de

{\ Displaystyle K (x, y) = \ langle \ varphi (x), \ varphi (y) \ rangle _ {F}.}

( 3 )

Claramente ${\ Displaystyle K}$ es simétrica y la definición positiva se sigue de las propiedades del producto interno en ${\ Displaystyle F}$ . A la inversa, cada función definida positiva y el espacio de Hilbert del núcleo de reproducción correspondiente tiene infinitos mapas de características asociados de manera que ( 3 ) se cumple.

Por ejemplo, podemos tomar trivialmente ${\ Displaystyle F = H}$ y ${\ Displaystyle \ varphi (x) = K_ {x}}$ para todos ${\ Displaystyle x \ in X}$ . Entonces ( 3 ) se satisface con la propiedad de reproducción. Otro ejemplo clásico de un mapa de características se relaciona con la sección anterior sobre operadores integrales tomando ${\ Displaystyle F = \ ell ^ {2}}$ y ${\ Displaystyle \ varphi (x) = ({\ sqrt {\ sigma _ {i}}} \ phi _ {i} (x)) _ {i}}$ .

Esta conexión entre los núcleos y los mapas de características nos proporciona una nueva forma de comprender las funciones definidas positivas y, por lo tanto, reproducir los núcleos como productos internos en ${\ Displaystyle H}$ . Además, cada mapa de características puede definir naturalmente un RKHS mediante la definición de una función definida positiva.

Por último, los mapas de características nos permiten construir espacios funcionales que revelan otra perspectiva del RKHS. Considere el espacio lineal

{\ Displaystyle H _ {\ varphi} = \ {f: X \ to \ mathbb {R} | \ existe w \ in F, f (x) = \ langle w, \ varphi (x) \ rangle _ {F}, \ forall {\ text {}} x \ in X \}.}

Podemos definir una norma sobre ${\ Displaystyle H _ {\ varphi}}$ por

{\ Displaystyle \ | f \ | _ {\ varphi} = \ inf \ {\ | w \ | _ {F}: w \ in F, f (x) = \ langle w, \ varphi (x) \ rangle _ {F}, \ forall {\ text {}} x \ in X \}.}

Se puede demostrar que ${\ Displaystyle H _ {\ varphi}}$ es un RKHS con kernel definido por ${\ Displaystyle K (x, y) = \ langle \ varphi (x), \ varphi (y) \ rangle _ {F}}$ . Esta representación implica que los elementos del núcleo de reproducción son productos internos de elementos en el espacio de características. Esta vista del RKHS está relacionada con el truco del kernel en el aprendizaje automático. ^[7]

Propiedades

Las siguientes propiedades de los RKHS pueden resultar útiles para los lectores.

Dejar ${\ Displaystyle (X_ {i}) _ {i = 1} ^ {p}}$ ser una secuencia de conjuntos y ${\ Displaystyle (K_ {i}) _ {i = 1} ^ {p}}$ ser una colección de funciones definidas positivas correspondientes en ${\ Displaystyle (X_ {i}) _ {i = 1} ^ {p}.}$ Luego se sigue que
${\ Displaystyle K ((x_ {1}, \ ldots, x_ {p}), (y_ {1}, \ ldots, y_ {p})) = K_ {1} (x_ {1}, y_ {1} ) \ cdots K_ {p} (x_ {p}, y_ {p})}$
es un núcleo en ${\ Displaystyle X = X_ {1} \ times \ dots \ times X_ {p}.}$
Dejar ${\ Displaystyle X_ {0} \ subconjunto X,}$ entonces la restricción de ${\ Displaystyle K}$ a ${\ Displaystyle X_ {0} \ times X_ {0}}$ también es un núcleo de reproducción.
Considere un kernel normalizado ${\ Displaystyle K}$ tal que ${\ Displaystyle K (x, x) = 1}$ para todos ${\ Displaystyle x \ in X}$ . Defina una pseudo-métrica en X como
${\ Displaystyle d_ {K} (x, y) = \ | K_ {x} -K_ {y} \ | _ {H} ^ {2} = 2 (1-K (x, y)) \ qquad \ forall x \ en X.}$
Por la desigualdad de Cauchy-Schwarz ,
${\ Displaystyle K (x, y) ^ {2} \ leq K (x, x) K (y, y) = 1 \ qquad \ forall x, y \ in X.}$
Esta desigualdad nos permite ver ${\ Displaystyle K}$ como medida de similitud entre insumos. Si ${\ Displaystyle x, y \ en X}$ son similares entonces ${\ Displaystyle K (x, y)}$ estará más cerca de 1 mientras que si ${\ Displaystyle x, y \ en X}$ son diferentes entonces ${\ Displaystyle K (x, y)}$ estará más cerca de 0.

El cierre del tramo de ${\ Displaystyle \ {K_ {x} \ mid x \ in X \}}$ coincide con ${\ Displaystyle H}$ . ^[8]

Ejemplos comunes

Granos bilineales

{\ Displaystyle K (x, y) = \ langle x, y \ rangle}

El RKHS ${\ Displaystyle H}$ correspondiente a este kernel es el espacio dual, que consta de funciones ${\ Displaystyle f (x) = \ langle x, \ beta \ rangle}$ satisfactorio ${\ Displaystyle \ | f \ | _ {H} ^ {2} = \ | \ beta \ | ^ {2}}$ .

Núcleos polinomiales

{\ Displaystyle K (x, y) = (\ alpha \ langle x, y \ rangle +1) ^ {d}, \ qquad \ alpha \ in \ mathbb {R}, d \ in \ mathbb {N}}

Núcleos de función de base radial

Éstos son otra clase común de granos que satisfacen ${\ Displaystyle K (x, y) = K (\ | xy \ |)}$ . Algunos ejemplos incluyen:

Núcleo exponencial gaussiano o cuadrado :
${\ Displaystyle K (x, y) = e ^ {- {\ frac {\ | xy \ | ^ {2}} {2 \ sigma ^ {2}}}}, \ qquad \ sigma> 0}$
Núcleo laplaciano :
${\ Displaystyle K (x, y) = e ^ {- {\ frac {\ | xy \ |} {\ sigma}}}, \ qquad \ sigma> 0}$
La norma al cuadrado de una función ${\ Displaystyle f}$ en el RKHS ${\ Displaystyle H}$ con este kernel es: ^[9]
${\ Displaystyle \ | f \ | _ {H} ^ {2} = \ int f (x) ^ {2} dx + \ int f '(x) ^ {2} dx}$ .

Núcleos de Bergman

También proporcionamos ejemplos de núcleos de Bergman . Deje X ser finita y dejar H constan de todas las funciones de valor complejo en X . Entonces, un elemento de H se puede representar como una matriz de números complejos. Si se usa el producto interno habitual , entonces K _x es la función cuyo valor es 1 en xy 0 en todos los demás lugares, y ${\ Displaystyle K (x, y)}$ puede pensarse como una matriz de identidad ya que

{\ displaystyle K (x, y) = {\ begin {cases} 1 & x = y \\ 0 & x \ neq y \ end {cases}}}

En este caso, H es isomorfo a ${\ Displaystyle \ mathbb {C} ^ {n}}$ .

El caso de ${\ Displaystyle X = \ mathbb {D}}$ (dónde ${\ Displaystyle \ mathbb {D}}$ denota el disco de la unidad ) es más sofisticado. Aquí el espacio de Bergman H 2 ( D ) {\ Displaystyle H ^ {2} (\ mathbb {D})} es el espacio de funciones holomórficas integrables al cuadrado en ${\ Displaystyle \ mathbb {D}}$ . Se puede demostrar que el kernel de reproducción para ${\ Displaystyle H ^ {2} (\ mathbb {D})}$ es

{\ Displaystyle K (x, y) = {\ frac {1} {\ pi}} {\ frac {1} {(1-x {\ overline {y}}) ^ {2}}}.}

Por último, el espacio de funciones limitadas de banda en ${\ Displaystyle L ^ {2} (\ mathbb {R})}$ con ancho de banda ${\ Displaystyle 2a}$ son un RKHS con kernel de reproducción

{\ Displaystyle K (x, y) = {\ frac {\ sin a (xy)} {\ pi (xy)}}.}

Extensión a funciones con valores vectoriales

En esta sección, extendemos la definición de RKHS a espacios de funciones con valores vectoriales, ya que esta extensión es particularmente importante en el aprendizaje multitarea y la regularización múltiple . La principal diferencia es que el kernel de reproducción ${\ Displaystyle \ Gamma}$ es una función simétrica que ahora es una matriz semidefinida positiva para cualquier ${\ Displaystyle x, y}$ en ${\ Displaystyle X}$ . Más formalmente, definimos un RKHS con valores vectoriales (vvRKHS) como un espacio de funciones de Hilbert ${\ Displaystyle f: X \ to \ mathbb {R} ^ {T}}$ tal que para todos ${\ Displaystyle c \ in \ mathbb {R} ^ {T}}$ y ${\ Displaystyle x \ in X}$

{\ Displaystyle \ Gamma _ {x} c (y) = \ Gamma (x, y) c \ in H {\ text {for}} y \ in X}

y

{\ Displaystyle \ langle f, \ Gamma _ {x} c \ rangle _ {H} = f (x) ^ {\ intercal} c.}

Esta segunda propiedad es paralela a la propiedad de reproducción para el caso con valores escalares. Observamos que esta definición también se puede conectar a operadores integrales, funciones de evaluación limitadas y mapas de características, como vimos para el RKHS con valores escalares. De manera equivalente, podemos definir el vvRKHS como un espacio de Hilbert con valores vectoriales con una función de evaluación limitada y demostrar que esto implica la existencia de un núcleo de reproducción único mediante el teorema de representación de Riesz. El teorema de Mercer también se puede extender para abordar la configuración de valores vectoriales y, por lo tanto, podemos obtener una vista de mapa de características de vvRKHS. Por último, también se puede demostrar que el cierre del tramo de ${\ Displaystyle \ {\ Gamma _ {x} c: x \ in X, c \ in \ mathbb {R} ^ {T} \}}$ coincide con ${\ Displaystyle H}$ , otra propiedad similar al caso con valores escalares.

Podemos ganar intuición para el vvRKHS tomando una perspectiva de componentes en estos espacios. En particular, encontramos que cada vvRKHS es isomórfico isomórfico a un RKHS de valor escalar en un espacio de entrada particular. Dejar ${\ Displaystyle \ Lambda = \ {1, \ dots, T \}}$ . Considere el espacio ${\ Displaystyle X \ times \ Lambda}$ y el kernel de reproducción correspondiente

{\ Displaystyle \ gamma: X \ times \ Lambda \ times X \ times \ Lambda \ to \ mathbb {R}.}

( 4 )

Como se señaló anteriormente, el RKHS asociado a este núcleo de reproducción está dado por el cierre del lapso de ${\ Displaystyle \ {\ gamma _ {(x, t)}: x \ in X, t \ in \ Lambda \}}$ dónde ${\ Displaystyle \ gamma _ {(x, t)} (y, s) = \ gamma ((x, t), (y, s))}$ para cada conjunto de pares ${\ Displaystyle (x, t), (y, s) \ in X \ times \ Lambda}$ .

La conexión con el RKHS con valores escalares se puede realizar por el hecho de que cada núcleo con valores matriciales se puede identificar con un núcleo de la forma de ( 4 ) a través de

{\ Displaystyle \ Gamma (x, y) _ {(t, s)} = \ gamma ((x, t), (y, s)).}

Además, cada kernel con la forma de ( 4 ) define un kernel con valores matriciales con la expresión anterior. Ahora dejando que el mapa ${\ Displaystyle D: H _ {\ Gamma} \ to H _ {\ gamma}}$ ser definido como

{\ Displaystyle (Df) (x, t) = \ langle f (x), e_ {t} \ rangle _ {\ mathbb {R} ^ {T}}}

dónde ${\ Displaystyle e_ {t}}$ es el ${\ Displaystyle t ^ {th}}$ componente de la base canónica para ${\ Displaystyle \ mathbb {R} ^ {T}}$ , uno puede demostrar que ${\ Displaystyle D}$ es biyectiva y una isometría entre ${\ Displaystyle H _ {\ Gamma}}$ y ${\ Displaystyle H _ {\ gamma}}$ .

Si bien esta vista del vvRKHS puede ser útil en el aprendizaje multitarea, esta isometría no reduce el estudio del caso con valores vectoriales al caso con valores escalares. De hecho, este procedimiento de isometría puede hacer que tanto el kernel con valores escalares como el espacio de entrada sean demasiado difíciles de trabajar en la práctica, ya que las propiedades de los kernel originales a menudo se pierden. ^[10]^[11]^[12]

Una clase importante de núcleos reproductores con valores matriciales son los núcleos separables que se pueden factorizar como el producto de un núcleo con valor escalar y un ${\ Displaystyle T}$ -matriz semidefinida positiva simétrica dimensional. A la luz de nuestra discusión anterior, estos núcleos tienen la forma

{\ Displaystyle \ gamma ((x, t), (y, s)) = K (x, y) K_ {T} (t, s)}

para todos ${\ Displaystyle x, y}$ en ${\ Displaystyle X}$ y ${\ Displaystyle t, s}$ en ${\ Displaystyle T}$ . Como el kernel con valores escalares codifica las dependencias entre las entradas, podemos observar que el kernel con valores matriciales codifica las dependencias entre las entradas y las salidas.

Por último, observamos que la teoría anterior se puede extender aún más a espacios de funciones con valores en espacios de funciones, pero obtener núcleos para estos espacios es una tarea más difícil. ^[13]

Conexión entre RKHS con función ReLU

La función ReLU se define comúnmente como ${\ Displaystyle f (x) = \ max (0, x)}$ y es un pilar en la arquitectura de redes neuronales donde se utiliza como función de activación. Se puede construir una función no lineal similar a ReLU utilizando la teoría de la reproducción de espacios de hilbert del núcleo. A continuación, derivamos esta construcción y mostramos cómo implica el poder de representación de las redes neuronales con activaciones ReLU.

Trabajaremos con el espacio Hilbert ${\ Displaystyle {\ mathcal {H}} = L_ {2} ^ {1} (0) [0, \ infty)}$ de funciones absolutamente continuas con ${\ Displaystyle f (0) = 0}$ y cuadrado integrable (es decir ${\ Displaystyle L_ {2}}$ ) derivado. Tiene el producto interior

${\ Displaystyle \ langle f, g \ rangle _ {\ mathcal {H}} = \ int _ {0} ^ {\ infty} f '(x) g' (x) dx.}$

Para construir el núcleo de reproducción basta con considerar un subespacio denso, así que dejemos ${\ displaystyle f \ en C ^ {1} [0, \ infty)}$ y ${\ Displaystyle f (0) = 0}$ . El teorema fundamental del cálculo da

${\ Displaystyle f (y) = \ int _ {0} ^ {y} f '(x) dx = \ int _ {0} ^ {\ infty} G (x, y) f' (x) dx = \ langle K_ {y} (\ cdot), f \ rangle}$

dónde

{\ displaystyle G (x, y) = {\ begin {cases} 1, & x

y ${\ Displaystyle K_ {y} ^ {\ prime} (x) = G (x, y), \ K_ {y} (0) = 0}$ es decir

{\ Displaystyle K (x, y) = K_ {y} (x) = \ int _ {0} ^ {x} G (z, y) dz = {\ begin {cases} x, & 0 \ leq x

Esto implica ${\ Displaystyle K_ {y} = K (\ cdot, y)}$ reproduce ${\ Displaystyle f}$ .

Tomando el limite ${\ Displaystyle y \ to \ infty}$ , obtenemos la función ReLU,

${\ displaystyle K _ {\ infty} (x) = {\ begin {cases} x, & {\ text {if}} x \ geq 0 \\ 0, & {\ text {de lo contrario}} \ end {cases}} = \ nombre de operador {ReLU} (x)}$

Usando esta formulación, podemos aplicar el teorema del Representante al RKHS, dejando que uno demuestre lo óptimo de usar activaciones ReLU en configuraciones de redes neuronales.

Ver también

Núcleo definido positivo
Teorema de mercer
Truco de kernel
Incrustación de distribuciones en el kernel
Representante teorema

Notas

^ Alpay, D. y TM Mills. "Una familia de espacios de Hilbert que no reproducen los espacios del núcleo de Hilbert". J. Anal. Apl. 1.2 (2003): 107–111.
^ Z. Pasternak-Winiarski, Sobre pesos que admiten la reproducción del núcleo de tipo Bergman, Revista Internacional de Matemáticas y Ciencias Matemáticas, vol. 15, Número 1, 1992.
^ T. Ł. Żynda, ˙ Sobre pesas que admiten la reproducción de núcleos de tipo Szeg¨o, Journal of Contemporary Mathematical Analysis (Academia de Ciencias de Armenia), 55, 2020.
^ Okutmustur
^ Paulson
^ Durrett
^ Rosasco
^ Rosasco
^ Berlinet, Alain y Thomas, Christine. Reproduciendo espacios de Hilbert del núcleo en Probabilidad y Estadística , Kluwer Academic Publishers, 2004
^ De Vito
^ Zhang
^ Álvarez
^ Rosasco

Referencias

Álvarez, Mauricio, Rosasco, Lorenzo y Lawrence, Neil, “Kernels for Vector-Valued Functions: a Review” , https://arxiv.org/abs/1106.6251 , junio de 2011.
Aronszajn, Nachman (1950). "Teoría de la reproducción de granos" . Transacciones de la American Mathematical Society . 68 (3): 337–404. doi : 10.1090 / S0002-9947-1950-0051437-7 . JSTOR 1990404 . Señor 0051437 .
Berlinet, Alain y Thomas, Christine. Reproduciendo espacios de Hilbert del núcleo en Probabilidad y Estadística , Kluwer Academic Publishers, 2004.
Cucker, Felipe; Smale, Steve (2002). "Sobre los fundamentos matemáticos del aprendizaje" . Boletín de la American Mathematical Society . 39 (1): 1–49. doi : 10.1090 / S0273-0979-01-00923-5 . Señor 1864085 .
De Vito, Ernest, Umanita, Veronica y Villa, Silvia. "Una extensión del teorema de Mercer a núcleos medibles con valores vectoriales", arXiv : 1110.4017 , junio de 2013.
Durrett, Greg. 9.520 Notas del curso, Instituto de Tecnología de Massachusetts, https://www.mit.edu/~9.520/scribe-notes/class03_gdurett.pdf , febrero de 2010.
Kimeldorf, George; Wahba, Grace (1971). "Algunos resultados sobre las funciones de spline de Tchebycheffian" (PDF) . Revista de Análisis y Aplicaciones Matemáticas . 33 (1): 82–95. doi : 10.1016 / 0022-247X (71) 90184-3 . Señor 0290013 .
Okutmustur, Baver. “Reproducing Kernel Hilbert Spaces”, disertación de maestría, Bilkent University, http://www.thesis.bilkent.edu.tr/0002953.pdf , agosto de 2005.
Paulsen, Vern. “Una introducción a la teoría de la reproducción de los espacios de Hilbert del núcleo”, http://www.math.uh.edu/~vern/rkhs.pdf .
Steinwart, Ingo; Scovel, Clint (2012). "Teorema de Mercer sobre dominios generales: sobre la interacción entre medidas, núcleos y RKHS". Constr. Aprox . 35 (3): 363–417. doi : 10.1007 / s00365-012-9153-3 . Señor 2914365 .
Rosasco, Lorenzo y Poggio, Thomas. "A Regularization Tour of Machine Learning - MIT 9.520 Lecture Notes", manuscrito, diciembre de 2014.
Wahba, Grace , Modelos Spline para datos de observación , SIAM , 1990.
Zhang, Haizhang; Xu, Yuesheng; Zhang, Qinghui (2012). "Refinamiento de los núcleos reproductores valorados por el operador" (PDF) . Revista de investigación sobre aprendizaje automático . 13 : 91-136.

[1] Alpay, D. y TM Mills. "Una familia de espacios de Hilbert que no reproducen los espacios del núcleo de Hilbert". J. Anal. Apl. 1.2 (2003): 107–111.

[2] Z. Pasternak-Winiarski, Sobre pesos que admiten la reproducción del núcleo de tipo Bergman, Revista Internacional de Matemáticas y Ciencias Matemáticas, vol. 15, Número 1, 1992.

[3] T. Ł. Żynda, ˙ Sobre pesas que admiten la reproducción de núcleos de tipo Szeg¨o, Journal of Contemporary Mathematical Analysis (Academia de Ciencias de Armenia), 55, 2020.

[4] Okutmustur

[5] Paulson

[6] Durrett

[7] Rosasco

[8] Rosasco

[9] Berlinet, Alain y Thomas, Christine. Reproduciendo espacios de Hilbert del núcleo en Probabilidad y Estadística , Kluwer Academic Publishers, 2004

[10] De Vito

[11] Zhang

[12] Álvarez

[13] Rosasco

[1]