En el análisis funcional (una rama de las matemáticas ), un espacio de Hilbert del núcleo de reproducción ( RKHS ) es un espacio de funciones de Hilbert en el que la evaluación puntual es un funcional lineal continuo . En términos generales, esto significa que si dos funciones y en el RKHS están cerca de la norma, es decir, es pequeño, entonces y también son puntiagudos, es decir, es pequeño para todos . Lo contrario no tiene por qué ser cierto.
No es del todo sencillo construir un espacio de funciones de Hilbert que no sea un RKHS. [1] Sin embargo, se han encontrado algunos ejemplos. [2] [3]
Tenga en cuenta que los espacios L 2 no son espacios de funciones de Hilbert (y, por tanto, no RKHS), sino más bien espacios de Hilbert de clases de equivalencia de funciones (por ejemplo, las funciones y definido por y son equivalentes en L 2 ). Sin embargo, hay RKHS en los que la norma es una norma L 2 , como el espacio de funciones de banda limitada (ver el ejemplo a continuación).
Un RKHS está asociado con un kernel que reproduce cada función en el espacio en el sentido de que para cualquier en el conjunto en el que se definen las funciones, "evaluación en "se puede realizar tomando un producto interno con una función determinada por el núcleo. Tal núcleo de reproducción existe si y sólo si cada función de evaluación es continua.
El núcleo de reproducción se introdujo por primera vez en el trabajo de 1907 de Stanisław Zaremba sobre problemas de valor límite para funciones armónicas y biharmónicas . James Mercer examinó simultáneamente funciones que satisfacen la propiedad de reproducción en la teoría de ecuaciones integrales . La idea del núcleo de reproducción permaneció intacta durante casi veinte años hasta que apareció en las disertaciones de Gábor Szegő , Stefan Bergman y Salomon Bochner . El tema fue finalmente desarrollado sistemáticamente a principios de la década de 1950 por Nachman Aronszajn y Stefan Bergman. [4]
Estos espacios tienen amplias aplicaciones, incluido el análisis complejo , el análisis armónico y la mecánica cuántica . La reproducción de los espacios de Hilbert del núcleo es particularmente importante en el campo de la teoría del aprendizaje estadístico debido al célebre teorema del representador que establece que cada función en un RKHS que minimiza una función de riesgo empírico puede escribirse como una combinación lineal de la función del núcleo evaluada en los puntos de entrenamiento. . Este es un resultado prácticamente útil ya que simplifica eficazmente el problema de minimización del riesgo empírico de un problema de optimización de dimensión infinita a uno de dimensión finita.
Para facilitar la comprensión, proporcionamos el marco para espacios Hilbert de valor real. La teoría puede extenderse fácilmente a espacios de funciones con valores complejos y, por lo tanto, incluir los muchos ejemplos importantes de reproducción de espacios de Hilbert del núcleo que son espacios de funciones analíticas . [5]
Definición
Dejar ser un conjunto arbitrario yun espacio de Hilbert de funciones de valor real en, equipado con suma puntual y multiplicación escalar puntual. La evaluación funcional sobre el espacio de funciones de Hilbert es un funcional lineal que evalúa cada función en un punto ,
Decimos que H es un espacio de Hilbert del núcleo que se reproduce si, para todos en , es continuo en cualquier en o, de manera equivalente, si es un operador acotado en, es decir, existe alguna tal que
( 1 )
Aunque se asume para todos , aún podría darse el caso de que .
Mientras que la propiedad ( 1 ) es la condición más débil que asegura tanto la existencia de un producto interno como la evaluación de cada función enen todos los puntos del dominio, no se presta a una fácil aplicación en la práctica. Se puede obtener una definición más intuitiva del RKHS observando que esta propiedad garantiza que la evaluación funcional puede ser representada tomando el producto interno de con una función en . Esta función es el llamado núcleo de reproducción para el espacio de Hilbert.de donde el RKHS toma su nombre. Más formalmente, el teorema de representación de Riesz implica que para todos en existe un elemento único de con la propiedad de reproducción,
( 2 )
Desde es en sí misma una función definida en con valores en el campo (o en el caso de espacios complejos de Hilbert) y como es en tenemos eso
dónde es el elemento en asociado a .
Esto nos permite definir el núcleo de reproducción de como una función por
A partir de esta definición, es fácil ver que (o en el caso complejo) es simétrico (respectivamente simétrico conjugado) y definido positivo , es decir
para cualquier [6] El teorema de Moore-Aronszajn (ver más abajo) es una especie de inverso a esto: si una función satisface estas condiciones, entonces hay un espacio de funciones de Hilbert en para lo cual es un núcleo de reproducción.
Ejemplo
El espacio de las funciones continuas limitadas por banda es un RKHS, como mostramos ahora. Formalmente, arregle alguna frecuencia de corte y definir el espacio de Hilbert
dónde es el conjunto de funciones continuas, y es la transformada de Fourier de.
Del teorema de la inversión de Fourier , tenemos
Luego sigue la desigualdad de Cauchy-Schwarz y el teorema de Plancherel de que, para todos,
Esta desigualdad muestra que el funcional de evaluación está acotado, lo que demuestra que es de hecho un RKHS.
La función del kernel en este caso viene dado por
Para ver esto, primero notamos que la transformada de Fourier de definido anteriormente viene dado por
que es una consecuencia de la propiedad de desplazamiento temporal de la transformada de Fourier . En consecuencia, utilizando el teorema de Plancherel , tenemos
Así obtenemos la propiedad de reproducción del kernel.
Tenga en cuenta que en este caso es la "versión de banda limitada" de la función delta de Dirac , y que converge a en el sentido débil como la frecuencia de corte tiende al infinito.
Teorema de Moore-Aronszajn
Hemos visto cómo un espacio de Hilbert del núcleo en reproducción define una función del núcleo en reproducción que es simétrica y definida positiva . El teorema de Moore-Aronszajn va en la otra dirección; establece que cada kernel definido positivo simétrico define un espacio de Hilbert del kernel de reproducción único. El teorema apareció por primera vez en la Teoría de la reproducción de núcleos de Aronszajn , aunque lo atribuye a EH Moore .
- Teorema . Supongamos que K es un simétrica, núcleo definida positiva en un conjunto X . Entonces hay un espacio de funciones de Hilbert único en X para el cual K es un núcleo de reproducción.
Prueba . Para todo x en X , defina K x = K ( x , ⋅). Sea H 0 el tramo lineal de { K x : x ∈ X }. Defina un producto interno en H 0 por
lo que implica . La simetría de este producto interno se deriva de la simetría de K y la no degeneración se deriva del hecho de que K es positivo definido.
Sea H la terminación de H 0 con respecto a este producto interno. Entonces H consta de funciones de la forma
Ahora podemos verificar la propiedad de reproducción ( 2 ):
Para demostrar la unicidad, sea G otro espacio de funciones de Hilbert para el que K es un núcleo de reproducción. Para cualquier x y y en X , ( 2 ) implica que
Por linealidad, en el lapso de . Luegoporque G es completo y contiene H 0 y, por tanto, contiene su finalización.
Ahora tenemos que demostrar que cada elemento de G se encuentra en H . Dejarser un elemento de G . Dado que H es un subespacio cerrado de G , podemos escribir dónde y . Ahora sientonces, dado que K es un núcleo que se reproduce de G y H :
donde hemos utilizado el hecho de que pertenece a H de modo que su producto interno conen G es cero. Esto muestra queen G y concluye la demostración.
Operadores integrales y teorema de Mercer
Podemos caracterizar un núcleo definido positivo simétrico mediante el operador integral utilizando el teorema de Mercer y obtener una vista adicional del RKHS. Dejarser un espacio compacto equipado con una medida de Borel finita estrictamente positiva y una función definida continua, simétrica y positiva. Definir el operador integral como
dónde es el espacio de funciones cuadradas integrables con respecto a .
El teorema de Mercer establece que la descomposición espectral del operador integral de produce una representación en serie de en términos de los valores propios y las funciones propias de . Esto implica entonces quees un núcleo de reproducción de modo que el RKHS correspondiente se puede definir en términos de estos valores propios y funciones propias. Proporcionamos los detalles a continuación.
Bajo estos supuestos es un operador compacto, continuo, autoadjunto y positivo. El teorema espectral para los operadores autoadjuntos implica que hay una secuencia decreciente como máximo contable tal que y , donde el forman una base ortonormal de . Por la positividad de para todos También se puede demostrar que mapas continuamente en el espacio de funciones continuas y por lo tanto podemos elegir funciones continuas como autovectores, es decir, para todos Entonces, por el teorema de Mercer puede escribirse en términos de valores propios y funciones propias continuas como
para todos tal que
Esta representación de la serie anterior se denomina kernel de Mercer o representación de Mercer de .
Además, se puede demostrar que el RKHS de es dado por
donde el producto interno de dada por
Esta representación del RKHS tiene aplicación en probabilidad y estadística, por ejemplo en la representación de Karhunen-Loève para procesos estocásticos y PCA del núcleo .
Mapas de características
Un mapa de características es un mapa, dónde es un espacio de Hilbert al que llamaremos espacio de características. Las primeras secciones presentaron la conexión entre funciones de evaluación limitadas / continuas, funciones definidas positivas y operadores integrales y en esta sección proporcionamos otra representación del RKHS en términos de mapas de características.
Primero notamos que cada mapa de características define un kernel a través de
( 3 )
Claramente es simétrica y la definición positiva se sigue de las propiedades del producto interno en . A la inversa, cada función definida positiva y el espacio de Hilbert del núcleo de reproducción correspondiente tiene infinitos mapas de características asociados de manera que ( 3 ) se cumple.
Por ejemplo, podemos tomar trivialmente y para todos . Entonces ( 3 ) se satisface con la propiedad de reproducción. Otro ejemplo clásico de un mapa de características se relaciona con la sección anterior sobre operadores integrales tomando y .
Esta conexión entre los núcleos y los mapas de características nos proporciona una nueva forma de comprender las funciones definidas positivas y, por lo tanto, reproducir los núcleos como productos internos en . Además, cada mapa de características puede definir naturalmente un RKHS mediante la definición de una función definida positiva.
Por último, los mapas de características nos permiten construir espacios funcionales que revelan otra perspectiva del RKHS. Considere el espacio lineal
Podemos definir una norma sobre por
Se puede demostrar que es un RKHS con kernel definido por . Esta representación implica que los elementos del núcleo de reproducción son productos internos de elementos en el espacio de características. Esta vista del RKHS está relacionada con el truco del kernel en el aprendizaje automático. [7]
Propiedades
Las siguientes propiedades de los RKHS pueden resultar útiles para los lectores.
- Dejar ser una secuencia de conjuntos y ser una colección de funciones definidas positivas correspondientes en Luego se sigue que
- es un núcleo en
- Dejar entonces la restricción de a también es un núcleo de reproducción.
- Considere un kernel normalizado tal que para todos . Defina una pseudo-métrica en X como
- Por la desigualdad de Cauchy-Schwarz ,
- Esta desigualdad nos permite ver como medida de similitud entre insumos. Si son similares entonces estará más cerca de 1 mientras que si son diferentes entonces estará más cerca de 0.
- El cierre del tramo de coincide con . [8]
Ejemplos comunes
Granos bilineales
El RKHS correspondiente a este kernel es el espacio dual, que consta de funciones satisfactorio .
Núcleos polinomiales
Núcleos de función de base radial
Éstos son otra clase común de granos que satisfacen . Algunos ejemplos incluyen:
- Núcleo exponencial gaussiano o cuadrado :
- Núcleo laplaciano :
- La norma al cuadrado de una función en el RKHS con este kernel es: [9]
- .
Núcleos de Bergman
También proporcionamos ejemplos de núcleos de Bergman . Deje X ser finita y dejar H constan de todas las funciones de valor complejo en X . Entonces, un elemento de H se puede representar como una matriz de números complejos. Si se usa el producto interno habitual , entonces K x es la función cuyo valor es 1 en xy 0 en todos los demás lugares, y puede pensarse como una matriz de identidad ya que
En este caso, H es isomorfo a.
El caso de (dónde denota el disco de la unidad ) es más sofisticado. Aquí el espacio de Bergman H 2 ( D ) {\ Displaystyle H ^ {2} (\ mathbb {D})} es el espacio de funciones holomórficas integrables al cuadrado en. Se puede demostrar que el kernel de reproducción para es
Por último, el espacio de funciones limitadas de banda en con ancho de banda son un RKHS con kernel de reproducción
Extensión a funciones con valores vectoriales
En esta sección, extendemos la definición de RKHS a espacios de funciones con valores vectoriales, ya que esta extensión es particularmente importante en el aprendizaje multitarea y la regularización múltiple . La principal diferencia es que el kernel de reproducciónes una función simétrica que ahora es una matriz semidefinida positiva para cualquier en . Más formalmente, definimos un RKHS con valores vectoriales (vvRKHS) como un espacio de funciones de Hilbert tal que para todos y
y
Esta segunda propiedad es paralela a la propiedad de reproducción para el caso con valores escalares. Observamos que esta definición también se puede conectar a operadores integrales, funciones de evaluación limitadas y mapas de características, como vimos para el RKHS con valores escalares. De manera equivalente, podemos definir el vvRKHS como un espacio de Hilbert con valores vectoriales con una función de evaluación limitada y demostrar que esto implica la existencia de un núcleo de reproducción único mediante el teorema de representación de Riesz. El teorema de Mercer también se puede extender para abordar la configuración de valores vectoriales y, por lo tanto, podemos obtener una vista de mapa de características de vvRKHS. Por último, también se puede demostrar que el cierre del tramo de coincide con , otra propiedad similar al caso con valores escalares.
Podemos ganar intuición para el vvRKHS tomando una perspectiva de componentes en estos espacios. En particular, encontramos que cada vvRKHS es isomórfico isomórfico a un RKHS de valor escalar en un espacio de entrada particular. Dejar. Considere el espacio y el kernel de reproducción correspondiente
( 4 )
Como se señaló anteriormente, el RKHS asociado a este núcleo de reproducción está dado por el cierre del lapso de dónde para cada conjunto de pares .
La conexión con el RKHS con valores escalares se puede realizar por el hecho de que cada núcleo con valores matriciales se puede identificar con un núcleo de la forma de ( 4 ) a través de
Además, cada kernel con la forma de ( 4 ) define un kernel con valores matriciales con la expresión anterior. Ahora dejando que el mapa ser definido como
dónde es el componente de la base canónica para , uno puede demostrar que es biyectiva y una isometría entre y .
Si bien esta vista del vvRKHS puede ser útil en el aprendizaje multitarea, esta isometría no reduce el estudio del caso con valores vectoriales al caso con valores escalares. De hecho, este procedimiento de isometría puede hacer que tanto el kernel con valores escalares como el espacio de entrada sean demasiado difíciles de trabajar en la práctica, ya que las propiedades de los kernel originales a menudo se pierden. [10] [11] [12]
Una clase importante de núcleos reproductores con valores matriciales son los núcleos separables que se pueden factorizar como el producto de un núcleo con valor escalar y un-matriz semidefinida positiva simétrica dimensional. A la luz de nuestra discusión anterior, estos núcleos tienen la forma
para todos en y en . Como el kernel con valores escalares codifica las dependencias entre las entradas, podemos observar que el kernel con valores matriciales codifica las dependencias entre las entradas y las salidas.
Por último, observamos que la teoría anterior se puede extender aún más a espacios de funciones con valores en espacios de funciones, pero obtener núcleos para estos espacios es una tarea más difícil. [13]
Conexión entre RKHS con función ReLU
La función ReLU se define comúnmente comoy es un pilar en la arquitectura de redes neuronales donde se utiliza como función de activación. Se puede construir una función no lineal similar a ReLU utilizando la teoría de la reproducción de espacios de hilbert del núcleo. A continuación, derivamos esta construcción y mostramos cómo implica el poder de representación de las redes neuronales con activaciones ReLU.
Trabajaremos con el espacio Hilbert de funciones absolutamente continuas con y cuadrado integrable (es decir ) derivado. Tiene el producto interior
Para construir el núcleo de reproducción basta con considerar un subespacio denso, así que dejemos y . El teorema fundamental del cálculo da
dónde
y es decir
Esto implica reproduce .
Tomando el limite , obtenemos la función ReLU,
Usando esta formulación, podemos aplicar el teorema del Representante al RKHS, dejando que uno demuestre lo óptimo de usar activaciones ReLU en configuraciones de redes neuronales.
Ver también
- Núcleo definido positivo
- Teorema de mercer
- Truco de kernel
- Incrustación de distribuciones en el kernel
- Representante teorema
Notas
- ^ Alpay, D. y TM Mills. "Una familia de espacios de Hilbert que no reproducen los espacios del núcleo de Hilbert". J. Anal. Apl. 1.2 (2003): 107–111.
- ^ Z. Pasternak-Winiarski, Sobre pesos que admiten la reproducción del núcleo de tipo Bergman, Revista Internacional de Matemáticas y Ciencias Matemáticas, vol. 15, Número 1, 1992.
- ^ T. Ł. Żynda, ˙ Sobre pesas que admiten la reproducción de núcleos de tipo Szeg¨o, Journal of Contemporary Mathematical Analysis (Academia de Ciencias de Armenia), 55, 2020.
- ^ Okutmustur
- ^ Paulson
- ^ Durrett
- ^ Rosasco
- ^ Rosasco
- ^ Berlinet, Alain y Thomas, Christine. Reproduciendo espacios de Hilbert del núcleo en Probabilidad y Estadística , Kluwer Academic Publishers, 2004
- ^ De Vito
- ^ Zhang
- ^ Álvarez
- ^ Rosasco
Referencias
- Álvarez, Mauricio, Rosasco, Lorenzo y Lawrence, Neil, “Kernels for Vector-Valued Functions: a Review” , https://arxiv.org/abs/1106.6251 , junio de 2011.
- Aronszajn, Nachman (1950). "Teoría de la reproducción de granos" . Transacciones de la American Mathematical Society . 68 (3): 337–404. doi : 10.1090 / S0002-9947-1950-0051437-7 . JSTOR 1990404 . Señor 0051437 .
- Berlinet, Alain y Thomas, Christine. Reproduciendo espacios de Hilbert del núcleo en Probabilidad y Estadística , Kluwer Academic Publishers, 2004.
- Cucker, Felipe; Smale, Steve (2002). "Sobre los fundamentos matemáticos del aprendizaje" . Boletín de la American Mathematical Society . 39 (1): 1–49. doi : 10.1090 / S0273-0979-01-00923-5 . Señor 1864085 .
- De Vito, Ernest, Umanita, Veronica y Villa, Silvia. "Una extensión del teorema de Mercer a núcleos medibles con valores vectoriales", arXiv : 1110.4017 , junio de 2013.
- Durrett, Greg. 9.520 Notas del curso, Instituto de Tecnología de Massachusetts, https://www.mit.edu/~9.520/scribe-notes/class03_gdurett.pdf , febrero de 2010.
- Kimeldorf, George; Wahba, Grace (1971). "Algunos resultados sobre las funciones de spline de Tchebycheffian" (PDF) . Revista de Análisis y Aplicaciones Matemáticas . 33 (1): 82–95. doi : 10.1016 / 0022-247X (71) 90184-3 . Señor 0290013 .
- Okutmustur, Baver. “Reproducing Kernel Hilbert Spaces”, disertación de maestría, Bilkent University, http://www.thesis.bilkent.edu.tr/0002953.pdf , agosto de 2005.
- Paulsen, Vern. “Una introducción a la teoría de la reproducción de los espacios de Hilbert del núcleo”, http://www.math.uh.edu/~vern/rkhs.pdf .
- Steinwart, Ingo; Scovel, Clint (2012). "Teorema de Mercer sobre dominios generales: sobre la interacción entre medidas, núcleos y RKHS". Constr. Aprox . 35 (3): 363–417. doi : 10.1007 / s00365-012-9153-3 . Señor 2914365 .
- Rosasco, Lorenzo y Poggio, Thomas. "A Regularization Tour of Machine Learning - MIT 9.520 Lecture Notes", manuscrito, diciembre de 2014.
- Wahba, Grace , Modelos Spline para datos de observación , SIAM , 1990.
- Zhang, Haizhang; Xu, Yuesheng; Zhang, Qinghui (2012). "Refinamiento de los núcleos reproductores valorados por el operador" (PDF) . Revista de investigación sobre aprendizaje automático . 13 : 91-136.