En la teoría de operadores , una rama de las matemáticas, un núcleo definido positivo es una generalización de una función definida positiva o una matriz definida positiva . Fue introducido por primera vez por James Mercer a principios del siglo XX, en el contexto de la resolución de ecuaciones de operadores integrales . Desde entonces, las funciones definidas positivas y sus diversas analogías y generalizaciones han surgido en diversas partes de las matemáticas. Se producen de forma natural en el análisis de Fourier , teoría de la probabilidad , teoría de operadores , función compleja teoría , problemas momento , ecuaciones integrales, problemas de valor límite para ecuaciones diferenciales parciales , aprendizaje automático , problema de incorporación , teoría de la información y otras áreas.
Este artículo discutirá algunos de los desarrollos históricos y actuales de la teoría de los núcleos definidos positivos, comenzando con la idea general y las propiedades antes de considerar las aplicaciones prácticas.
Definición
Dejar ser un conjunto no vacío, a veces denominado conjunto de índices. Una función simétrica se llama kernel positivo-definido (pd) en Si
se sostiene para cualquier , dado .
En la teoría de la probabilidad, a veces se hace una distinción entre núcleos definidos positivos, para los cuales la igualdad en (1.1) implica y núcleos semidefinidos positivos (psd), que no imponen esta condición. Tenga en cuenta que esto es equivalente a requerir que cualquier matriz finita construida por evaluación por pares,, tiene valores propios completamente positivos (pd) o no negativos (psd) .
En la literatura matemática, los núcleos suelen ser funciones con valores complejos, pero en este artículo asumimos funciones con valores reales, que es la práctica común en las aplicaciones de los núcleos pd.
Algunas propiedades generales
- Para una familia de núcleos pd
- La suma es pd, dado
- El producto es pd, dado
- El límite es pd si existe el límite.
- Si es una secuencia de conjuntos, y una secuencia de núcleos pd, luego ambos
- y
- ¿Están los núcleos pd en .
- Dejar . Entonces la restricción de a también es un kernel pd.
Ejemplos de pd kernels
- Ejemplos comunes de núcleos pd definidos en el espacio euclidiano incluir:
- Núcleo lineal: .
- Núcleo polinomial :.
- Núcleo gaussiano (núcleo RBF ):.
- Núcleo laplaciano: .
- Núcleo de Abel: .
- kernel que genera espacios Sobolev : , dónde es la función de Bessel del tercer tipo .
- kernel que genera el espacio Paley-Wiener: .
- Si es un espacio de Hilbert , entonces su correspondiente producto internoes un kernel pd. De hecho, tenemos
- Núcleos definidos en e histogramas: los histogramas se encuentran con frecuencia en aplicaciones de problemas de la vida real. La mayoría de las observaciones suelen estar disponibles en forma de vectores de recuentos no negativos que, si se normalizan, producen histogramas de frecuencias. Se ha demostrado [1] que la siguiente familia de métricas cuadradas, respectivamente la divergencia de Jensen, la-cuadrado, variación total y dos variaciones de la distancia Hellinger:
se puede usar para definir núcleos pd usando la siguiente fórmula
Historia
Los núcleos positivos definidos, como se definen en (1.1), aparecieron por primera vez en 1909 en un artículo sobre ecuaciones integrales de James Mercer. [2] Varios otros autores hicieron uso de este concepto en las siguientes dos décadas, pero ninguno de ellos utilizó explícitamente kernels, funciones iepd (de hecho, M. Mathias y S. Bochner parecen no haber sido conscientes del estudio de los núcleos pd). El trabajo de Mercer surgió del artículo de Hilbert de 1904 [3] sobre las ecuaciones integrales de Fredholm del segundo tipo:
En particular, Hilbert había demostrado que
dónde es un núcleo simétrico real continuo, es continuo, es un sistema completo de funciones propias ortonormales , yson los valores propios correspondientes de (1.2). Hilbert definió un núcleo "definido" como aquel para el que la integral doble
satisface excepto por . El objeto original del artículo de Mercer era caracterizar los núcleos que son definidos en el sentido de Hilbert, pero Mercer pronto descubrió que la clase de tales funciones era demasiado restrictiva para caracterizarlos en términos de determinantes. Por lo tanto, definió un núcleo simétrico real continuo ser de tipo positivo (es decir, positivo-definido) si para todas las funciones continuas reales en , y demostró que (1.1) es una condición necesaria y suficiente para que un kernel sea de tipo positivo. Mercer luego demostró que para cualquier núcleo pd continuo, la expansión
se mantiene absoluta y uniformemente.
Aproximadamente al mismo tiempo WH Young, [4] motivado por una pregunta diferente en la teoría de ecuaciones integrales, mostró que para núcleos continuos la condición (1.1) es equivalente a para todos .
EH Moore [5] [6] inició el estudio de un tipo muy general de kernel pd. Si es un conjunto abstracto, él llama funciones definido en "Matrices hermitianas positivas" si satisfacen (1.1) para todos . Moore estaba interesado en la generalización de ecuaciones integrales y mostró que para cada uno de estos hay un espacio de Hilbert de funciones tales que, para cada . Esta propiedad se denomina propiedad de reproducción del núcleo y resulta tener importancia en la solución de problemas de valores en la frontera para ecuaciones diferenciales parciales elípticas.
Otra línea de desarrollo en la que los núcleos pd jugaron un papel importante fue la teoría de armónicos en espacios homogéneos, iniciada por E. Cartan en 1929 y continuada por H. Weyl y S. Ito. La teoría más completa de los núcleos pd en espacios homogéneos es la de M. Kerin [7] que incluye como casos especiales el trabajo sobre funciones pd y representaciones unitarias irreductibles de grupos localmente compactos.
En la teoría de la probabilidad, los núcleos pd surgen como núcleos de covarianza de procesos estocásticos. [8]
Conexión con la reproducción de mapas de características y espacios de Hilbert del kernel
Los núcleos de definición positiva proporcionan un marco que abarca algunas construcciones espaciales básicas de Hilbert. A continuación, presentamos una estrecha relación entre los núcleos definidos positivos y dos objetos matemáticos, a saber, la reproducción de espacios de Hilbert y mapas de características.
Dejar ser un conjunto un espacio de funciones de Hilbert , y el producto interior correspondiente en . Para cualquier la evaluación funcional es definido por . Primero definimos un espacio de Hilbert del núcleo de reproducción (RKHS):
Definición : Espacio Se denomina espacio de Hilbert del núcleo de reproducción si los funcionales de evaluación son continuos.
Cada RKHS tiene una función especial asociada, a saber, el kernel de reproducción:
Definición : reproducir el kernel es una función tal que
- 1) , y
- 2) , para todos y .
La última propiedad se llama propiedad de reproducción.
El siguiente resultado muestra la equivalencia entre RKHS y los núcleos en reproducción:
Teorema : cada núcleo en reproducción induce un RKHS único, y cada RKHS tiene un kernel de reproducción único.
Ahora, la conexión entre los núcleos pd y RKHS viene dada por el siguiente teorema
Teorema : Cada núcleo en reproducción es positivo-definido, y cada núcleo pd define un RKHS único, del cual es el núcleo en reproducción único.
Por lo tanto, dado un kernel positivo-definido , es posible construir un RKHS asociado con como un núcleo de reproducción.
Como se indicó anteriormente, los núcleos pd se pueden construir a partir de productos internos. Este hecho se puede utilizar para conectar los núcleos pd con otro objeto interesante que surge en las aplicaciones de aprendizaje automático, a saber, el mapa de características. Dejar ser un espacio de Hilbert, y el producto interior correspondiente. Cualquier mapase llama mapa de características. En este caso llamamosel espacio de características. Es fácil ver [9] que cada mapa de características define un kernel pd único por
De hecho, la definicin positiva de se sigue de la propiedad pd del producto interno. Por otro lado, cada kernel de pd, y su correspondiente RKHS, tienen muchos mapas de características asociados. Por ejemplo: Let, y para todos . Luego, por la propiedad de reproducción. Esto sugiere una nueva mirada a los núcleos pd como productos internos en espacios de Hilbert apropiados, o en otras palabras, los núcleos pd pueden verse como mapas de similitud que cuantifican efectivamente cuán similares son dos puntos. y son a través del valor . Además, a través de la equivalencia de los núcleos pd y su correspondiente RKHS, cada mapa de características se puede utilizar para construir un RKHS.
Núcleos y distancias
Los métodos de kernel a menudo se comparan con métodos basados en la distancia, como los vecinos más cercanos . En esta sección discutimos los paralelismos entre sus dos ingredientes respectivos, a saber, los granos y distancias .
Aquí por una función de distancia entre cada par de elementos de algún conjunto , nos referimos a una métrica definida en ese conjunto, es decir, cualquier función con valores no negativos en que satisface
- , y si y solo si ,
- ,
- .
Un vínculo entre las distancias y los núcleos pd viene dado por un tipo particular de núcleo, llamado núcleo definido negativo, y se define de la siguiente manera
Definición : una función simétrica se llama kernel negativo definido (nd) en Si
se sostiene para cualquier y tal que .
El paralelo entre nd kernels y distancias es el siguiente: siempre que un nd kernel desaparece en el conjunto , y es cero solo en este conjunto, entonces su raíz cuadrada es una distancia para . [10] Al mismo tiempo, cada distancia no corresponde necesariamente a un nd kernel. Esto solo es cierto para distancias Hilbertianas, donde la distancia se llama Hilbertian si se puede incrustar el espacio métrico isométricamente en algún espacio de Hilbert.
Por otro lado, los núcleos nd se pueden identificar con una subfamilia de núcleos pd conocidos como núcleos infinitamente divisibles. Un kernel de valor no negativo se dice que es infinitamente divisible si para cada existe un kernel positivo-definido tal que .
Otro vínculo es que un núcleo pd induce una pseudométrica , donde la primera restricción en la función de distancia se afloja para permitir por . Dado un kernel positivo-definido, podemos definir una función de distancia como:
Algunas aplicaciones
Kernels en el aprendizaje automático
Los núcleos definidos positivos, a través de su equivalencia con la reproducción de los espacios de Hilbert del núcleo, son particularmente importantes en el campo de la teoría del aprendizaje estadístico debido al célebre teorema del representador que establece que cada función minimizadora en un RKHS puede escribirse como una combinación lineal de la función del núcleo. evaluado en los puntos de entrenamiento. Este es un resultado prácticamente útil ya que simplifica eficazmente el problema de minimización del riesgo empírico de un problema de optimización de dimensión infinita a uno de dimensión finita.
Kernels en modelos probabilísticos
Hay varias formas diferentes en las que surgen los núcleos en la teoría de la probabilidad.
- Problemas de recuperación no deterministas: supongamos que queremos encontrar la respuesta de una función de modelo desconocida en un nuevo punto de un conjunto , siempre que tengamos una muestra de pares de entrada-respuesta dado por observación o experimento. La respuesta a no es una función fija de sino más bien una realización de una variable aleatoria de valor real . El objetivo es obtener información sobre la función. que reemplaza en el marco determinista. Para dos elementos las variables aleatorias y no estará descorrelacionado, porque si está demasiado cerca de los experimentos aleatorios descritos por y a menudo mostrará un comportamiento similar. Esto se describe mediante un kernel de covarianza. Tal núcleo existe y es positivo-definido bajo supuestos adicionales débiles. Ahora una buena estimación para se puede obtener utilizando la interpolación del kernel con el kernel de covarianza, ignorando por completo el trasfondo probabilístico.
Suponga ahora que una variable de ruido , con media y varianza cero , se agrega a , de modo que el ruido sea independiente para diferentes e independiente de allí, entonces el problema de encontrar una buena estimación para es idéntico al anterior, pero con un kernel modificado dado por .
- Estimación de la densidad por granos: el problema es recuperar la densidad de una distribución multivariante sobre un dominio , de una gran muestra incluyendo repeticiones. Cuando los puntos de muestreo son densos, la función de densidad real debe tomar valores grandes. Es posible realizar una estimación de densidad simple contando el número de muestras en cada celda de una cuadrícula y trazando el histograma resultante, que produce una estimación de densidad constante por partes. Se puede obtener una mejor estimación utilizando un kernel invariante de traducción no negativa, con integral total igual a uno, y definir
como una estimación suave.
Solución numérica de ecuaciones diferenciales parciales
Una de las mayores áreas de aplicación de los llamados métodos sin malla es la solución numérica de PDE . Algunos de los métodos populares sin malla están estrechamente relacionados con los granos definidos positivos (como el Petrov Galerkin local sin malla (MLPG) , el método de reproducción de partículas del grano (RKPM) y la hidrodinámica de partículas suavizadas (SPH) ). Estos métodos utilizan kernel de base radial para la colocación . [11]
Teorema de dilatación del resorte de estímulo
Otras aplicaciones
En la literatura sobre experimentos informáticos [12] y otros experimentos de ingeniería, uno encuentra cada vez más modelos basados en núcleos pd, RBF o kriging . Uno de esos temas es el modelado de superficies de respuesta . Otros tipos de aplicaciones que se reducen a la adaptación de datos son la creación rápida de prototipos y los gráficos por computadora . Aquí, a menudo se utilizan modelos de superficie implícitos para aproximar o interpolar datos de nubes de puntos.
Las aplicaciones de los núcleos pd en varias otras ramas de las matemáticas son la integración multivariante, la optimización multivariante y el análisis numérico y la computación científica, donde se estudian algoritmos rápidos, precisos y adaptativos idealmente implementados en entornos de computación de alto rendimiento. [13]
Ver también
- Función de covarianza
- Ecuación integral
- Transformada integral
- Función positiva-definida en un grupo
- Reproducción del espacio de Hilbert del kernel
- Método de kernel
Referencias
- ^ Hein, M. y Bousquet, O. (2005). " Métricas de Hilbertian y núcleos definidos positivos en medidas de probabilidad ". En Ghahramani, Z. y Cowell, R., editores, Proceedings of AISTATS 2005.
- ^ Mercer, J. (1909). “Funciones de tipo positivo y negativo y su conexión con la teoría de ecuaciones integrales”. Transacciones filosóficas de la Royal Society de Londres, Serie A 209, págs. 415-446.
- ^ Hilbert, D. (1904). "Grundzuge einer allgemeinen Theorie der linearen Integralgleichungen I", Gott. Nachrichten, matemáticas.-fis. K1 (1904), págs. 49-91.
- ^ Joven, WH (1909). "Una nota sobre una clase de funciones simétricas y sobre un teorema requerido en la teoría de ecuaciones integrales", Philos. Trans. Roy.Soc. Londres, Ser. A, 209, págs. 415-446.
- ^ Moore, EH (1916). "Sobre matrices hermitianas debidamente positivas", Bull. Amer. Matemáticas. Soc. 23, 59, págs. 66-67.
- ^ Moore, EH (1935). "Análisis general, Parte I", Memorias Amer. Philos. Soc. 1, Filadelfia.
- ^ Kerin. M (1949/1950). "Núcleos hermitianos positivos en espacios homogéneos I y II" (en ruso), Ukrain. Estera. Z.1 (1949), págs. 64-98, y 2 (1950), págs. 10-59. Traducción al inglés: Amer. Matemáticas. Soc. Traducciones Ser. 2, 34 (1963), págs. 69-164.
- ^ Loève, M. (1960). "Teoría de la probabilidad", 2ª ed., Van Nostrand, Princeton, Nueva Jersey
- ^ Rosasco, L. y Poggio, T. (2015). Manuscrito "Un recorrido por la regularización del aprendizaje automático - MIT 9.520 Lecture Notes".
- ^ Berg, C., Christensen, JPR y Ressel, P. (1984). "Análisis de armónicos en semigrupos". Número 100 en Textos de Posgrado en Matemáticas, Springer Verlag.
- ^ Schabak, R. y Wendland, H. (2006). "Técnicas de kernel: del aprendizaje automático a los métodos sin malla", Cambridge University Press, Acta Numerica (2006), págs. 1-97.
- ^ Haaland, B. y Qian, PZG (2010). "Emuladores precisos para experimentos informáticos a gran escala", Ann. Stat.
- ^ Gumerov, NA y Duraiswami, R. (2007). " Interpolación de función de base radial rápida mediante iteración de Krylov preacondicionada ". SIAM J. Scient. Computación 29/5, págs. 1876-1899.