Incrustación de distribuciones en el kernel

En el aprendizaje automático , la incrustación de distribuciones del kernel (también llamada media del kernel o mapa de medias ) comprende una clase de métodos no paramétricos en los que una distribución de probabilidad se representa como un elemento de un espacio de Hilbert del kernel de reproducción (RKHS). ^[1] Una generalización del mapeo de características de puntos de datos individuales realizada en métodos clásicos del kernel , la incrustación de distribuciones en espacios de características de dimensión infinita puede preservar todas las características estadísticas de distribuciones arbitrarias, al tiempo que permite comparar y manipular distribuciones usando Hilbert operaciones espaciales comoproductos internos , distancias, proyecciones , transformaciones lineales y análisis espectral . ^[2] Este marco de aprendizaje es muy general y se puede aplicar a distribuciones en cualquier espacio. ${\ Displaystyle \ Omega}$ en el que funciona un núcleo sensible (midiendo la similitud entre elementos de ${\ Displaystyle \ Omega}$ ) puede definirse. Por ejemplo, se han propuesto varios núcleos para aprender de datos que son: vectores en ${\ Displaystyle \ mathbb {R} ^ {d}}$ , clases / categorías discretas, cadenas , gráficos / redes , imágenes, series de tiempo , variedades , sistemas dinámicos y otros objetos estructurados. ^[3]^[4] La teoría detrás de las incrustaciones de distribuciones del kernel ha sido desarrollada principalmente por Alex Smola , Le Song , Arthur Gretton y Bernhard Schölkopf . Se puede encontrar una revisión de trabajos recientes sobre la incrustación de distribuciones en el núcleo. ^[5]

El análisis de distribuciones es fundamental en el aprendizaje automático y las estadísticas , y muchos algoritmos en estos campos se basan en enfoques teóricos de la información como la entropía , la información mutua o la divergencia Kullback-Leibler . Sin embargo, para estimar estas cantidades, primero se debe realizar una estimación de densidad o emplear estrategias sofisticadas de partición de espacio / corrección de sesgo que normalmente no son factibles para datos de alta dimensión. ^{[6] Por lo general} , los métodos para modelar distribuciones complejas se basan en supuestos paramétricos que pueden ser infundados o desafiantes computacionalmente (por ejemplo, modelos de mezcla gaussiana ), mientras que los métodos no paramétricos como la estimación de la densidad del núcleo (Nota: los núcleos de suavizado en este contexto tienen una interpretación diferente a la kernels discutidos aquí) o la representación de funciones características (a través de la transformada de Fourier de la distribución) se descomponen en configuraciones de alta dimensión. ^[2]

Los métodos basados en la incrustación de distribuciones en el núcleo evitan estos problemas y también poseen las siguientes ventajas: ^[6]

Los datos se pueden modelar sin suposiciones restrictivas sobre la forma de las distribuciones y las relaciones entre las variables.
No se necesita una estimación de densidad intermedia
Los profesionales pueden especificar las propiedades de una distribución más relevantes para su problema (incorporando conocimientos previos mediante la elección del núcleo)
Si se usa un kernel característico , entonces la incrustación puede preservar de manera única toda la información sobre una distribución, mientras que gracias al truco del kernel , los cálculos en el RKHS de dimensión potencialmente infinita se pueden implementar en la práctica como simples operaciones de matriz de Gram.
Se pueden probar las tasas de convergencia independientes de la dimensionalidad para la media del kernel empírica (estimada utilizando muestras de la distribución) con la incorporación del kernel de la verdadera distribución subyacente.
Los algoritmos de aprendizaje basados en este marco exhiben una buena capacidad de generalización y convergencia de muestras finitas, mientras que a menudo son más simples y efectivos que los métodos teóricos de la información.

Por lo tanto, el aprendizaje a través de la integración de distribuciones del kernel ofrece un reemplazo de principio para los enfoques teóricos de la información y es un marco que no solo subsume muchos métodos populares en aprendizaje automático y estadísticas como casos especiales, sino que también puede conducir a algoritmos de aprendizaje completamente nuevos.

Definiciones

Dejar ${\ Displaystyle X}$ denotar una variable aleatoria con dominio ${\ Displaystyle \ Omega}$ y distribución ${\ Displaystyle P.}$ Dado un kernel ${\ Displaystyle k}$ en ${\ Displaystyle \ Omega \ times \ Omega,}$ el teorema de Moore-Aronszajn afirma la existencia de un RKHS ${\ Displaystyle {\ mathcal {H}}}$ (un espacio de funciones de Hilbert ${\ Displaystyle f: \ Omega \ to \ mathbb {R}}$ equipado con productos internos ${\ Displaystyle \ langle \ cdot, \ cdot \ rangle _ {\ mathcal {H}}}$ y normas ${\ Displaystyle \ | \ cdot \ | _ {\ mathcal {H}}}$ ) en el que el elemento ${\ Displaystyle k (x, \ cdot)}$ satisface la propiedad de reproducción

{\ Displaystyle \ forall f \ in {\ mathcal {H}}, \ forall x \ in \ Omega \ qquad \ langle f, k (x, \ cdot) \ rangle _ {\ mathcal {H}} = f (x ).}

Alternativamente, uno puede considerar ${\ Displaystyle k (x, \ cdot)}$ un mapeo de características implícito ${\ Displaystyle \ varphi (x)}$ de ${\ Displaystyle \ Omega}$ a ${\ Displaystyle {\ mathcal {H}}}$ (que por lo tanto también se llama espacio de características), de modo que ${\ Displaystyle k (x, x ') = \ langle \ varphi (x), \ varphi (x') \ rangle _ {\ mathcal {H}}}$ puede verse como una medida de similitud entre puntos ${\ Displaystyle x, x '\ in \ Omega.}$ Si bien la medida de similitud es lineal en el espacio de características, puede ser muy no lineal en el espacio original según la elección del kernel.

Incrustación de kernel

La incrustación del kernel de la distribución ${\ Displaystyle P}$ en ${\ Displaystyle {\ mathcal {H}}}$ (también llamado la media del núcleo o mapa de medias ) viene dada por: ^[1]

{\ Displaystyle \ mu _ {X}: = \ mathbb {E} [k (X, \ cdot)] = \ mathbb {E} [\ varphi (X)] = \ int _ {\ Omega} \ varphi (x ) \ \ mathrm {d} P (x)}

Si ${\ Displaystyle P}$ permite una densidad cuadrada integrable ${\ Displaystyle p}$ , luego ${\ Displaystyle \ mu _ {X} = {\ mathcal {E}} _ {k} p}$ , dónde ${\ Displaystyle {\ mathcal {E}} _ {k}}$ es el operador integral de Hilbert-Schmidt . Un kernel es característico si la incrustación media ${\ Displaystyle \ mu: \ {{\ text {familia de distribuciones sobre}} \ Omega \} \ to {\ mathcal {H}}}$ es inyectable. ^{[7] Por tanto,} cada distribución se puede representar de forma única en el RKHS y todas las características estadísticas de las distribuciones se conservan mediante la incorporación del núcleo si se utiliza un núcleo característico.

Incrustación empírica del núcleo

Dado ${\ Displaystyle n}$ ejemplos de entrenamiento ${\ Displaystyle \ {x_ {1}, \ ldots, x_ {n} \}}$ dibujado de forma independiente e idénticamente distribuida (iid) de ${\ Displaystyle P,}$ la incrustación del núcleo de ${\ Displaystyle P}$ se puede estimar empíricamente como

{\ Displaystyle {\ widehat {\ mu}} _ {X} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ varphi (x_ {i})}

Incrustación de distribución conjunta

Si ${\ Displaystyle Y}$ denota otra variable aleatoria (para simplificar, suponga el co-dominio de ${\ Displaystyle Y}$ es también ${\ Displaystyle \ Omega}$ con el mismo kernel ${\ Displaystyle k}$ que satisface ${\ Displaystyle \ langle \ varphi (x) \ otimes \ varphi (y), \ varphi (x ') \ otimes \ varphi (y') \ rangle = k (x, x ') \ otimes k (y, y' )}$ ), luego la distribución conjunta ${\ Displaystyle P (x, y))}$ se puede mapear en un espacio de características de producto tensorial ${\ Displaystyle {\ mathcal {H}} \ otimes {\ mathcal {H}}}$ a través de ^[2]

{\ Displaystyle {\ mathcal {C}} _ ​​{XY} = \ mathbb {E} [\ varphi (X) \ otimes \ varphi (Y)] = \ int _ {\ Omega \ times \ Omega} \ varphi (x ) \ otimes \ varphi (y) \ \ mathrm {d} P (x, y)}

Por la equivalencia entre un tensor y un mapa lineal , esta incrustación conjunta puede interpretarse como un operador de covarianza cruzada no centrado ${\ Displaystyle {\ mathcal {C}} _ {XY}: {\ mathcal {H}} \ to {\ mathcal {H}}}$ de donde funciona la covarianza cruzada de media cero ${\ Displaystyle f, g \ in {\ mathcal {H}}}$ se puede calcular como ^[8]

{\ Displaystyle \ operatorname {Cov} (f (X), g (Y)): = \ mathbb {E} [f (X) g (Y)] = \ langle f, {\ mathcal {C}} _ ​​{ XY} g \ rangle _ {\ mathcal {H}} = \ langle f \ otimes g, {\ mathcal {C}} _ ​​{XY} \ rangle _ {{\ mathcal {H}} \ otimes {\ mathcal {H }}}}

Dado ${\ Displaystyle n}$ pares de ejemplos de entrenamiento ${\ Displaystyle \ {(x_ {1}, y_ {1}), \ dots, (x_ {n}, y_ {n}) \}}$ extraído de iid ${\ Displaystyle P}$ , también podemos estimar empíricamente la integración del núcleo de distribución conjunta a través de

{\ Displaystyle {\ widehat {\ mathcal {C}}} _ {XY} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ varphi (x_ {i}) \ a veces \ varphi (y_ {i})}

Incrustación de distribución condicional

Dada una distribución condicional ${\ Displaystyle P (y \ mid x),}$ se puede definir la incrustación RKHS correspondiente como ^[2]

{\ Displaystyle \ mu _ {Y \ mid x} = \ mathbb {E} [\ varphi (Y) \ mid X] = \ int _ {\ Omega} \ varphi (y) \ \ mathrm {d} P (y \ mid x)}

Tenga en cuenta que la incrustación de ${\ Displaystyle P (y \ mid x)}$ define así una familia de puntos en el RKHS indexados por los valores ${\ Displaystyle x}$ tomado por variable condicionante ${\ Displaystyle X}$ . Arreglando ${\ Displaystyle X}$ a un valor particular, obtenemos un solo elemento en ${\ Displaystyle {\ mathcal {H}}}$ , por lo que es natural definir el operador

{\ Displaystyle {\ begin {cases} {\ mathcal {C}} _ ​​{Y \ mid X}: {\ mathcal {H}} \ to {\ mathcal {H}} \\ {\ mathcal {C}} _ {Y \ mid X} = {\ mathcal {C}} _ ​​{YX} {\ mathcal {C}} _ ​​{XX} ^ {- 1} \ end {cases}}}

que dado el mapeo de características de ${\ Displaystyle x}$ genera la incrustación condicional de ${\ Displaystyle Y}$ dado ${\ Displaystyle X = x.}$ Asumiendo que para todos ${\ Displaystyle g \ in {\ mathcal {H}}: \ mathbb {E} [g (Y) \ mid X] \ in {\ mathcal {H}},}$ se puede demostrar que ^[8]

{\ Displaystyle \ mu _ {Y \ mid x} = {\ mathcal {C}} _ ​​{Y \ mid X} \ varphi (x)}

Esta suposición es siempre cierta para dominios finitos con núcleos característicos, pero no necesariamente es válida para dominios continuos. ^[2] Sin embargo, incluso en los casos en que la suposición falla, ${\ Displaystyle {\ mathcal {C}} _ {Y \ mid X} \ varphi (x)}$ todavía se puede utilizar para aproximar la incrustación condicional del kernel ${\ Displaystyle \ mu _ {Y \ mid x},}$ y en la práctica, el operador de inversión se reemplaza con una versión regularizada de sí mismo ${\ Displaystyle ({\ mathcal {C}} _ {XX} + \ lambda \ mathbf {I}) ^ {- 1}}$ (dónde ${\ Displaystyle \ mathbf {I}}$ denota la matriz de identidad ).

Ejemplos de entrenamiento dados ${\ Displaystyle \ {(x_ {1}, y_ {1}), \ dots, (x_ {n}, y_ {n}) \},}$ el operador de incrustación condicional del kernel empírico se puede estimar como ^[2]

{\ displaystyle {\ widehat {C}} _ ​​{Y \ mid X} = {\ boldsymbol {\ Phi}} (\ mathbf {K} + \ lambda \ mathbf {I}) ^ {- 1} {\ boldsymbol { \ Upsilon}} ^ {T}}

dónde ${\ displaystyle {\ boldsymbol {\ Phi}} = \ left (\ varphi (y_ {i}), \ dots, (y_ {n}) \ right), {\ boldsymbol {\ Upsilon}} = \ left (\ varphi (x_ {i}), \ dots, (x_ {n}) \ right)}$ son matrices de características formadas implícitamente, ${\ Displaystyle \ mathbf {K} = {\ boldsymbol {\ Upsilon}} ^ {T} {\ boldsymbol {\ Upsilon}}}$ es la matriz de Gram para muestras de ${\ Displaystyle X}$ , y ${\ Displaystyle \ lambda}$ es un parámetro de regularización necesario para evitar el sobreajuste .

Por tanto, la estimación empírica de la incrustación condicional del núcleo viene dada por una suma ponderada de muestras de ${\ Displaystyle Y}$ en el espacio de características:

{\ Displaystyle {\ widehat {\ mu}} _ {Y \ mid x} = \ sum _ {i = 1} ^ {n} \ beta _ {i} (x) \ varphi (y_ {i}) = { \ boldsymbol {\ Phi}} {\ boldsymbol {\ beta}} (x)}

dónde ${\ Displaystyle {\ boldsymbol {\ beta}} (x) = (\ mathbf {K} + \ lambda \ mathbf {I}) ^ {- 1} \ mathbf {K} _ {x}}$ y ${\ Displaystyle \ mathbf {K} _ {x} = \ left (k (x_ {1}, x), \ dots, k (x_ {n}, x) \ right) ^ {T}}$

Propiedades

La expectativa de cualquier función ${\ Displaystyle f}$ en el RKHS se puede calcular como un producto interno con la incrustación del kernel:

{\ Displaystyle \ mathbb {E} [f (X)] = \ langle f, \ mu _ {X} \ rangle _ {\ mathcal {H}}}

En presencia de grandes tamaños de muestra, las manipulaciones del ${\ Displaystyle n \ times n}$ La matriz de Gram puede ser computacionalmente exigente. Mediante el uso de una aproximación de rango bajo de la matriz de Gram (como la factorización Cholesky incompleta ), el tiempo de ejecución y los requisitos de memoria de los algoritmos de aprendizaje basados en incrustaciones de kernel se pueden reducir drásticamente sin sufrir mucha pérdida en la precisión de la aproximación. ^[2]

Convergencia de la media del kernel empírica a la verdadera distribución incrustada

Si ${\ Displaystyle k}$ se define de tal manera que ${\ Displaystyle f}$ toma valores en ${\ Displaystyle [0,1]}$ para todos ${\ Displaystyle f \ in {\ mathcal {H}}}$ con ${\ Displaystyle \ | f \ | _ {\ mathcal {H}} \ leq 1}$ (como es el caso de los núcleos de función de base radial ampliamente utilizados ), entonces con probabilidad al menos ${\ Displaystyle 1- \ delta}$ : ^[6]

{\ Displaystyle \ | \ mu _ {X} - {\ widehat {\ mu}} _ {X} \ | _ {\ mathcal {H}} = \ sup _ {f \ in {\ mathcal {B}} ( 0,1)} \ left | \ mathbb {E} [f (X)] - {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} f (x_ {i}) \ derecha | \ leq {\ frac {2} {n}} \ mathbb {E} \ left [{\ sqrt {\ operatorname {tr} K}} \ right] + {\ sqrt {\ frac {\ log (2 / \ delta)} {2n}}}}

dónde

{\ Displaystyle {\ mathcal {B}} (0,1)}

denota la bola unitaria en

{\ Displaystyle {\ mathcal {H}}}

y

{\ Displaystyle \ mathbf {K} = (k_ {ij})}

es la matriz de Gram con

{\ Displaystyle k_ {ij} = k (x_ {i}, x_ {j}).}

La tasa de convergencia (en la norma RKHS) de la incrustación empírica del núcleo a su contraparte de distribución es ${\ Displaystyle O (n ^ {- 1/2})}$ y no depende de la dimensión de ${\ Displaystyle X}$ .

Las estadísticas basadas en incrustaciones de kernel evitan así la maldición de la dimensionalidad , y aunque en la práctica se desconoce la verdadera distribución subyacente, se puede (con alta probabilidad) obtener una aproximación dentro de ${\ Displaystyle O (n ^ {- 1/2})}$ de la verdadera incrustación del kernel basada en una muestra finita de tamaño ${\ Displaystyle n}$ .

Para la inclusión de distribuciones condicionales, la estimación empírica puede verse como un promedio ponderado de asignaciones de características (donde las ponderaciones ${\ Displaystyle \ beta _ {i} (x)}$ dependen del valor de la variable condicionante y capturan el efecto del condicionamiento en la incrustación del grano). En este caso, la estimación empírica converge a la distribución condicional RKHS incrustada con tasa ${\ Displaystyle O \ left (n ^ {- 1/4} \ right)}$ si el parámetro de regularización ${\ Displaystyle \ lambda}$ se reduce como ${\ Displaystyle O \ left (n ^ {- 1/2} \ right),}$ aunque se pueden lograr tasas de convergencia más rápidas colocando supuestos adicionales en la distribución conjunta. ^[2]

Granos universales

Dejando ${\ Displaystyle C ({\ mathcal {X}})}$ denotar el espacio de funciones acotadas continuas en un dominio compacto ${\ Displaystyle {\ mathcal {X}}}$ , llamamos un kernel ${\ Displaystyle k}$ universal si ${\ Displaystyle k (x, \ cdot)}$ es continuo para todos ${\ Displaystyle x}$ y el RKHS inducido por ${\ Displaystyle k}$ es denso en ${\ Displaystyle C ({\ mathcal {X}})}$ .

Si ${\ Displaystyle k}$ induce una matriz de kernel definida estrictamente positiva para cualquier conjunto de puntos distintos, entonces es un kernel universal. ^[6] Por ejemplo, el kernel RBF gaussiano ampliamente utilizado

{\ Displaystyle k (x, x ') = \ exp \ left (- {\ frac {1} {2 \ sigma ^ {2}}} \ | x-x' \ | ^ {2} \ right)}

en subconjuntos compactos de

{\ Displaystyle \ mathbb {R} ^ {d}}

es universal.

Si ${\ Displaystyle k}$ es invariante al cambio ${\ Displaystyle h (xy) = k (x, y)}$ y su representación en el dominio de Fourier es

{\ Displaystyle h (t) = \ int e ^ {- i \ langle t, \ omega \ rangle} \ mu (d \ omega)}

y apoyo de

{\ Displaystyle \ mu}

es un espacio completo, entonces

{\ Displaystyle k}

es universal. ^[9] Por ejemplo, Gaussian RBF es universal, sinc kernel no es universal.

Si ${\ Displaystyle k}$ es universal, entonces es característico , es decir, la incrustación del kernel es uno a uno. ^[10]

Selección de parámetros para incrustaciones de kernel de distribución condicional

El operador empírico de incrustación de distribución condicional del kernel ${\ Displaystyle {\ widehat {\ mathcal {C}}} _ {Y | X}}$ alternativamente, puede verse como la solución del siguiente problema de regresión de mínimos cuadrados regularizados (con valores de función) ^[11]

{\ Displaystyle \ min _ {{\ mathcal {C}}: {\ mathcal {H}} \ to {\ mathcal {H}}} \ sum _ {i = 1} ^ {n} \ left \ | \ varphi (y_ {i}) - {\ mathcal {C}} \ varphi (x_ {i}) \ right \ | _ {\ mathcal {H}} ^ {2} + \ lambda \ | {\ mathcal {C}} \ | _ {HS} ^ {2}}

dónde

{\ Displaystyle \ | \ cdot \ | _ {HS}}

es la norma de Hilbert-Schmidt .

Por tanto, se puede seleccionar el parámetro de regularización ${\ Displaystyle \ lambda}$ realizando una validación cruzada basada en la función de pérdida al cuadrado del problema de regresión.

Reglas de probabilidad como operaciones en el RKHS

Esta sección ilustra cómo las reglas probabilísticas básicas pueden reformularse como operaciones algebraicas (multi) lineales en el marco de integración del kernel y se basa principalmente en el trabajo de Song et al. ^[2]^[8] Se adopta la siguiente notación:

${\ displaystyle P (X, Y) =}$ distribución conjunta sobre variables aleatorias ${\ Displaystyle X, Y}$

${\ Displaystyle P (X) = \ int _ {\ Omega} P (X, \ mathrm {d} y) =}$ distribución marginal de ${\ Displaystyle X}$ ; ${\ Displaystyle P (Y) =}$ distribución marginal de ${\ Displaystyle Y}$

${\ Displaystyle P (Y \ mid X) = {\ frac {P (X, Y)} {P (X)}} =}$ distribución condicional de ${\ Displaystyle Y}$ dado ${\ Displaystyle X}$ con el operador de incrustación condicional correspondiente ${\ Displaystyle {\ mathcal {C}} _ {Y \ mid X}}$

${\ Displaystyle \ pi (Y) =}$ distribución previa sobre ${\ Displaystyle Y}$

${\ displaystyle Q}$ se utiliza para distinguir las distribuciones que incorporan las distribuciones a priori ${\ Displaystyle P}$ que no se basan en la anterior

En la práctica, todas las incorporaciones se estiman empíricamente a partir de datos ${\ Displaystyle \ {(x_ {1}, y_ {1}), \ dots, (x_ {n}, y_ {n}) \}}$ y asumió que un conjunto de muestras ${\ displaystyle \ {{\ widetilde {y}} _ {1}, \ ldots, {\ widetilde {y}} _ {\ widetilde {n}} \}}$ se puede utilizar para estimar la incrustación del núcleo de la distribución anterior ${\ Displaystyle \ pi (Y)}$ .

Regla de la suma del kernel

En la teoría de la probabilidad, la distribución marginal de ${\ Displaystyle X}$ se puede calcular integrando ${\ Displaystyle Y}$ de la densidad conjunta (incluida la distribución previa en ${\ Displaystyle Y}$ )

{\ Displaystyle Q (X) = \ int _ {\ Omega} P (X \ mid Y) \, \ mathrm {d} \ pi (Y)}

El análogo de esta regla en el marco de incrustación del kernel establece que ${\ Displaystyle \ mu _ {X} ^ {\ pi},}$ la incrustación RKHS de ${\ Displaystyle Q (X)}$ , se puede calcular a través de

{\ Displaystyle \ mu _ {X} ^ {\ pi} = \ mathbb {E} [{\ mathcal {C}} _ ​​{X \ mid Y} \ varphi (Y)] = {\ mathcal {C}} _ {X \ mid Y} \ mathbb {E} [\ varphi (Y)] = {\ mathcal {C}} _ ​​{X \ mid Y} \ mu _ {Y} ^ {\ pi}}

dónde ${\ Displaystyle \ mu _ {Y} ^ {\ pi}}$ es la incrustación del kernel de ${\ Displaystyle \ pi (Y).}$ En implementaciones prácticas, la regla de suma del kernel toma la siguiente forma

{\ displaystyle {\ widehat {\ mu}} _ {X} ^ {\ pi} = {\ widehat {\ mathcal {C}}} _ {X \ mid Y} {\ widehat {\ mu}} _ {Y } ^ {\ pi} = {\ boldsymbol {\ Upsilon}} (\ mathbf {G} + \ lambda \ mathbf {I}) ^ {- 1} {\ widetilde {\ mathbf {G}}} {\ boldsymbol { \ alpha}}}

dónde

{\ Displaystyle \ mu _ {Y} ^ {\ pi} = \ sum _ {i = 1} ^ {\ widetilde {n}} \ alpha _ {i} \ varphi ({\ widetilde {y}} _ {i })}

es la incrustación empírica del núcleo de la distribución anterior, ${\ displaystyle {\ boldsymbol {\ alpha}} = (\ alpha _ {1}, \ ldots, \ alpha _ {\ widetilde {n}}) ^ {T},}$ ${\ displaystyle {\ boldsymbol {\ Upsilon}} = \ left (\ varphi (x_ {1}), \ ldots, \ varphi (x_ {n}) \ right)}$ , y ${\ Displaystyle \ mathbf {G}, {\ widetilde {\ mathbf {G}}}}$ son matrices de Gram con entradas ${\ Displaystyle \ mathbf {G} _ {ij} = k (y_ {i}, y_ {j}), {\ widetilde {\ mathbf {G}}} _ {ij} = k (y_ {i}, { \ widetilde {y}} _ {j})}$ respectivamente.

Regla de la cadena de kernel

En la teoría de la probabilidad, una distribución conjunta se puede factorizar en un producto entre distribuciones condicionales y marginales.

{\ Displaystyle Q (X, Y) = P (X \ mid Y) \ pi (Y)}

El análogo de esta regla en el marco de incrustación del kernel establece que ${\ Displaystyle {\ mathcal {C}} _ {XY} ^ {\ pi},}$ la incrustación conjunta de ${\ Displaystyle Q (X, Y),}$ se puede factorizar como una composición de operador de incrustación condicional con el operador de covarianza automático asociado con ${\ Displaystyle \ pi (Y)}$

{\ Displaystyle {\ mathcal {C}} _ ​​{XY} ^ {\ pi} = {\ mathcal {C}} _ ​​{X \ mid Y} {\ mathcal {C}} _ ​​{YY} ^ {\ pi} }

dónde

{\ Displaystyle {\ mathcal {C}} _ ​​{XY} ^ {\ pi} = \ mathbb {E} [\ varphi (X) \ otimes \ varphi (Y)],}

{\ Displaystyle {\ mathcal {C}} _ ​​{YY} ^ {\ pi} = \ mathbb {E} [\ varphi (Y) \ otimes \ varphi (Y)].}

En implementaciones prácticas, la regla de la cadena del núcleo toma la siguiente forma

{\ displaystyle {\ widehat {\ mathcal {C}}} _ {XY} ^ {\ pi} = {\ widehat {\ mathcal {C}}} _ {X \ mid Y} {\ widehat {\ mathcal {C }}} _ {YY} ^ {\ pi} = {\ boldsymbol {\ Upsilon}} (\ mathbf {G} + \ lambda \ mathbf {I}) ^ {- 1} {\ widetilde {\ mathbf {G} }} \ operatorname {diag} ({\ boldsymbol {\ alpha}}) {\ boldsymbol {\ widetilde {\ Phi}}} ^ {T}}

Regla de Kernel Bayes

En la teoría de la probabilidad, una distribución posterior se puede expresar en términos de una distribución previa y una función de probabilidad como

{\ Displaystyle Q (Y \ mid x) = {\ frac {P (x \ mid Y) \ pi (Y)} {Q (x)}}}

dónde

{\ Displaystyle Q (x) = \ int _ {\ Omega} P (x \ mid y) \, \ mathrm {d} \ pi (y)}

El análogo de esta regla en el marco de incrustación del kernel expresa la incrustación del kernel de la distribución condicional en términos de operadores de incrustación condicional que son modificados por la distribución anterior.

{\ Displaystyle \ mu _ {Y \ mid x} ^ {\ pi} = {\ mathcal {C}} _ ​​{Y \ mid X} ^ {\ pi} \ varphi (x) = {\ mathcal {C}} _ {YX} ^ {\ pi} \ left ({\ mathcal {C}} _ ​​{XX} ^ {\ pi} \ right) ^ {- 1} \ varphi (x)}

donde de la regla de la cadena:

{\ displaystyle {\ mathcal {C}} _ ​​{YX} ^ {\ pi} = \ left ({\ mathcal {C}} _ ​​{X \ mid Y} {\ mathcal {C}} _ ​​{YY} ^ { \ pi} \ right) ^ {T}.}

En implementaciones prácticas, la regla de Bayes del kernel toma la siguiente forma

{\ displaystyle {\ widehat {\ mu}} _ {Y \ mid x} ^ {\ pi} = {\ widehat {\ mathcal {C}}} _ {YX} ^ {\ pi} \ left (\ left ( {\ widehat {\ mathcal {C}}} _ {XX} \ right) ^ {2} + {\ widetilde {\ lambda}} \ mathbf {I} \ right) ^ {- 1} {\ widehat {\ mathcal {C}}} _ {XX} ^ {\ pi} \ varphi (x) = {\ widetilde {\ boldsymbol {\ Phi}}} {\ boldsymbol {\ Lambda}} ^ {T} \ left ((\ mathbf {D} \ mathbf {K}) ^ {2} + {\ widetilde {\ lambda}} \ mathbf {I} \ right) ^ {- 1} \ mathbf {K} \ mathbf {D} \ mathbf {K} _{X}}

dónde

{\ displaystyle {\ boldsymbol {\ Lambda}} = \ left (\ mathbf {G} + {\ widetilde {\ lambda}} \ mathbf {I} \ right) ^ {- 1} {\ widetilde {\ mathbf {G }}} \ operatorname {diag} ({\ boldsymbol {\ alpha}}), \ qquad \ mathbf {D} = \ operatorname {diag} \ left (\ left (\ mathbf {G} + {\ widetilde {\ lambda }} \ mathbf {I} \ right) ^ {- 1} {\ widetilde {\ mathbf {G}}} {\ boldsymbol {\ alpha}} \ right).}

En este marco se utilizan dos parámetros de regularización: ${\ Displaystyle \ lambda}$ para la estimación de ${\ Displaystyle {\ widehat {\ mathcal {C}}} _ {YX} ^ {\ pi}, {\ widehat {\ mathcal {C}}} _ {XX} ^ {\ pi} = {\ boldsymbol {\ Upsilon}} \ mathbf {D} {\ boldsymbol {\ Upsilon}} ^ {T}}$ y ${\ displaystyle {\ widetilde {\ lambda}}}$ para la estimación del operador de incrustación condicional final

{\ displaystyle {\ widehat {\ mathcal {C}}} _ {Y \ mid X} ^ {\ pi} = {\ widehat {\ mathcal {C}}} _ {YX} ^ {\ pi} \ left ( \ left ({\ widehat {\ mathcal {C}}} _ {XX} ^ {\ pi} \ right) ^ {2} + {\ widetilde {\ lambda}} \ mathbf {I} \ right) ^ {- 1} {\ widehat {\ mathcal {C}}} _ {XX} ^ {\ pi}.}

La última regularización se realiza en el cuadrado de ${\ Displaystyle {\ widehat {\ mathcal {C}}} _ {XX} ^ {\ pi}}$ porque ${\ Displaystyle D}$ puede no ser positivo definido .

Aplicaciones

Medir la distancia entre distribuciones

La máxima discrepancia media (MMD) es una medida de distancia entre distribuciones ${\ Displaystyle P (X)}$ y ${\ Displaystyle Q (Y)}$ que se define como la distancia al cuadrado entre sus incrustaciones en el RKHS ^[6]

{\ Displaystyle {\ text {MMD}} (P, Q) = \ left \ | \ mu _ {X} - \ mu _ {Y} \ right \ | _ {\ mathcal {H}} ^ {2}}

Si bien la mayoría de las medidas de distancia entre distribuciones, como la divergencia Kullback-Leibler ampliamente utilizada, requieren una estimación de la densidad (paramétrica o no paramétrica) o estrategias de corrección de sesgo / partición espacial, ^[6] la MMD se estima fácilmente como una media empírica que se concentra alrededor de el verdadero valor del MMD. La caracterización de esta distancia como la máxima discrepancia media se refiere al hecho de que calcular la MMD es equivalente a encontrar la función RKHS que maximiza la diferencia de expectativas entre las dos distribuciones de probabilidad.

{\ Displaystyle {\ text {MMD}} (P, Q) = \ sup _ {\ | f \ | _ {\ mathcal {H}} \ leq 1} \ left (\ mathbb {E} [f (X) ] - \ mathbb {E} [f (Y)] \ right)}

Prueba de kernel de dos muestras

Dados n ejemplos de entrenamiento de ${\ Displaystyle P (X)}$ y m muestras de ${\ Displaystyle Q (Y)}$ , se puede formular una estadística de prueba basada en la estimación empírica del MMD

{\ Displaystyle {\ begin {alineado} {\ widehat {\ text {MMD}}} (P, Q) & = \ left \ | {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} \ varphi (x_ {i}) - {\ frac {1} {m}} \ sum _ {i = 1} ^ {m} \ varphi (y_ {i}) \ right \ | _ {\ mathcal {H}} ^ {2} \\ [5pt] & = {\ frac {1} {n ^ {2}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n} k (x_ {i}, x_ {j}) + {\ frac {1} {m ^ {2}}} \ sum _ {i = 1} ^ {m} \ sum _ {j = 1} ^ {m} k (y_ {i}, y_ {j}) - {\ frac {2} {nm}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {m } k (x_ {i}, y_ {j}) \ end {alineado}}}

para obtener una prueba de dos muestras ^[12] de la hipótesis nula de que ambas muestras provienen de la misma distribución (es decir, ${\ Displaystyle P = Q}$ ) contra la amplia alternativa ${\ Displaystyle P \ neq Q}$ .

Estimación de densidad mediante incrustaciones de kernel

Aunque los algoritmos de aprendizaje en el marco de incrustación del kernel evitan la necesidad de una estimación de densidad intermedia, no obstante, se puede utilizar la incrustación empírica para realizar una estimación de densidad basada en n muestras extraídas de una distribución subyacente. ${\ Displaystyle P_ {X} ^ {*}}$ . Esto se puede hacer resolviendo el siguiente problema de optimización ^[6]^[13]

{\ Displaystyle \ max _ {P_ {X}} H (P_ {X})}

sujeto a

{\ Displaystyle \ | {\ widehat {\ mu}} _ {X} - \ mu _ {X} [P_ {X}] \ | _ {\ mathcal {H}} \ leq \ varepsilon}

donde la maximización se realiza en todo el espacio de distribuciones en ${\ Displaystyle \ Omega.}$ Aquí, ${\ Displaystyle \ mu _ {X} [P_ {X}]}$ es la incrustación del núcleo de la densidad propuesta ${\ Displaystyle P_ {X}}$ y ${\ Displaystyle H}$ es una cantidad similar a la entropía (por ejemplo , entropía , divergencia KL , divergencia de Bregman ). La distribución que resuelve esta optimización puede interpretarse como un compromiso entre ajustar bien las medias empíricas del núcleo de las muestras, mientras se asigna una parte sustancial de la masa de probabilidad a todas las regiones del espacio de probabilidad (muchas de las cuales pueden no estar representadas en el ejemplos de formación). En la práctica, se puede encontrar una buena solución aproximada de la difícil optimización restringiendo el espacio de densidades candidatas a una mezcla de M distribuciones candidatas con proporciones de mezcla regularizadas. Las conexiones entre las ideas que subyacen a los procesos gaussianos y los campos aleatorios condicionales se pueden establecer con la estimación de distribuciones de probabilidad condicionales de esta manera, si se ven las asignaciones de características asociadas con el kernel como estadísticas suficientes en familias exponenciales generalizadas (posiblemente de dimensión infinita) . ^[6]

Medir la dependencia de variables aleatorias

Una medida de la dependencia estadística entre variables aleatorias. ${\ Displaystyle X}$ y ${\ Displaystyle Y}$ (de cualquier dominio en el que se puedan definir núcleos sensibles) se puede formular en base al Criterio de Independencia de Hilbert-Schmidt ^[14]

{\ Displaystyle {\ text {HSIC}} (X, Y) = \ left \ | {\ mathcal {C}} _ ​​{XY} - \ mu _ {X} \ otimes \ mu _ {Y} \ right \ | _ {{\ mathcal {H}} \ otimes {\ mathcal {H}}} ^ {2}}

y se puede utilizar como un reemplazo de principios para la información mutua , la correlación de Pearson o cualquier otra medida de dependencia utilizada en los algoritmos de aprendizaje. Más notablemente, HSIC puede detectar dependencias arbitrarias (cuando se usa un kernel característico en las incrustaciones, HSIC es cero si y solo si las variables son independientes ), y se puede usar para medir la dependencia entre diferentes tipos de datos (por ejemplo, imágenes y leyendas de texto ). Dadas n iid muestras de cada variable aleatoria, un estimador insesgado simple y libre de parámetros de HSIC que exhibe concentración sobre el valor verdadero se puede calcular en ${\ Displaystyle O (n (d_ {f} ^ {2} + d_ {g} ^ {2}))}$ tiempo, ^[6] donde las matrices de Gram de los dos conjuntos de datos se aproximan usando ${\ Displaystyle \ mathbf {A} \ mathbf {A} ^ {T}, \ mathbf {B} \ mathbf {B} ^ {T}}$ con ${\ Displaystyle \ mathbf {A} \ in \ mathbb {R} ^ {n \ times d_ {f}}, \ mathbf {B} \ in \ mathbb {R} ^ {n \ times d_ {g}}}$ . Las propiedades deseables de HSIC han llevado a la formulación de numerosos algoritmos que utilizan esta medida de dependencia para una variedad de tareas comunes de aprendizaje automático como: selección de características (BAHSIC ^[15] ), agrupación (CLUHSIC ^[16] ) y reducción de dimensionalidad ( MUHSIC ^[17] ).

HSIC se puede ampliar para medir la dependencia de múltiples variables aleatorias. La cuestión de cuándo la HSIC captura la independencia en este caso se ha estudiado recientemente: ^[18] para más de dos variables

en ${\ Displaystyle \ mathbb {R} ^ {d}}$ : la propiedad característica de los granos individuales sigue siendo una condición equivalente.
en dominios generales: la propiedad característica de los componentes del kernel es necesaria pero no suficiente .

Propagación de creencias de kernel

La propagación de creencias es un algoritmo fundamental para la inferencia en modelos gráficos en los que los nodos pasan y reciben repetidamente mensajes correspondientes a la evaluación de expectativas condicionales. En el marco de incrustación del kernel, los mensajes se pueden representar como funciones RKHS y las incrustaciones de distribución condicional se pueden aplicar para calcular de manera eficiente las actualizaciones de los mensajes. Dadas n muestras de variables aleatorias representadas por nodos en un campo aleatorio de Markov , el mensaje entrante al nodo t desde el nodo u se puede expresar como

{\ Displaystyle m_ {ut} (\ cdot) = \ sum _ {i = 1} ^ {n} \ beta _ {ut} ^ {i} \ varphi (x_ {t} ^ {i})}

si se supone que se encuentra en el RKHS. El mensaje de actualización de la propagación de creencias del kernel de t al nodo s viene dado por ^[2]

{\ displaystyle {\ widehat {m}} _ {ts} = \ left (\ odot _ {u \ in N (t) \ backslash s} \ mathbf {K} _ {t} {\ boldsymbol {\ beta}} _ {ut} \ right) ^ {T} (\ mathbf {K} _ {s} + \ lambda \ mathbf {I}) ^ {- 1} {\ boldsymbol {\ Upsilon}} _ {s} ^ {T } \ varphi (x_ {s})}

dónde ${\ Displaystyle \ odot}$ denota el producto vectorial por elementos, ${\ Displaystyle N (t) \ barra invertida s}$ es el conjunto de nodos conectados at excluyendo el nodo s , ${\ Displaystyle {\ boldsymbol {\ beta}} _ {ut} = \ left (\ beta _ {ut} ^ {1}, \ dots, \ beta _ {ut} ^ {n} \ right)}$ , ${\ Displaystyle \ mathbf {K} _ {t}, \ mathbf {K} _ {s}}$ son las matrices de Gram de las muestras de variables ${\ Displaystyle X_ {t}, X_ {s}}$ , respectivamente, y ${\ displaystyle {\ boldsymbol {\ Upsilon}} _ {s} = \ left (\ varphi (x_ {s} ^ {1}), \ dots, \ varphi (x_ {s} ^ {n}) \ right) }$ es la matriz de características para las muestras de ${\ Displaystyle X_ {s}}$ .

Por lo tanto, si los mensajes entrantes al nodo t son combinaciones lineales de muestras mapeadas de características de ${\ Displaystyle X_ {t}}$ , entonces el mensaje saliente de este nodo es también una combinación lineal de muestras mapeadas de características de ${\ Displaystyle X_ {s}}$ . Esta representación de la función RKHS de las actualizaciones de paso de mensajes produce, por lo tanto, un algoritmo de propagación de creencias eficiente en el que los potenciales son funciones no paramétricas inferidas de los datos de modo que se puedan modelar relaciones estadísticas arbitrarias. ^[2]

Filtrado no paramétrico en modelos ocultos de Markov

En el modelo de Markov oculto (HMM), dos cantidades clave de interés son las probabilidades de transición entre estados ocultos ${\ Displaystyle P (S ^ {t} \ mid S ^ {t-1})}$ y las probabilidades de emisión ${\ Displaystyle P (O ^ {t} \ mid S ^ {t})}$ para observaciones. Usando el marco de incrustación de distribución condicional del kernel, estas cantidades pueden expresarse en términos de muestras del HMM. Una seria limitación de los métodos de incrustación en este dominio es la necesidad de entrenar muestras que contengan estados ocultos, ya que de lo contrario no es posible la inferencia con distribuciones arbitrarias en el HMM.

Un uso común de los HMM es el filtrado en el que el objetivo es estimar la distribución posterior sobre el estado oculto. ${\ Displaystyle s ^ {t}}$ en el paso de tiempo t dado un historial de observaciones previas ${\ Displaystyle h ^ {t} = (o ^ {1}, \ dots, o ^ {t})}$ del sistema. En el filtrado, un estado de creencias ${\ Displaystyle P (S ^ {t + 1} \ mid h ^ {t + 1})}$ se mantiene de forma recursiva a través de un paso de predicción (donde las actualizaciones ${\ Displaystyle P (S ^ {t + 1} \ mid h ^ {t}) = \ mathbb {E} [P (S ^ {t + 1} \ mid S ^ {t}) \ mid h ^ {t }]}$ se calculan marginando el estado oculto anterior) seguido de un paso de condicionamiento (donde las actualizaciones ${\ Displaystyle P (S ^ {t + 1} \ mid h ^ {t}, o ^ {t + 1}) \ propto P (o ^ {t + 1} \ mid S ^ {t + 1}) P (S ^ {t + 1} \ mid h ^ {t})}$ se calculan aplicando la regla de Bayes a la condición de una nueva observación). ^[2] La incorporación RKHS del estado de creencias en el tiempo t + 1 se puede expresar de forma recursiva como

{\ Displaystyle \ mu _ {S ^ {t + 1} \ mid h ^ {t + 1}} = {\ mathcal {C}} _ ​​{S ^ {t + 1} O ^ {t + 1}} ^ {\ pi} \ left ({\ mathcal {C}} _ ​​{O ^ {t + 1} O ^ {t + 1}} ^ {\ pi} \ right) ^ {- 1} \ varphi (o ^ { t + 1})}

calculando las incrustaciones del paso de predicción a través de la regla de la suma del kernel y la incrustación del paso de condicionamiento mediante la regla de Bayes del kernel . Asumiendo una muestra de entrenamiento ${\ displaystyle ({\ widetilde {s}} ^ {1}, \ dots, {\ widetilde {s}} ^ {T}, {\ widetilde {o}} ^ {1}, \ dots, {\ widetilde { o}} ^ {T})}$ se da, en la práctica se puede estimar

{\ Displaystyle {\ widehat {\ mu}} _ {S ^ {t + 1} \ mid h ^ {t + 1}} = \ sum _ {i = 1} ^ {T} \ alpha _ {i} ^ {t} \ varphi ({\ widetilde {s}} ^ {t})}

y el filtrado con incrustaciones de kernel se implementa de forma recursiva utilizando las siguientes actualizaciones para los pesos ${\ displaystyle {\ boldsymbol {\ alpha}} = (\ alpha _ {1}, \ dots, \ alpha _ {T})}$ ^[2]

{\ Displaystyle \ mathbf {D} ^ {t + 1} = \ operatorname {diag} \ left ((G + \ lambda \ mathbf {I}) ^ {- 1} {\ widetilde {G}} {\ boldsymbol {\ alpha}} ^ {t} \ right)}

{\ Displaystyle {\ boldsymbol {\ alpha}} ^ {t + 1} = \ mathbf {D} ^ {t + 1} \ mathbf {K} \ left ((\ mathbf {D} ^ {t + 1} K ) ^ {2} + {\ widetilde {\ lambda}} \ mathbf {I} \ right) ^ {- 1} \ mathbf {D} ^ {t + 1} \ mathbf {K} _ {o ^ {t + 1}}}

dónde ${\ Displaystyle \ mathbf {G}, \ mathbf {K}}$ denotar las matrices de Gram de ${\ displaystyle {\ widetilde {s}} ^ {1}, \ dots, {\ widetilde {s}} ^ {T}}$ y ${\ displaystyle {\ widetilde {o}} ^ {1}, \ dots, {\ widetilde {o}} ^ {T}}$ respectivamente, ${\ displaystyle {\ widetilde {\ mathbf {G}}}}$ es una matriz de Gram de transferencia definida como ${\ displaystyle {\ widetilde {\ mathbf {G}}} _ {ij} = k ({\ widetilde {s}} _ {i}, {\ widetilde {s}} _ {j + 1}),}$ y ${\ Displaystyle \ mathbf {K} _ {o ^ {t + 1}} = (k ({\ widetilde {o}} ^ {1}, o ^ {t + 1}), \ dots, k ({\ widetilde {o}} ^ {T}, o ^ {t + 1})) ^ {T}.}$

Máquinas de medida de apoyo

La máquina de medida de soporte (SMM) es una generalización de la máquina de vectores de soporte (SVM) en la que los ejemplos de entrenamiento son distribuciones de probabilidad emparejadas con etiquetas. ${\ Displaystyle \ {P_ {i}, y_ {i} \} _ {i = 1} ^ {n}, \ y_ {i} \ in \ {+ 1, -1 \}}$ . ^{[19] Los} SMM resuelven el problema de optimización dual de SVM estándar utilizando el siguiente kernel esperado

{\ Displaystyle K \ left (P (X), Q (Z) \ right) = \ langle \ mu _ {X}, \ mu _ {Z} \ rangle _ {\ mathcal {H}} = \ mathbb {E } [k (x, z)]}

que es computable en forma cerrada para muchas distribuciones específicas comunes ${\ Displaystyle P_ {i}}$ (como la distribución gaussiana) combinado con núcleos de incrustación populares ${\ Displaystyle k}$ (por ejemplo, el kernel de Gauss o el kernel polinomial), o se puede estimar empíricamente con precisión a partir de muestras de iid ${\ Displaystyle \ {x_ {i} \} _ {i = 1} ^ {n} \ sim P (X), \ {z_ {j} \} _ {j = 1} ^ {m} \ sim Q ( Z)}$ vía

{\ Displaystyle {\ widehat {K}} (X, Z) = {\ frac {1} {nm}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {m} k (x_ {i}, z_ {j})}

Bajo ciertas opciones del kernel de incrustación ${\ Displaystyle k}$ , el SMM aplicado a ejemplos de formación ${\ Displaystyle \ {P_ {i}, y_ {i} \} _ {i = 1} ^ {n}}$ es equivalente a una SVM entrenada en muestras ${\ Displaystyle \ {x_ {i}, y_ {i} \} _ {i = 1} ^ {n}}$ , y por lo tanto, el SMM puede verse como un SVM flexible en el que un kernel dependiente de datos diferente (especificado por la forma asumida de la distribución ${\ Displaystyle P_ {i}}$ ) se pueden colocar en cada punto de entrenamiento. ^[19]

Adaptación de dominio bajo cambio covariable, objetivo y condicional

El objetivo de la adaptación de dominio es la formulación de algoritmos de aprendizaje que se generalizan bien cuando los datos de entrenamiento y prueba tienen distribuciones diferentes. Ejemplos de entrenamiento dados ${\ Displaystyle \ {(x_ {i} ^ {\ text {tr}}, y_ {i} ^ {\ text {tr}}) \} _ {i = 1} ^ {n}}$ y un equipo de prueba ${\ Displaystyle \ {(x_ {j} ^ {\ text {te}}, y_ {j} ^ {\ text {te}}) \} _ {j = 1} ^ {m}}$ donde el ${\ Displaystyle y_ {j} ^ {\ text {te}}}$ son desconocidos, comúnmente se asumen tres tipos de diferencias entre la distribución de los ejemplos de entrenamiento ${\ Displaystyle P ^ {\ text {tr}} (X, Y)}$ y la distribución de prueba ${\ Displaystyle P ^ {\ text {te}} (X, Y)}$ : ^[20]^[21]

Cambio de covariables en el que la distribución marginal de las covariables cambia entre dominios: ${\ Displaystyle P ^ {\ text {tr}} (X) \ neq P ^ {\ text {te}} (X)}$
Cambio de objetivo en el que la distribución marginal de los productos cambia entre dominios: ${\ Displaystyle P ^ {\ text {tr}} (Y) \ neq P ^ {\ text {te}} (Y)}$
Cambio condicional en el que ${\ Displaystyle P (Y)}$ sigue siendo el mismo en todos los dominios, pero las distribuciones condicionales difieren: ${\ Displaystyle P ^ {\ text {tr}} (X \ mid Y) \ neq P ^ {\ text {te}} (X \ mid Y)}$ . En general, la presencia de un cambio condicional conduce a un problema mal planteado y al supuesto adicional de que ${\ Displaystyle P (X \ mid Y)}$ cambios sólo en la ubicación - transformaciones de escala (LS) en ${\ Displaystyle X}$ se impone comúnmente para hacer que el problema sea manejable.

Al utilizar la integración del núcleo de distribuciones marginales y condicionales, se pueden formular enfoques prácticos para tratar la presencia de este tipo de diferencias entre los dominios de entrenamiento y de prueba. El desplazamiento de covariables puede contabilizarse volviendo a ponderar ejemplos mediante estimaciones de la razón. ${\ Displaystyle P ^ {\ text {te}} (X) / P ^ {\ text {tr}} (X)}$ obtenido directamente de las incrustaciones del núcleo de las distribuciones marginales de ${\ Displaystyle X}$ en cada dominio sin necesidad de una estimación explícita de las distribuciones. ^[21] Cambio de destino, que no puede tratarse de manera similar ya que no hay muestras de ${\ Displaystyle Y}$ están disponibles en el dominio de prueba, se contabiliza mediante ejemplos de entrenamiento de ponderación utilizando el vector ${\ Displaystyle {\ boldsymbol {\ beta}} ^ {*} (\ mathbf {y} ^ {\ text {tr}})}$ que resuelve el siguiente problema de optimización (donde en la práctica, se deben utilizar aproximaciones empíricas) ^[20]

{\ Displaystyle \ min _ {{\ boldsymbol {\ beta}} (y)} \ left \ | {\ mathcal {C}} _ ​​{{(X \ mid Y)} ^ {\ text {tr}}} \ mathbb {E} [{\ boldsymbol {\ beta}} (y) \ varphi (y ^ {\ text {tr}})] - \ mu _ {X ^ {\ text {te}}} \ right \ | _ {\ mathcal {H}} ^ {2}}

sujeto a

{\ displaystyle {\ boldsymbol {\ beta}} (y) \ geq 0, \ mathbb {E} [{\ boldsymbol {\ beta}} (y ​​^ {\ text {tr}})] = 1}

Para lidiar con el cambio condicional de escala de ubicación, se puede realizar una transformación LS de los puntos de entrenamiento para obtener nuevos datos de entrenamiento transformados ${\ Displaystyle \ mathbf {X} ^ {\ text {nuevo}} = \ mathbf {X} ^ {\ text {tr}} \ odot \ mathbf {W} + \ mathbf {B}}$ (dónde ${\ Displaystyle \ odot}$ denota el producto vectorial por elementos). Para garantizar distribuciones similares entre las nuevas muestras de entrenamiento transformadas y los datos de prueba, ${\ Displaystyle \ mathbf {W}, \ mathbf {B}}$ se estiman minimizando la siguiente distancia empírica de incrustación del núcleo ^[20]

{\ Displaystyle \ left \ | {\ widehat {\ mu}} _ {X ^ {\ text {new}}} - {\ widehat {\ mu}} _ {X ^ {\ text {te}}} \ right \ | _ {\ mathcal {H}} ^ {2} = \ left \ | {\ widehat {\ mathcal {C}}} _ {(X \ mid Y) ^ {\ text {new}}} {\ widehat {\ mu}} _ {Y ^ {\ text {tr}}} - {\ widehat {\ mu}} _ {X ^ {\ text {te}}} \ right \ | _ {\ mathcal {H}} ^ {2}}

En general, los métodos de incorporación del kernel para tratar el cambio condicional de LS y el cambio de destino se pueden combinar para encontrar una transformación reponderada de los datos de entrenamiento que imita la distribución de la prueba, y estos métodos pueden funcionar bien incluso en presencia de cambios condicionales distintos de la ubicación. -Cambios de escala. ^[20]

Generalización de dominios mediante representación de características invariantes

Dados N conjuntos de ejemplos de entrenamiento muestreados iid de distribuciones ${\ Displaystyle P ^ {(1)} (X, Y), P ^ {(2)} (X, Y), \ ldots, P ^ {(N)} (X, Y)}$ , el objetivo de la generalización de dominios es formular algoritmos de aprendizaje que funcionen bien en ejemplos de prueba extraídos de un dominio nunca antes visto ${\ Displaystyle P ^ {*} (X, Y)}$ donde no hay datos del dominio de prueba disponibles en el momento del entrenamiento. Si distribuciones condicionales ${\ Displaystyle P (Y \ mid X)}$ se asume que son relativamente similares en todos los dominios, entonces un alumno capaz de generalizar dominios debe estimar una relación funcional entre las variables que sea robusta a los cambios en los marginales ${\ Displaystyle P (X)}$ . Basado en las incrustaciones del kernel de estas distribuciones, el Análisis de componentes invariantes de dominio (DICA) es un método que determina la transformación de los datos de entrenamiento que minimiza la diferencia entre distribuciones marginales mientras preserva una distribución condicional común compartida entre todos los dominios de entrenamiento. ^[22] DICA extrae así invariantes , características que se transfieren entre dominios, y puede verse como una generalización de muchos métodos populares de reducción de dimensiones como el análisis de componentes principales del kernel, análisis de componentes de transferencia y regresión inversa del operador de covarianza. ^[22]

Definición de una distribución de probabilidad ${\ Displaystyle {\ mathcal {P}}}$ en el RKHS ${\ Displaystyle {\ mathcal {H}}}$ con

{\ Displaystyle {\ mathcal {P}} \ left (\ mu _ {X ^ {(i)} Y ^ {(i)}} \ right) = {\ frac {1} {N}} \ qquad {\ texto {para}} i = 1, \ dots, N,}

DICA mide la disimilitud entre dominios a través de la varianza distributiva que se calcula como

{\ Displaystyle V _ {\ mathcal {H}} ({\ mathcal {P}}) = {\ frac {1} {N}} \ operatorname {tr} (\ mathbf {G}) - {\ frac {1} {N ^ {2}}} \ sum _ {i, j = 1} ^ {N} \ mathbf {G} _ {ij}}

dónde

{\ Displaystyle \ mathbf {G} _ {ij} = \ left \ langle \ mu _ {X ^ {(i)}}, \ mu _ {X ^ {(j)}} \ right \ rangle _ {\ mathcal {H}}}

entonces ${\ Displaystyle \ mathbf {G}}$ es un ${\ Displaystyle N \ times N}$ Matriz de Gram sobre las distribuciones de las que se muestrean los datos de entrenamiento. Al encontrar una transformada ortogonal en un subespacio B de baja dimensión (en el espacio de características) que minimiza la varianza distribucional, DICA asegura simultáneamente que B se alinea con las bases de un subespacio central C para el cual ${\ Displaystyle Y}$ se vuelve independiente de ${\ Displaystyle X}$ dado ${\ Displaystyle C ^ {T} X}$ en todos los dominios. En ausencia de valores objetivo ${\ Displaystyle Y}$ , se puede formular una versión no supervisada de DICA que encuentre un subespacio de baja dimensión que minimice la varianza distributiva mientras maximiza simultáneamente la varianza de ${\ Displaystyle X}$ (en el espacio de características) en todos los dominios (en lugar de preservar un subespacio central). ^[22]

Regresión de distribución

En la regresión de distribución, el objetivo es hacer una regresión de las distribuciones de probabilidad a los reales (o vectores). Muchas tareas importantes de aprendizaje automático y estadísticas encajan en este marco, incluido el aprendizaje de múltiples instancias y los problemas de estimación de puntos sin una solución analítica (como la estimación de hiperparámetros o entropía ). En la práctica, solo las muestras de las distribuciones muestreadas son observables y las estimaciones deben basarse en similitudes calculadas entre conjuntos de puntos . La regresión de distribución se ha aplicado con éxito, por ejemplo, en el aprendizaje de entropía supervisado y la predicción de aerosoles utilizando imágenes de satélite multiespectrales. ^[23]

Dado ${\ Displaystyle {\ left (\ {X_ {i, n} \} _ {n = 1} ^ {N_ {i}}, y_ {i} \ right)} _ {i = 1} ^ {\ ell} }$ datos de entrenamiento, donde el ${\ Displaystyle {\ hat {X_ {i}}}: = \ {X_ {i, n} \} _ {n = 1} ^ {N_ {i}}}$ bolsa contiene muestras de una distribución de probabilidad ${\ Displaystyle X_ {i}}$ y el ${\ Displaystyle i ^ {\ text {th}}}$ la etiqueta de salida es ${\ Displaystyle y_ {i} \ in \ mathbb {R}}$ , se puede abordar la tarea de regresión de distribución tomando las incorporaciones de las distribuciones y aprendiendo el regresor de las incorporaciones a las salidas. En otras palabras, se puede considerar el siguiente problema de regresión de la cresta del núcleo ${\ Displaystyle (\ lambda> 0)}$

{\ Displaystyle J (f) = {\ frac {1} {\ ell}} \ sum _ {i = 1} ^ {\ ell} \ left [f \ left (\ mu _ {\ hat {X_ {i} }} \ right) -y_ {i} \ right] ^ {2} + \ lambda \ | f \ | _ {{\ mathcal {H}} (K)} ^ {2} \ to \ min _ {f \ en {\ mathcal {H}} (K)},}

dónde

{\ Displaystyle \ mu _ {{\ hat {X}} _ {i}} = \ int _ {\ Omega} k (\ cdot, u) \, \ mathrm {d} {\ hat {X}} _ { i} (u) = {\ frac {1} {N_ {i}}} \ sum _ {n = 1} ^ {N_ {i}} k (\ cdot, X_ {i, n})}

con un ${\ Displaystyle k}$ kernel en el dominio de ${\ Displaystyle X_ {i}}$ -s ${\ Displaystyle (k: \ Omega \ times \ Omega \ to \ mathbb {R})}$ , ${\ Displaystyle K}$ es un kernel en las distribuciones integradas, y ${\ Displaystyle {\ mathcal {H}} (K)}$ es el RKHS determinado por ${\ Displaystyle K}$ . Ejemplos de ${\ Displaystyle K}$ incluir el kernel lineal ${\ Displaystyle \ left [K (\ mu _ {P}, \ mu _ {Q}) = \ langle \ mu _ {P}, \ mu _ {Q} \ rangle _ {{\ mathcal {H}} ( k)} \ derecha]}$ , el kernel gaussiano ${\ Displaystyle \ left [K (\ mu _ {P}, \ mu _ {Q}) = e ^ {- \ left \ | \ mu _ {P} - \ mu _ {Q} \ right \ | _ { H (k)} ^ {2} / (2 \ sigma ^ {2})} \ derecha]}$ , el kernel exponencial ${\ Displaystyle \ left [K (\ mu _ {P}, \ mu _ {Q}) = e ^ {- \ left \ | \ mu _ {P} - \ mu _ {Q} \ right \ | _ { H (k)} / (2 \ sigma ^ {2})} \ derecha]}$ , el núcleo de Cauchy ${\ Displaystyle \ left [K (\ mu _ {P}, \ mu _ {Q}) = \ left (1+ \ left \ | \ mu _ {P} - \ mu _ {Q} \ right \ | _ {H (k)} ^ {2} / \ sigma ^ {2} \ right) ^ {- 1} \ right]}$ , el kernel t-student generalizado ${\ Displaystyle \ left [K (\ mu _ {P}, \ mu _ {Q}) = \ left (1+ \ left \ | \ mu _ {P} - \ mu _ {Q} \ right \ | _ {H (k)} ^ {\ sigma} \ right) ^ {- 1}, (\ sigma \ leq 2) \ right]}$ , o el kernel multicuadrico inverso ${\ Displaystyle \ left [K (\ mu _ {P}, \ mu _ {Q}) = \ left (\ left \ | \ mu _ {P} - \ mu _ {Q} \ right \ | _ {H (k)} ^ {2} + \ sigma ^ {2} \ right) ^ {- {\ frac {1} {2}}} \ right]}$ .

La predicción de una nueva distribución ${\ Displaystyle ({\ hat {X}})}$ toma la forma analítica simple

{\ Displaystyle {\ hat {y}} {\ big (} {\ hat {X}} {\ big)} = \ mathbf {k} [\ mathbf {G} + \ lambda \ ell] ^ {- 1} \ mathbf {y},}

dónde ${\ Displaystyle \ mathbf {k} = {\ big [} K {\ big (} \ mu _ {{\ hat {X}} _ {i}}, \ mu _ {\ hat {X}} {\ big )} {\ big]} \ in \ mathbb {R} ^ {1 \ times \ ell}}$ , ${\ Displaystyle \ mathbf {G} = [G_ {ij}] \ in \ mathbb {R} ^ {\ ell \ times \ ell}}$ , ${\ Displaystyle G_ {ij} = K {\ big (} \ mu _ {{\ hat {X}} _ {i}}, \ mu _ {{\ hat {X}} _ {j}} {\ big )} \ in \ mathbb {R}}$ , ${\ Displaystyle \ mathbf {y} = [y_ {1}; \ ldots; y _ {\ ell}] \ in \ mathbb {R} ^ {\ ell}}$ . En condiciones de regularidad leve, se puede demostrar que este estimador es consistente y puede lograr la muestra de una etapa (como si uno tuviera acceso a la ${\ Displaystyle X_ {i}}$ -s) tasa óptima minimax . ^[23] En el ${\ Displaystyle J}$ función objetiva ${\ Displaystyle y_ {i}}$ -s son números reales; los resultados también pueden extenderse al caso cuando ${\ Displaystyle y_ {i}}$ -s son ${\ Displaystyle d}$ -vectores dimensionales, o más generalmente elementos de un espacio de Hilbert separable usando valores de operador ${\ Displaystyle K}$ granos.

Ejemplo

En este sencillo ejemplo, que se tomó de Song et al., ^[2] ${\ Displaystyle X, Y}$ se supone que son variables aleatorias discretas que toman valores en el conjunto ${\ Displaystyle \ {1, \ ldots, K \}}$ y el kernel se elige para ser la función delta de Kronecker , por lo que ${\ Displaystyle k (x, x ') = \ delta (x, x')}$ . El mapa de características correspondiente a este kernel es el vector base estándar ${\ Displaystyle \ varphi (x) = \ mathbf {e} _ {x}}$ . Las incrustaciones de kernel de tales distribuciones son, por tanto, vectores de probabilidades marginales, mientras que las incrustaciones de distribuciones conjuntas en este entorno son ${\ Displaystyle K \ times K}$ matrices que especifican tablas de probabilidad conjunta, y la forma explícita de estas incrustaciones es

{\ Displaystyle \ mu _ {X} = \ mathbb {E} [\ mathbf {e} _ {X}] = {\ begin {pmatrix} P (X = 1) \\\ vdots \\ P (X = K ) \\\ end {pmatrix}}}

{\ Displaystyle {\ mathcal {C}} _ ​​{XY} = \ mathbb {E} [\ mathbf {e} _ {X} \ otimes \ mathbf {e} _ {Y}] = (P (X = s, Y = t)) _ {s, t \ in \ {1, \ ldots, K \}}}

El operador de incrustación de distribución condicional,

{\ displaystyle {\ mathcal {C}} _ ​​{Y \ mid X} = {\ mathcal {C}} _ ​​{YX} {\ mathcal {C}} _ ​​{XX} ^ {- 1},}

está en esta configuración una tabla de probabilidad condicional

{\ Displaystyle {\ mathcal {C}} _ ​​{Y \ mid X} = (P (Y = s \ mid X = t)) _ {s, t \ in \ {1, \ dots, K \}}}

y

{\ displaystyle {\ mathcal {C}} _ ​​{XX} = {\ begin {pmatrix} P (X = 1) & \ dots & 0 \\\ vdots & \ ddots & \ vdots \\ 0 & \ dots & P (X = K) \\\ end {pmatrix}}}

Por lo tanto, las incorporaciones de la distribución condicional bajo un valor fijo de ${\ Displaystyle X}$ puede calcularse como

{\ Displaystyle \ mu _ {Y \ mid x} = {\ mathcal {C}} _ ​​{Y \ mid X} \ varphi (x) = {\ begin {pmatrix} P (Y = 1 \ mid X = x) \\\ vdots \\ P (Y = K \ mid X = x) \\\ end {pmatrix}}}

En esta configuración de valores discretos con el kernel delta de Kronecker, la regla de la suma del kernel se convierte en

{\ Displaystyle \ underbrace {\ begin {pmatrix} Q (X = 1) \\\ vdots \\ P (X = N) \\\ end {pmatrix}} _ {\ mu _ {X} ^ {\ pi} } = \ underbrace {\ begin {pmatrix} \\ P (X = s \ mid Y = t) \\\\\ end {pmatrix}} _ {{\ mathcal {C}} _ ​​{X \ mid Y}} \ underbrace {\ begin {pmatrix} \ pi (Y = 1) \\\ vdots \\\ pi (Y = N) \\\ end {pmatrix}} _ {\ mu _ {Y} ^ {\ pi}} }

La regla de la cadena del núcleo en este caso viene dada por

{\ Displaystyle \ underbrace {\ begin {pmatrix} \\ Q (X = s, Y = t) \\\\\ end {pmatrix}} _ {{\ mathcal {C}} _ ​​{XY} ^ {\ pi }} = \ underbrace {\ begin {pmatrix} \\ P (X = s \ mid Y = t) \\\\\ end {pmatrix}} _ {{\ mathcal {C}} _ ​​{X \ mid Y} } \ underbrace {\ begin {pmatrix} \ pi (Y = 1) & \ dots & 0 \\\ vdots & \ ddots & \ vdots \\ 0 & \ dots & \ pi (Y = K) \\\ end {pmatrix} } _ {{\ mathcal {C}} _ ​​{YY} ^ {\ pi}}}

Referencias

↑ a b A. Smola, A. Gretton, L. Song, B. Schölkopf. (2007). Una incrustación de Hilbert Space para distribuciones Archivado el 15 de diciembre de 2013 en la Wayback Machine . Teoría del aprendizaje algorítmico: XVIII Congreso Internacional . Springer: 13–31.
↑ a b c d e f g h i j k l m n L. Song, K. Fukumizu, F. Dinuzzo, A. Gretton (2013). Incrustaciones de kernel de distribuciones condicionales: un marco de kernel unificado para inferencia no paramétrica en modelos gráficos . Revista de procesamiento de señales IEEE 30 : 98–111.
^ J. Shawe-Taylor, N. Christianini. (2004). Métodos de kernel para análisis de patrones . Cambridge University Press, Cambridge, Reino Unido.
↑ T. Hofmann, B. Schölkopf, A. Smola. (2008). Métodos de kernel en aprendizaje automático . The Annals of Statistics 36 (3): 1171-1220.
^ Muandet, Krikamol; Fukumizu, Kenji; Sriperumbudur, Bharat; Schölkopf, Bernhard (28 de junio de 2017). "Integración de distribuciones de la media de kernel: una revisión y más allá". Fundamentos y Tendencias en Machine Learning . 10 (1–2): 1–141. arXiv : 1605.09522 . doi : 10.1561 / 2200000060 . ISSN 1935-8237 .
^ a b c d e f g h i L. Canción. (2008) Aprendizaje a través de Hilbert Space Embedded of Distributions . Tesis doctoral, Universidad de Sydney.
^ K. Fukumizu, A. Gretton, X. Sun y B. Schölkopf (2008). Medidas de kernel de independencia condicional . Avances en sistemas de procesamiento de información neuronal 20 , MIT Press, Cambridge, MA.
↑ a b c L. Song, J. Huang, AJ Smola, K. Fukumizu. (2009). Incrustaciones espaciales de Hilbert de distribuciones condicionales . Proc. En t. Conf. Aprendizaje automático . Montreal, Canadá: 961–968.
^ [1] página 139
↑ A. Gretton, K. Borgwardt, M. Rasch, B. Schölkopf, A. Smola. (2007). Un método de kernel para el problema de dos muestras . Avances en sistemas de procesamiento de información neuronal 19 , MIT Press, Cambridge, MA.
^ S. Grunewalder, G. Lever, L. Baldassarre, S. Patterson, A. Gretton, M. Pontil. (2012). Incrustaciones medias condicionales como regresores . Proc. En t. Conf. Aprendizaje automático : 1823-1830.
↑ A. Gretton, K. Borgwardt, M. Rasch, B. Schölkopf, A. Smola. (2012). Una prueba de kernel de dos muestras . Journal of Machine Learning Research , 13 : 723–773.
^ M. Dudík, SJ Phillips, RE Schapire. (2007). Estimación de distribución máxima de entropía con regularización generalizada y una aplicación al modelado de distribución de especies . Journal of Machine Learning Research , 8 : 1217–1260.
↑ A. Gretton, O. Bousquet, A. Smola, B. Schölkopf. (2005). Medición de la dependencia estadística con las normas de Hilbert-Schmidt . Proc. Intl. Conf. sobre teoría algorítmica del aprendizaje : 63–78.
^ L. Song, A. Smola, A. Gretton, K. Borgwardt, J. Bedo. (2007). Selección de características supervisada mediante estimación de dependencia . Proc. Intl. Conf. Aprendizaje automático , Omnipress: 823–830.
^ L. Song, A. Smola, A. Gretton, K. Borgwardt. (2007). Una visión de la maximización de la dependencia de la agrupación . Proc. Intl. Conf. Aprendizaje automático . Omnipress: 815–822.
^ L. Song, A. Smola, K. Borgwardt, A. Gretton. (2007). Despliegue de varianza máxima de color . Sistemas de procesamiento de información neuronal .
^ Zoltán Szabó, Bharath K. Sriperumbudur. Núcleos de productos tensoriales característicos y universales . Journal of Machine Learning Research , 19: 1–29, 2018.
↑ a b K. Muandet, K. Fukumizu, F. Dinuzzo, B. Schölkopf. (2012). Aprendiendo de las distribuciones a través de máquinas de medición de soporte . Avances en los sistemas de procesamiento de información neuronal : 10–18.
↑ a b c d K. Zhang, B. Schölkopf, K. Muandet, Z. Wang. (2013). Adaptación de dominio bajo cambio objetivo y condicional . Journal of Machine Learning Research, 28 (3): 819–827.
↑ a b A. Gretton, A. Smola, J. Huang, M. Schmittfull, K. Borgwardt, B. Schölkopf. (2008). Cambio de covarianza y aprendizaje local por coincidencia de distribución. En J. Quinonero-Candela, M. Sugiyama, A. Schwaighofer, N. Lawrence (eds.). Cambio de conjunto de datos en el aprendizaje automático , MIT Press, Cambridge, MA: 131–160.
↑ a b c K. Muandet, D. Balduzzi, B. Schölkopf. (2013). Generalización de dominios a través de la representación de características invariables . 30 ° Congreso Internacional de Machine Learning .
↑ a b Z. Szabó, B. Sriperumbudur, B. Póczos, A. Gretton. Teoría del aprendizaje para la regresión de distribución . Journal of Machine Learning Research , 17 (152): 1–40, 2016.

enlaces externos

Caja de herramientas de Estimadores teóricos de información (demostración de regresión de distribución).

[Smola2007-1] A. Smola, A. Gretton, L. Song, B. Schölkopf. (2007). Una incrustación de Hilbert Space para distribuciones Archivado el 15 de diciembre de 2013 en la Wayback Machine . Teoría del aprendizaje algorítmico: XVIII Congreso Internacional . Springer: 13–31.

[Song2013-2] ↑ a b c d e f g h i j k l m n L. Song, K. Fukumizu, F. Dinuzzo, A. Gretton (2013). Incrustaciones de kernel de distribuciones condicionales: un marco de kernel unificado para inferencia no paramétrica en modelos gráficos . Revista de procesamiento de señales IEEE 30 : 98–111.

[3] J. Shawe-Taylor, N. Christianini. (2004). Métodos de kernel para análisis de patrones . Cambridge University Press, Cambridge, Reino Unido.

[4] T. Hofmann, B. Schölkopf, A. Smola. (2008). Métodos de kernel en aprendizaje automático . The Annals of Statistics 36 (3): 1171-1220.

[5] Muandet, Krikamol; Fukumizu, Kenji; Sriperumbudur, Bharat; Schölkopf, Bernhard (28 de junio de 2017). "Integración de distribuciones de la media de kernel: una revisión y más allá". Fundamentos y Tendencias en Machine Learning . 10 (1–2): 1–141. arXiv : 1605.09522 . doi : 10.1561 / 2200000060 . ISSN 1935-8237 .

[SongThesis-6] ^ a b c d e f g h i L. Canción. (2008) Aprendizaje a través de Hilbert Space Embedded of Distributions . Tesis doctoral, Universidad de Sydney.

[Fukumizu2008-7] K. Fukumizu, A. Gretton, X. Sun y B. Schölkopf (2008). Medidas de kernel de independencia condicional . Avances en sistemas de procesamiento de información neuronal 20 , MIT Press, Cambridge, MA.

[SongCDE-8] L. Song, J. Huang, AJ Smola, K. Fukumizu. (2009). Incrustaciones espaciales de Hilbert de distribuciones condicionales . Proc. En t. Conf. Aprendizaje automático . Montreal, Canadá: 961–968.

[9] [1] página 139

[10] A. Gretton, K. Borgwardt, M. Rasch, B. Schölkopf, A. Smola. (2007). Un método de kernel para el problema de dos muestras . Avances en sistemas de procesamiento de información neuronal 19 , MIT Press, Cambridge, MA.

[11] S. Grunewalder, G. Lever, L. Baldassarre, S. Patterson, A. Gretton, M. Pontil. (2012). Incrustaciones medias condicionales como regresores . Proc. En t. Conf. Aprendizaje automático : 1823-1830.

[12] A. Gretton, K. Borgwardt, M. Rasch, B. Schölkopf, A. Smola. (2012). Una prueba de kernel de dos muestras . Journal of Machine Learning Research , 13 : 723–773.

[13] M. Dudík, SJ Phillips, RE Schapire. (2007). Estimación de distribución máxima de entropía con regularización generalizada y una aplicación al modelado de distribución de especies . Journal of Machine Learning Research , 8 : 1217–1260.

[14] A. Gretton, O. Bousquet, A. Smola, B. Schölkopf. (2005). Medición de la dependencia estadística con las normas de Hilbert-Schmidt . Proc. Intl. Conf. sobre teoría algorítmica del aprendizaje : 63–78.

[15] L. Song, A. Smola, A. Gretton, K. Borgwardt, J. Bedo. (2007). Selección de características supervisada mediante estimación de dependencia . Proc. Intl. Conf. Aprendizaje automático , Omnipress: 823–830.

[16] L. Song, A. Smola, A. Gretton, K. Borgwardt. (2007). Una visión de la maximización de la dependencia de la agrupación . Proc. Intl. Conf. Aprendizaje automático . Omnipress: 815–822.

[17] L. Song, A. Smola, K. Borgwardt, A. Gretton. (2007). Despliegue de varianza máxima de color . Sistemas de procesamiento de información neuronal .

[CharAndUniv-18] Zoltán Szabó, Bharath K. Sriperumbudur. Núcleos de productos tensoriales característicos y universales . Journal of Machine Learning Research , 19: 1–29, 2018.

[SMM-19] K. Muandet, K. Fukumizu, F. Dinuzzo, B. Schölkopf. (2012). Aprendiendo de las distribuciones a través de máquinas de medición de soporte . Avances en los sistemas de procesamiento de información neuronal : 10–18.

[DA-20] K. Zhang, B. Schölkopf, K. Muandet, Z. Wang. (2013). Adaptación de dominio bajo cambio objetivo y condicional . Journal of Machine Learning Research, 28 (3): 819–827.

[CovS-21] A. Gretton, A. Smola, J. Huang, M. Schmittfull, K. Borgwardt, B. Schölkopf. (2008). Cambio de covarianza y aprendizaje local por coincidencia de distribución. En J. Quinonero-Candela, M. Sugiyama, A. Schwaighofer, N. Lawrence (eds.). Cambio de conjunto de datos en el aprendizaje automático , MIT Press, Cambridge, MA: 131–160.

[DICA-22] K. Muandet, D. Balduzzi, B. Schölkopf. (2013). Generalización de dominios a través de la representación de características invariables . 30 ° Congreso Internacional de Machine Learning .

[MERR-23] Z. Szabó, B. Sriperumbudur, B. Póczos, A. Gretton. Teoría del aprendizaje para la regresión de distribución . Journal of Machine Learning Research , 17 (152): 1–40, 2016.

[1]