Métodos Bayesianos Variacionales

Los métodos bayesianos variacionales son una familia de técnicas para aproximar integrales intratables que surgen en la inferencia bayesiana y el aprendizaje automático . Por lo general, se utilizan en modelos estadísticos complejos que consisten en variables observadas (generalmente denominadas "datos"), así como parámetros desconocidos y variables latentes , con varios tipos de relaciones entre los tres tipos de variables aleatorias , como podría describirse mediante un modelo gráfico . Como es típico en la inferencia bayesiana, los parámetros y las variables latentes se agrupan como "variables no observadas". Los métodos bayesianos variacionales se utilizan principalmente para dos propósitos:

Proporcionar una aproximación analítica a la probabilidad posterior de las variables no observadas, con el fin de realizar inferencias estadísticas sobre estas variables.
Derivar un límite inferior para la probabilidad marginal (a veces denominada "evidencia") de los datos observados (es decir, la probabilidad marginal de los datos dados en el modelo, con la marginación realizada sobre las variables no observadas). Esto se usa típicamente para realizar la selección del modelo , la idea general es que una mayor probabilidad marginal para un modelo dado indica un mejor ajuste de los datos por ese modelo y, por lo tanto, una mayor probabilidad de que el modelo en cuestión sea el que generó los datos. (Consulte también el artículo sobre el factor de Bayes ).

En el primer propósito (el de aproximar una probabilidad posterior), Bayes variacional es una alternativa a los métodos de muestreo de Monte Carlo - particularmente, los métodos de Monte Carlo de cadena de Markov como el muestreo de Gibbs - para adoptar un enfoque completamente bayesiano de la inferencia estadística sobre distribuciones complejas que son difícil de evaluar directamente o muestrear . En particular, mientras que las técnicas de Monte Carlo proporcionan una aproximación numérica al posterior exacto utilizando un conjunto de muestras, el Bayes Variacional proporciona una solución analítica exacta y localmente óptima para una aproximación del posterior.

Bayes variacional puede verse como una extensión del algoritmo EM ( expectativa-maximización ) desde la estimación máxima a posteriori ( estimación MAP) del valor más probable individual de cada parámetro hasta la estimación completamente bayesiana que calcula (una aproximación a) la distribución posterior completa de los parámetros y variables latentes. Como en EM, encuentra un conjunto de valores de parámetros óptimos y tiene la misma estructura alterna que EM, basada en un conjunto de ecuaciones entrelazadas (mutuamente dependientes) que no se pueden resolver analíticamente.

Para muchas aplicaciones, el Bayes variacional produce soluciones de precisión comparable al muestreo de Gibbs a mayor velocidad. Sin embargo, derivar el conjunto de ecuaciones utilizadas para actualizar los parámetros de forma iterativa a menudo requiere una gran cantidad de trabajo en comparación con la derivación de las ecuaciones de muestreo de Gibbs comparables. Este es el caso incluso de muchos modelos que son conceptualmente bastante simples, como se demuestra a continuación en el caso de un modelo básico no jerárquico con solo dos parámetros y sin variables latentes.

Derivación matemática

Problema

En inferencia variacional , la distribución posterior sobre un conjunto de variables no observadas ${\ Displaystyle \ mathbf {Z} = \ {Z_ {1} \ dots Z_ {n} \}}$ dado algunos datos ${\ Displaystyle \ mathbf {X}}$ se aproxima mediante una denominada distribución variacional , ${\ Displaystyle Q (\ mathbf {Z})}$ :

{\ Displaystyle P (\ mathbf {Z} \ mid \ mathbf {X}) \ approx Q (\ mathbf {Z}).}

La distribución ${\ Displaystyle Q (\ mathbf {Z})}$ está restringido a pertenecer a una familia de distribuciones de forma más simple (por ejemplo, una familia de distribuciones gaussianas) que ${\ Displaystyle P (\ mathbf {Z} \ mid \ mathbf {X})}$ , seleccionado con la intención de hacer ${\ Displaystyle Q (\ mathbf {Z})}$ similar al verdadero posterior, ${\ Displaystyle P (\ mathbf {Z} \ mid \ mathbf {X})}$ .

La similitud (o disimilitud) se mide en términos de una función de disimilitud ${\ Displaystyle d (Q; P)}$ y por lo tanto, la inferencia se realiza seleccionando la distribución ${\ Displaystyle Q (\ mathbf {Z})}$ que minimiza ${\ Displaystyle d (Q; P)}$ .

Divergencia KL

El tipo más común de Bayes variacional utiliza la divergencia de Kullback-Leibler ( divergencia KL) de P de Q como la elección de la función de disimilitud. Esta elección hace que esta minimización sea manejable. La divergencia KL se define como

{\ Displaystyle D _ {\ mathrm {KL}} (Q \ P paralelo) \ triangleq \ sum _ {\ mathbf {Z}} Q (\ mathbf {Z}) \ log {\ frac {Q (\ mathbf {Z} )} {P (\ mathbf {Z} \ mid \ mathbf {X})}}.}

Tenga en cuenta que Q y P se invierten de lo que cabría esperar. Este uso de la divergencia KL invertida es conceptualmente similar al algoritmo de maximización de expectativas . (El uso de la divergencia KL de la otra manera produce el algoritmo de propagación de expectativas ).

Dificultad

Las técnicas variacionales se utilizan típicamente para formar una aproximación para:

{\ Displaystyle P (\ mathbf {Z} \ mid \ mathbf {X}) = {\ frac {P (\ mathbf {X} \ mid \ mathbf {Z}) P (\ mathbf {Z})} {P ( \ mathbf {X})}} = {\ frac {P (\ mathbf {X} \ mid \ mathbf {Z}) P (\ mathbf {Z})} {\ int _ {\ mathbf {Z}} P ( \ mathbf {X}, \ mathbf {Z}) \, d \ mathbf {Z}}}}

La marginación sobre ${\ Displaystyle \ mathbf {Z}}$ calcular ${\ Displaystyle P (\ mathbf {X})}$ en el denominador es típicamente intratable, porque, por ejemplo, el espacio de búsqueda de ${\ Displaystyle \ mathbf {Z}}$ es combinatoriamente grande. Por tanto, buscamos una aproximación, utilizando ${\ Displaystyle Q (\ mathbf {Z}) \ approx P (\ mathbf {Z} \ mid \ mathbf {X})}$ .

Evidencia límite inferior

Dado que ${\ Displaystyle P (\ mathbf {Z} \ mid \ mathbf {X}) = {\ frac {P (\ mathbf {X}, \ mathbf {Z})} {P (\ mathbf {X})}}}$ , la divergencia KL anterior también se puede escribir como

{\ Displaystyle D _ {\ mathrm {KL}} (Q \ paralelo P) = \ sum _ {\ mathbf {Z}} Q (\ mathbf {Z}) \ left [\ log {\ frac {Q (\ mathbf { Z})} {P (\ mathbf {Z}, \ mathbf {X})}} + \ log P (\ mathbf {X}) \ right] = \ sum _ {\ mathbf {Z}} Q (\ mathbf {Z}) \ left [\ log Q (\ mathbf {Z}) - \ log P (\ mathbf {Z}, \ mathbf {X}) \ right] + \ sum _ {\ mathbf {Z}} Q ( \ mathbf {Z}) \ left [\ log P (\ mathbf {X}) \ right]}

Porque ${\ Displaystyle P (\ mathbf {X})}$ es una constante con respecto a ${\ Displaystyle \ mathbf {Z}}$ y ${\ Displaystyle \ sum _ {\ mathbf {Z}} Q (\ mathbf {Z}) = 1}$ porque ${\ Displaystyle Q (\ mathbf {Z})}$ es una distribución, tenemos

{\ Displaystyle D _ {\ mathrm {KL}} (Q \ paralelo P) = \ sum _ {\ mathbf {Z}} Q (\ mathbf {Z}) \ left [\ log Q (\ mathbf {Z}) - \ log P (\ mathbf {Z}, \ mathbf {X}) \ right] + \ log P (\ mathbf {X})}

que, de acuerdo con la definición de valor esperado (para una variable aleatoria discreta ), se puede escribir de la siguiente manera

{\ Displaystyle D _ {\ mathrm {KL}} (Q \ paralelo P) = \ mathbb {E} _ {\ mathbf {Q}} \ left [\ log Q (\ mathbf {Z}) - \ log P (\ mathbf {Z}, \ mathbf {X}) \ right] + \ log P (\ mathbf {X})}

que se puede reorganizar para convertirse

{\ Displaystyle \ log P (\ mathbf {X}) = D _ {\ mathrm {KL}} (Q \ paralelo P) - \ mathbb {E} _ {\ mathbf {Q}} \ left [\ log Q (\ mathbf {Z}) - \ log P (\ mathbf {Z}, \ mathbf {X}) \ right] = D _ {\ mathrm {KL}} (Q \ paralelo P) + {\ mathcal {L}} (Q )}

Como evidencia de registro ${\ Displaystyle \ log P (\ mathbf {X})}$ se fija con respecto a ${\ displaystyle Q}$ , maximizando el plazo final ${\ Displaystyle {\ mathcal {L}} (Q)}$ minimiza la divergencia KL de ${\ displaystyle Q}$ de ${\ Displaystyle P}$ . Por elección adecuada de ${\ displaystyle Q}$ , ${\ Displaystyle {\ mathcal {L}} (Q)}$ se vuelve manejable para calcular y maximizar. Por tanto, tenemos una aproximación analítica ${\ displaystyle Q}$ para el posterior ${\ Displaystyle P (\ mathbf {Z} \ mid \ mathbf {X})}$ y un límite inferior ${\ Displaystyle {\ mathcal {L}} (Q)}$ por la evidencia ${\ Displaystyle \ log P (\ mathbf {X})}$ (dado que la divergencia KL no es negativa).

El límite inferior ${\ Displaystyle {\ mathcal {L}} (Q)}$ se conoce como energía libre variacional (negativa) en analogía con la energía libre termodinámica porque también se puede expresar como energía negativa ${\ Displaystyle \ operatorname {E} _ {Q} [\ log P (\ mathbf {Z}, \ mathbf {X})]}$ más la entropía de ${\ displaystyle Q}$ . El termino ${\ Displaystyle {\ mathcal {L}} (Q)}$ también se conoce como Evidence Lower BOund , abreviado como ELBO , para enfatizar que es un límite inferior en la evidencia de los datos.

Pruebas

Mediante el teorema de Pitágoras generalizado de la divergencia de Bregman , del cual la divergencia KL es un caso especial, se puede demostrar que: ^[1]^[2]

Teorema de Pitágoras generalizado para la divergencia de Bregman . ^[2]

{\ Displaystyle D _ {\ mathrm {KL}} (Q \ paralelo P) \ geq D _ {\ mathrm {KL}} (Q \ paralelo Q ^ {*}) + D _ {\ mathrm {KL}} (Q ^ { *} \ P paralelo), \ forall Q ^ {*} \ in {\ mathcal {C}}}

dónde ${\ Displaystyle {\ mathcal {C}}}$ es un conjunto convexo y la igualdad se cumple si:

{\ Displaystyle Q = Q ^ {*} \ triangleq \ arg \ min _ {Q \ in {\ mathcal {C}}} D _ {\ mathrm {KL}} (Q \ paralelo P).}

En este caso, el minimizador global ${\ Displaystyle Q ^ {*} (\ mathbf {Z}) = q ^ {*} (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2}) q ^ {*} (\ mathbf {Z} _ {2}) = q ^ {*} (\ mathbf {Z} _ {2} \ mid \ mathbf {Z} _ {1}) q ^ {*} (\ mathbf {Z} _ { 1}),}$ con ${\ Displaystyle \ mathbf {Z} = \ {\ mathbf {Z_ {1}}, \ mathbf {Z_ {2}} \},}$ se puede encontrar de la siguiente manera: ^[1]

{\ Displaystyle q ^ {*} (\ mathbf {Z} _ {2}) = {\ frac {P (\ mathbf {X})} {\ zeta (\ mathbf {X})}} {\ frac {P (\ mathbf {Z} _ {2} \ mid \ mathbf {X})} {\ exp (D _ {\ mathrm {KL}} (q ^ {*} (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2}) \ paralelo P (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2}, \ mathbf {X})))}} = {\ frac {1 } {\ zeta (\ mathbf {X})}} \ exp \ mathbb {E} _ {q ^ {*} (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2})} \ left (\ log {\ frac {P (\ mathbf {Z}, \ mathbf {X})} {q ^ {*} (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2 })}}\derecho),}

en el que la constante de normalización es:

{\ Displaystyle \ zeta (\ mathbf {X}) = P (\ mathbf {X}) \ int _ {\ mathbf {Z} _ {2}} {\ frac {P (\ mathbf {Z} _ {2} \ mid \ mathbf {X})} {\ exp (D _ {\ mathrm {KL}} (q ^ {*} (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2}) \ paralelo P (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2}, \ mathbf {X})))}} = \ int _ {\ mathbf {Z} _ {2}} \ exp \ mathbb {E} _ {q ^ {*} (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2})} \ left (\ log {\ frac {P (\ mathbf { Z}, \ mathbf {X})} {q ^ {*} (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2})}} \ derecha).}

El termino ${\ Displaystyle \ zeta (\ mathbf {X})}$ a menudo se denomina límite inferior de evidencia ( ELBO ) en la práctica, ya que ${\ Displaystyle P (\ mathbf {X}) \ geq \ zeta (\ mathbf {X}) = \ exp ({\ mathcal {L}} (Q ^ {*}))}$ , ^[1] como se muestra arriba.

Intercambiando los roles de ${\ Displaystyle \ mathbf {Z} _ {1}}$ y ${\ Displaystyle \ mathbf {Z} _ {2},}$ podemos calcular iterativamente el aproximado ${\ Displaystyle q ^ {*} (\ mathbf {Z} _ {1})}$ y ${\ Displaystyle q ^ {*} (\ mathbf {Z} _ {2})}$ de los marginales del modelo verdadero ${\ Displaystyle P (\ mathbf {Z} _ {1} \ mid \ mathbf {X})}$ y ${\ Displaystyle P (\ mathbf {Z} _ {2} \ mid \ mathbf {X}),}$ respectivamente. Aunque se garantiza que este esquema iterativo convergerá monótonamente, ^[1] la convergencia ${\ Displaystyle Q ^ {*}}$ es solo un minimizador local de ${\ Displaystyle D _ {\ mathrm {KL}} (Q \ paralelo P)}$ .

Si el espacio restringido ${\ Displaystyle {\ mathcal {C}}}$ está confinado dentro de un espacio independiente, es decir ${\ Displaystyle q ^ {*} (\ mathbf {Z} _ {1} \ mid \ mathbf {Z} _ {2}) = q ^ {*} (\ mathbf {Z_ {1}}),}$ el esquema iterativo anterior se convertirá en la llamada aproximación de campo medio ${\ Displaystyle Q ^ {*} (\ mathbf {Z}) = q ^ {*} (\ mathbf {Z} _ {1}) q ^ {*} (\ mathbf {Z} _ {2}),}$ Como se muestra abajo.

Aproximación de campo medio

La distribución variacional ${\ Displaystyle Q (\ mathbf {Z})}$ generalmente se asume que factoriza sobre alguna partición de las variables latentes, es decir, para alguna partición de las variables latentes ${\ Displaystyle \ mathbf {Z}}$ dentro ${\ Displaystyle \ mathbf {Z} _ {1} \ dots \ mathbf {Z} _ {M}}$ ,

{\ Displaystyle Q (\ mathbf {Z}) = \ prod _ {i = 1} ^ {M} q_ {i} (\ mathbf {Z} _ {i} \ mid \ mathbf {X})}

Puede demostrarse mediante el cálculo de variaciones (de ahí el nombre "Bayes variacional") que la "mejor" distribución ${\ Displaystyle q_ {j} ^ {*}}$ para cada uno de los factores ${\ Displaystyle q_ {j}}$ (en términos de la distribución que minimiza la divergencia KL, como se describe anteriormente) se puede expresar como:

{\ Displaystyle q_ {j} ^ {*} (\ mathbf {Z} _ {j} \ mid \ mathbf {X}) = {\ frac {e ^ {\ operatorname {E} _ {i \ neq j} [ \ ln p (\ mathbf {Z}, \ mathbf {X})]}} {\ int e ^ {\ operatorname {E} _ {i \ neq j} [\ ln p (\ mathbf {Z}, \ mathbf {X})]} \, d \ mathbf {Z} _ {j}}}}

dónde ${\ Displaystyle \ operatorname {E} _ {i \ neq j} [\ ln p (\ mathbf {Z}, \ mathbf {X})]}$ es la expectativa del logaritmo de la probabilidad conjunta de los datos y las variables latentes, tomada sobre todas las variables que no están en la partición: consulte ^[3] para obtener una derivación de la distribución ${\ Displaystyle q_ {j} ^ {*} (\ mathbf {Z} _ {j} \ mid \ mathbf {X})}$ .

En la práctica, solemos trabajar en términos de logaritmos, es decir:

{\ Displaystyle \ ln q_ {j} ^ {*} (\ mathbf {Z} _ {j} \ mid \ mathbf {X}) = \ operatorname {E} _ {i \ neq j} [\ ln p (\ mathbf {Z}, \ mathbf {X})] + {\ text {constante}}}

La constante en la expresión anterior está relacionada con la constante de normalización (el denominador en la expresión anterior para ${\ Displaystyle q_ {j} ^ {*}}$ ) y generalmente se restablece mediante inspección, ya que el resto de la expresión generalmente se puede reconocer como un tipo de distribución conocido (por ejemplo , gaussiana , gamma , etc.).

Usando las propiedades de las expectativas, la expresión ${\ Displaystyle \ operatorname {E} _ {i \ neq j} [\ ln p (\ mathbf {Z}, \ mathbf {X})]}$ Por lo general, se puede simplificar en una función de los hiperparámetros fijos de las distribuciones previas sobre las variables latentes y de las expectativas (y, a veces, momentos más altos , como la varianza ) de las variables latentes que no están en la partición actual (es decir, variables latentes no incluidas en ${\ Displaystyle \ mathbf {Z} _ {j}}$ ). Esto crea dependencias circulares entre los parámetros de las distribuciones sobre las variables en una partición y las expectativas de las variables en las otras particiones. Esto naturalmente sugiere un algoritmo iterativo , muy parecido a EM (el algoritmo de maximización de expectativas ), en el que las expectativas (y posiblemente momentos más altos) de las variables latentes se inicializan de alguna manera (tal vez al azar), y luego los parámetros de cada distribución son calculada a su vez utilizando los valores actuales de las expectativas, después de lo cual la expectativa de la distribución recién calculada se establece de manera apropiada de acuerdo con los parámetros calculados. Se garantiza la convergencia de un algoritmo de este tipo . ^[4]

En otras palabras, para cada una de las particiones de variables, al simplificar la expresión de la distribución sobre las variables de la partición y al examinar la dependencia funcional de la distribución de las variables en cuestión, generalmente se puede determinar la familia de la distribución (que a su vez determina la valor de la constante). La fórmula para los parámetros de la distribución se expresará en términos de los hiperparámetros de las distribuciones anteriores (que son constantes conocidas), pero también en términos de expectativas de funciones de variables en otras particiones. Por lo general, estas expectativas se pueden simplificar en funciones de expectativas de las propias variables (es decir, los medios ); a veces también aparecen expectativas de variables cuadradas (que pueden estar relacionadas con la varianza de las variables), o expectativas de potencias superiores (es decir, momentos superiores ). En la mayoría de los casos, las distribuciones de las otras variables serán de familias conocidas y se pueden buscar las fórmulas para las expectativas relevantes. Sin embargo, esas fórmulas dependen de los parámetros de esas distribuciones, que a su vez dependen de las expectativas sobre otras variables. El resultado es que las fórmulas para los parámetros de las distribuciones de cada variable se pueden expresar como una serie de ecuaciones con dependencias mutuas y no lineales entre las variables. Por lo general, no es posible resolver este sistema de ecuaciones directamente. Sin embargo, como se describe anteriormente, las dependencias sugieren un algoritmo iterativo simple, que en la mayoría de los casos está garantizado para converger. Un ejemplo aclarará este proceso.

Una fórmula de dualidad para la inferencia variacional

El siguiente teorema se denomina fórmula de dualidad para inferencia variacional. Explica algunas propiedades importantes de las distribuciones variacionales utilizadas en los métodos de Bayes variacionales. ^[5]

Teorema Considere dos espacios de probabilidad ${\ Displaystyle (\ Theta, {\ mathcal {F}}, P)}$ y ${\ Displaystyle (\ Theta, {\ mathcal {F}}, Q)}$ con ${\ Displaystyle Q \ ll P}$ . Suponga que existe una medida de probabilidad dominante común ${\ Displaystyle \ lambda}$ tal que ${\ Displaystyle P \ ll \ lambda}$ y ${\ Displaystyle Q \ ll \ lambda}$ . Dejar ${\ Displaystyle h}$ denotar cualquier variable aleatoria de valor real en ${\ Displaystyle (\ Theta, {\ mathcal {F}}, P)}$ que satisface ${\ Displaystyle h \ en L_ {1} (P)}$ . Entonces se cumple la siguiente igualdad

{\ Displaystyle \ log E_ {P} [\ exp h] = {\ text {sup}} _ {Q \ ll P} \ {E_ {Q} [h] -D _ {\ text {KL}} (Q \ paralelo P) \}.}

Además, el supremo en el lado derecho se alcanza si y sólo si se mantiene

{\ Displaystyle {\ frac {q (\ theta)} {p (\ theta)}} = {\ frac {\ exp h (\ theta)} {E_ {P} [\ exp h]}},}

casi seguramente con respecto a la medida de probabilidad ${\ displaystyle Q}$ , dónde ${\ Displaystyle p (\ theta) = dP / d \ lambda}$ y ${\ Displaystyle q (\ theta) = dQ / d \ lambda}$ denotar las derivadas Radon-Nikodym de las medidas de probabilidad ${\ Displaystyle P}$ y ${\ displaystyle Q}$ con respecto a ${\ Displaystyle \ lambda}$ , respectivamente.

Un ejemplo basico

Considere un modelo bayesiano no jerárquico simple que consta de un conjunto de observaciones iid de una distribución gaussiana , con media y varianza desconocidas . ^[6] A continuación, trabajamos con este modelo en gran detalle para ilustrar el funcionamiento del método variacional de Bayes.

Por conveniencia matemática, en el siguiente ejemplo trabajamos en términos de precisión , es decir, el recíproco de la varianza (o en un gaussiano multivariado, el inverso de la matriz de covarianza ), en lugar de la varianza en sí. (Desde un punto de vista teórico, la precisión y la varianza son equivalentes ya que existe una correspondencia uno a uno entre los dos).

El modelo matemático

Ponemos anteriores conjugadas distribuciones en la media desconocida ${\ Displaystyle \ mu}$ y precisión ${\ Displaystyle \ tau}$ , es decir, la media también sigue una distribución gaussiana mientras que la precisión sigue una distribución gamma . En otras palabras:

{\ Displaystyle {\ begin {alineado} \ tau & \ sim \ operatorname {Gamma} (a_ {0}, b_ {0}) \\\ mu & \ sim {\ mathcal {N}} (\ mu _ {0 }, (\ lambda _ {0} \ tau) ^ {- 1}) \\\ {x_ {1}, \ dots, x_ {N} \} & \ sim {\ mathcal {N}} (\ mu, \ tau ^ {- 1}) \\ N & = {\ text {número de puntos de datos}} \ end {alineado}}}

Los hiperparámetros ${\ Displaystyle \ mu _ {0}, \ lambda _ {0}, a_ {0}}$ y ${\ Displaystyle b_ {0}}$ en las distribuciones anteriores son valores fijos, dados. Se pueden establecer en números positivos pequeños para dar amplias distribuciones previas que indiquen ignorancia sobre las distribuciones previas de ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ tau}$ .

Se nos da ${\ Displaystyle N}$ puntos de datos ${\ Displaystyle \ mathbf {X} = \ {x_ {1}, \ ldots, x_ {N} \}}$ y nuestro objetivo es inferir la distribución posterior ${\ Displaystyle q (\ mu, \ tau) = p (\ mu, \ tau \ mid x_ {1}, \ ldots, x_ {N})}$ de los parámetros ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ tau.}$

La probabilidad conjunta

La probabilidad conjunta de todas las variables se puede reescribir como

{\ Displaystyle p (\ mathbf {X}, \ mu, \ tau) = p (\ mathbf {X} \ mid \ mu, \ tau) p (\ mu \ mid \ tau) p (\ tau)}

donde los factores individuales son

{\ Displaystyle {\ begin {alineado} p (\ mathbf {X} \ mid \ mu, \ tau) & = \ prod _ {n = 1} ^ {N} {\ mathcal {N}} (x_ {n} \ mid \ mu, \ tau ^ {- 1}) \\ p (\ mu \ mid \ tau) & = {\ mathcal {N}} \ left (\ mu \ mid \ mu _ {0}, (\ lambda _ {0} \ tau) ^ {- 1} \ right) \\ p (\ tau) & = \ operatorname {Gamma} (\ tau \ mid a_ {0}, b_ {0}) \ end {alineado}} }

dónde

{\ Displaystyle {\ begin {alineado} {\ mathcal {N}} (x \ mid \ mu, \ sigma ^ {2}) & = {\ frac {1} {\ sqrt {2 \ pi \ sigma ^ {2 }}}} e ^ {\ frac {- (x- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \\\ nombre de operador {Gamma} (\ tau \ mid a, b) & = {\ frac {1} {\ Gamma (a)}} b ^ {a} \ tau ^ {a-1} e ^ {- b \ tau} \ end {alineado}}}

Aproximación factorizada

Asumir que ${\ Displaystyle q (\ mu, \ tau) = q (\ mu) q (\ tau)}$ , es decir, que la distribución posterior se factoriza en factores independientes para ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ tau}$ . Este tipo de suposición subyace al método bayesiano variacional. De hecho, la verdadera distribución posterior no se factoriza de esta manera (de hecho, en este caso simple, se sabe que es una distribución Gaussiana-gamma ) y, por lo tanto, el resultado que obtenemos será una aproximación.

Derivación de $q (μ)$

Luego

{\ Displaystyle {\ begin {alineado} \ ln q _ {\ mu} ^ {*} (\ mu) & = \ operatorname {E} _ {\ tau} \ left [\ ln p (\ mathbf {X} \ mid \ mu, \ tau) + \ ln p (\ mu \ mid \ tau) + \ ln p (\ tau) \ right] + C \\ & = \ operatorname {E} _ {\ tau} \ left [\ ln p (\ mathbf {X} \ mid \ mu, \ tau) \ right] + \ operatorname {E} _ {\ tau} \ left [\ ln p (\ mu \ mid \ tau) \ right] + \ operatorname { E} _ {\ tau} \ left [\ ln p (\ tau) \ right] + C \\ & = \ operatorname {E} _ {\ tau} \ left [\ ln \ prod _ {n = 1} ^ {N} {\ mathcal {N}} \ left (x_ {n} \ mid \ mu, \ tau ^ {- 1} \ right) \ right] + \ operatorname {E} _ {\ tau} \ left [\ ln {\ mathcal {N}} \ left (\ mu \ mid \ mu _ {0}, (\ lambda _ {0} \ tau) ^ {- 1} \ right) \ right] + C_ {2} \\ & = \ operatorname {E} _ {\ tau} \ left [\ ln \ prod _ {n = 1} ^ {N} {\ sqrt {\ frac {\ tau} {2 \ pi}}} e ^ {- {\ frac {(x_ {n} - \ mu) ^ {2} \ tau} {2}}} \ right] + \ operatorname {E} _ {\ tau} \ left [\ ln {\ sqrt {\ frac {\ lambda _ {0} \ tau} {2 \ pi}}} e ^ {- {\ frac {(\ mu - \ mu _ {0}) ^ {2} \ lambda _ {0} \ tau} { 2}}} \ right] + C_ {2} \\ & = \ operatorname {E} _ {\ tau} \ left [\ sum _ {n = 1} ^ {N} \ left ({\ frac {1} {2}} (\ ln \ tau - \ ln 2 \ pi) - {\ frac {(x_ {n} - \ mu) ^ {2} \ tau} {2}} \ rig ht) \ right] + \ operatorname {E} _ {\ tau} \ left [{\ frac {1} {2}} (\ ln \ lambda _ {0} + \ ln \ tau - \ ln 2 \ pi) - {\ frac {(\ mu - \ mu _ {0}) ^ {2} \ lambda _ {0} \ tau} {2}} \ right] + C_ {2} \\ & = \ operatorname {E} _ {\ tau} \ left [\ sum _ {n = 1} ^ {N} - {\ frac {(x_ {n} - \ mu) ^ {2} \ tau} {2}} \ right] + \ nombre de operador {E} _ {\ tau} \ left [- {\ frac {(\ mu - \ mu _ {0}) ^ {2} \ lambda _ {0} \ tau} {2}} \ right] + \ nombre de operador {E} _ {\ tau} \ left [\ sum _ {n = 1} ^ {N} {\ frac {1} {2}} (\ ln \ tau - \ ln 2 \ pi) \ right] + \ operatorname {E} _ {\ tau} \ left [{\ frac {1} {2}} (\ ln \ lambda _ {0} + \ ln \ tau - \ ln 2 \ pi) \ right] + C_ { 2} \\ & = \ operatorname {E} _ {\ tau} \ left [\ sum _ {n = 1} ^ {N} - {\ frac {(x_ {n} - \ mu) ^ {2} \ tau} {2}} \ right] + \ operatorname {E} _ {\ tau} \ left [- {\ frac {(\ mu - \ mu _ {0}) ^ {2} \ lambda _ {0} \ tau} {2}} \ right] + C_ {3} \\ & = - {\ frac {\ operatorname {E} _ {\ tau} [\ tau]} {2}} \ left \ {\ sum _ { n = 1} ^ {N} (x_ {n} - \ mu) ^ {2} + \ lambda _ {0} (\ mu - \ mu _ {0}) ^ {2} \ right \} + C_ { 3} \ end {alineado}}}

En la derivación anterior, ${\ Displaystyle C}$ , ${\ Displaystyle C_ {2}}$ y ${\ Displaystyle C_ {3}}$ se refieren a valores que son constantes con respecto a ${\ Displaystyle \ mu}$ . Tenga en cuenta que el término ${\ Displaystyle \ operatorname {E} _ {\ tau} [\ ln p (\ tau)]}$ no es una función de ${\ Displaystyle \ mu}$ y tendrá el mismo valor independientemente del valor de ${\ Displaystyle \ mu}$ . Por lo tanto, en la línea 3 podemos absorberlo en el término constante al final. Hacemos lo mismo en la línea 7.

La última línea es simplemente un polinomio cuadrático en ${\ Displaystyle \ mu}$ . Dado que este es el logaritmo de ${\ Displaystyle q _ {\ mu} ^ {*} (\ mu)}$ , Podemos ver eso ${\ Displaystyle q _ {\ mu} ^ {*} (\ mu)}$ en sí mismo es una distribución gaussiana .

Con una cierta cantidad de matemáticas tediosas (expandiendo los cuadrados dentro de las llaves, separando y agrupando los términos que involucran ${\ Displaystyle \ mu}$ y ${\ Displaystyle \ mu ^ {2}}$ y completando el cuadrado sobre ${\ Displaystyle \ mu}$ ), podemos derivar los parámetros de la distribución gaussiana:

{\ Displaystyle {\ begin {alineado} \ ln q _ {\ mu} ^ {*} (\ mu) & = - {\ frac {\ operatorname {E} _ {\ tau} [\ tau]} {2}} \ left \ {\ sum _ {n = 1} ^ {N} (x_ {n} - \ mu) ^ {2} + \ lambda _ {0} (\ mu - \ mu _ {0}) ^ {2 } \ right \} + C_ {3} \\ & = - {\ frac {\ operatorname {E} _ {\ tau} [\ tau]} {2}} \ left \ {\ sum _ {n = 1} ^ {N} (x_ {n} ^ {2} -2x_ {n} \ mu + \ mu ^ {2}) + \ lambda _ {0} (\ mu ^ {2} -2 \ mu _ {0} \ mu + \ mu _ {0} ^ {2}) \ right \} + C_ {3} \\ & = - {\ frac {\ operatorname {E} _ {\ tau} [\ tau]} {2} } \ left \ {\ left (\ sum _ {n = 1} ^ {N} x_ {n} ^ {2} \ right) -2 \ left (\ sum _ {n = 1} ^ {N} x_ { n} \ derecha) \ mu + \ izquierda (\ sum _ {n = 1} ^ {N} \ mu ^ {2} \ derecha) + \ lambda _ {0} \ mu ^ {2} -2 \ lambda _ {0} \ mu _ {0} \ mu + \ lambda _ {0} \ mu _ {0} ^ {2} \ right \} + C_ {3} \\ & = - {\ frac {\ operatorname {E } _ {\ tau} [\ tau]} {2}} \ left \ {(\ lambda _ {0} + N) \ mu ^ {2} -2 \ left (\ lambda _ {0} \ mu _ { 0} + \ sum _ {n = 1} ^ {N} x_ {n} \ right) \ mu + \ left (\ sum _ {n = 1} ^ {N} x_ {n} ^ {2} \ right ) + \ lambda _ {0} \ mu _ {0} ^ {2} \ right \} + C_ {3} \\ & = - {\ frac {\ operatorname {E} _ {\ tau} [\ tau] } {2}} \ left \ {(\ lambda _ {0} + N) \ mu ^ {2} -2 \ left (\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1 } ^ {N} x_ {n} \ right) \ mu \ right \} + C_ {4} \\ & = - {\ frac {\ nombre de operador {E} _ {\ tau} [\ tau]} {2}} \ left \ {(\ lambda _ {0} + N) \ mu ^ {2} -2 \ left ({\ frac {\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n}} {\ lambda _ {0} + N}} \ right) (\ lambda _ {0} + N ) \ mu \ right \} + C_ {4} \\ & = - {\ frac {\ operatorname {E} _ {\ tau} [\ tau]} {2}} \ left \ {(\ lambda _ {0 } + N) \ left (\ mu ^ {2} -2 \ left ({\ frac {\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n }} {\ lambda _ {0} + N}} \ right) \ mu \ right) \ right \} + C_ {4} \\ & = - {\ frac {\ operatorname {E} _ {\ tau} [ \ tau]} {2}} \ left \ {(\ lambda _ {0} + N) \ left (\ mu ^ {2} -2 \ left ({\ frac {\ lambda _ {0} \ mu _ { 0} + \ sum _ {n = 1} ^ {N} x_ {n}} {\ lambda _ {0} + N}} \ right) \ mu + \ left ({\ frac {\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n}} {\ lambda _ {0} + N}} \ right) ^ {2} - \ left ({\ frac { \ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n}} {\ lambda _ {0} + N}} \ right) ^ {2} \ right ) \ right \} + C_ {4} \\ & = - {\ frac {\ operatorname {E} _ {\ tau} [\ tau]} {2}} \ left \ {(\ lambda _ {0} + N) \ left (\ mu ^ {2} -2 \ left ({\ frac {\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n}} {\ lambda _ {0} + N}} \ right) \ mu + \ left ({\ frac {\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n}} {\ lambda _ {0} + N}} \ derecha) ^ {2} \ right) \ right \} + C_ {5} \\ & = - {\ frac {\ operatorname {E} _ {\ tau} [\ tau]} {2}} \ left \ {(\ lambda _ {0} + N) \ left (\ mu - {\ frac {\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n}} {\ lambda _ {0} + N}} \ right) ^ {2} \ right \} + C_ {5} \\ & = - {\ frac {1} {2}} (\ lambda _ {0} + N) \ nombre de operador {E} _ {\ tau} [\ tau] \ left (\ mu - {\ frac {\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ { n}} {\ lambda _ {0} + N}} \ derecha) ^ {2} + C_ {5} \ end {alineado}}}

Tenga en cuenta que todos los pasos anteriores se pueden acortar utilizando la fórmula para la suma de dos cuadráticas .

En otras palabras:

{\ Displaystyle {\ begin {alineado} q _ {\ mu} ^ {*} (\ mu) & \ sim {\ mathcal {N}} (\ mu \ mid \ mu _ {N}, \ lambda _ {N} ^ {- 1}) \\\ mu _ {N} & = {\ frac {\ lambda _ {0} \ mu _ {0} + N {\ bar {x}}} {\ lambda _ {0} + N}} \\\ lambda _ {N} & = (\ lambda _ {0} + N) \ operatorname {E} _ {\ tau} [\ tau] \\ {\ bar {x}} & = {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} x_ {n} \ end {alineado}}}

Derivación de $q (τ)$

La derivación de ${\ Displaystyle q _ {\ tau} ^ {*} (\ tau)}$ es similar al anterior, aunque omitimos algunos de los detalles en aras de la brevedad.

{\ Displaystyle {\ begin {alineado} \ ln q _ {\ tau} ^ {*} (\ tau) & = \ operatorname {E} _ {\ mu} [\ ln p (\ mathbf {X} \ mid \ mu , \ tau) + \ ln p (\ mu \ mid \ tau)] + \ ln p (\ tau) + {\ text {constante}} \\ & = (a_ {0} -1) \ ln \ tau - b_ {0} \ tau + {\ frac {1} {2}} \ ln \ tau + {\ frac {N} {2}} \ ln \ tau - {\ frac {\ tau} {2}} \ nombre del operador {E} _ {\ mu} \ left [\ sum _ {n = 1} ^ {N} (x_ {n} - \ mu) ^ {2} + \ lambda _ {0} (\ mu - \ mu _ {0}) ^ {2} \ right] + {\ text {constante}} \ end {alineado}}}

Exponenciando ambos lados, podemos ver que ${\ Displaystyle q _ {\ tau} ^ {*} (\ tau)}$ es una distribución gamma . Específicamente:

{\ Displaystyle {\ begin {alineado} q _ {\ tau} ^ {*} (\ tau) & \ sim \ operatorname {Gamma} (\ tau \ mid a_ {N}, b_ {N}) \\ a_ {N } & = a_ {0} + {\ frac {N + 1} {2}} \\ b_ {N} & = b_ {0} + {\ frac {1} {2}} \ operatorname {E} _ { \ mu} \ left [\ sum _ {n = 1} ^ {N} (x_ {n} - \ mu) ^ {2} + \ lambda _ {0} (\ mu - \ mu _ {0}) ^ {2} \ right] \ end {alineado}}}

Algoritmo para calcular los parámetros

Recapitulemos las conclusiones de los apartados anteriores:

{\ Displaystyle {\ begin {alineado} q _ {\ mu} ^ {*} (\ mu) & \ sim {\ mathcal {N}} (\ mu \ mid \ mu _ {N}, \ lambda _ {N} ^ {- 1}) \\\ mu _ {N} & = {\ frac {\ lambda _ {0} \ mu _ {0} + N {\ bar {x}}} {\ lambda _ {0} + N}} \\\ lambda _ {N} & = (\ lambda _ {0} + N) \ operatorname {E} _ {\ tau} [\ tau] \\ {\ bar {x}} & = {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} x_ {n} \ end {alineado}}}

y

{\ Displaystyle {\ begin {alineado} q _ {\ tau} ^ {*} (\ tau) & \ sim \ operatorname {Gamma} (\ tau \ mid a_ {N}, b_ {N}) \\ a_ {N } & = a_ {0} + {\ frac {N + 1} {2}} \\ b_ {N} & = b_ {0} + {\ frac {1} {2}} \ operatorname {E} _ { \ mu} \ left [\ sum _ {n = 1} ^ {N} (x_ {n} - \ mu) ^ {2} + \ lambda _ {0} (\ mu - \ mu _ {0}) ^ {2} \ right] \ end {alineado}}}

En cada caso, los parámetros para la distribución sobre una de las variables dependen de las expectativas tomadas con respecto a la otra variable. Podemos expandir las expectativas, utilizando las fórmulas estándar para las expectativas de momentos de las distribuciones gaussiana y gamma:

{\ Displaystyle {\ begin {alineado} \ operatorname {E} [\ tau \ mid a_ {N}, b_ {N}] & = {\ frac {a_ {N}} {b_ {N}}} \\\ nombre de operador {E} \ left [\ mu \ mid \ mu _ {N}, \ lambda _ {N} ^ {- 1} \ right] & = \ mu _ {N} \\\ nombre de operador {E} \ left [ X ^ {2} \ right] & = \ operatorname {Var} (X) + (\ operatorname {E} [X]) ^ {2} \\\ operatorname {E} \ left [\ mu ^ {2} \ mid \ mu _ {N}, \ lambda _ {N} ^ {- 1} \ right] & = \ lambda _ {N} ^ {- 1} + \ mu _ {N} ^ {2} \ end {alineado }}}

Aplicar estas fórmulas a las ecuaciones anteriores es trivial en la mayoría de los casos, pero la ecuación para ${\ Displaystyle b_ {N}}$ toma más trabajo:

{\ Displaystyle {\ begin {alineado} b_ {N} & = b_ {0} + {\ frac {1} {2}} \ operatorname {E} _ {\ mu} \ left [\ sum _ {n = 1 } ^ {N} (x_ {n} - \ mu) ^ {2} + \ lambda _ {0} (\ mu - \ mu _ {0}) ^ {2} \ right] \\ & = b_ {0 } + {\ frac {1} {2}} \ operatorname {E} _ {\ mu} \ left [(\ lambda _ {0} + N) \ mu ^ {2} -2 \ left (\ lambda _ { 0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n} \ right) \ mu + \ left (\ sum _ {n = 1} ^ {N} x_ {n} ^ {2} \ right) + \ lambda _ {0} \ mu _ {0} ^ {2} \ right] \\ & = b_ {0} + {\ frac {1} {2}} \ left [( \ lambda _ {0} + N) \ operatorname {E} _ {\ mu} [\ mu ^ {2}] - 2 \ left (\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n} \ right) \ operatorname {E} _ {\ mu} [\ mu] + \ left (\ sum _ {n = 1} ^ {N} x_ {n} ^ { 2} \ derecha) + \ lambda _ {0} \ mu _ {0} ^ {2} \ derecha] \\ & = b_ {0} + {\ frac {1} {2}} \ izquierda [(\ lambda _ {0} + N) \ left (\ lambda _ {N} ^ {- 1} + \ mu _ {N} ^ {2} \ right) -2 \ left (\ lambda _ {0} \ mu _ { 0} + \ sum _ {n = 1} ^ {N} x_ {n} \ right) \ mu _ {N} + \ left (\ sum _ {n = 1} ^ {N} x_ {n} ^ { 2} \ right) + \ lambda _ {0} \ mu _ {0} ^ {2} \ right] \\\ end {alineado}}}

Entonces podemos escribir las ecuaciones de los parámetros de la siguiente manera, sin ninguna expectativa:

{\ displaystyle {\ begin {alineado} \ mu _ {N} & = {\ frac {\ lambda _ {0} \ mu _ {0} + N {\ bar {x}}} {\ lambda _ {0} + N}} \\\ lambda _ {N} & = (\ lambda _ {0} + N) {\ frac {a_ {N}} {b_ {N}}} \\ {\ bar {x}} & = {\ frac {1} {N}} \ sum _ {n = 1} ^ {N} x_ {n} \\ a_ {N} & = a_ {0} + {\ frac {N + 1} {2 }} \\ b_ {N} & = b_ {0} + {\ frac {1} {2}} \ left [(\ lambda _ {0} + N) \ left (\ lambda _ {N} ^ {- 1} + \ mu _ {N} ^ {2} \ right) -2 \ left (\ lambda _ {0} \ mu _ {0} + \ sum _ {n = 1} ^ {N} x_ {n} \ right) \ mu _ {N} + \ left (\ sum _ {n = 1} ^ {N} x_ {n} ^ {2} \ right) + \ lambda _ {0} \ mu _ {0} ^ {2} \ right] \ end {alineado}}}

Tenga en cuenta que hay dependencias circulares entre las fórmulas para ${\ Displaystyle \ lambda _ {N}}$ y ${\ Displaystyle b_ {N}}$ . Esto naturalmente sugiere un algoritmo similar a EM :

Calcular ${\ Displaystyle \ sum _ {n = 1} ^ {N} x_ {n}}$ y ${\ Displaystyle \ sum _ {n = 1} ^ {N} x_ {n} ^ {2}.}$ Utilice estos valores para calcular ${\ Displaystyle \ mu _ {N}}$ y ${\ Displaystyle a_ {N}.}$
Inicializar ${\ Displaystyle \ lambda _ {N}}$ a algún valor arbitrario.
Utilice el valor actual de ${\ Displaystyle \ lambda _ {N},}$ junto con los valores conocidos de los otros parámetros, para calcular ${\ Displaystyle b_ {N}}$ .
Utilice el valor actual de ${\ Displaystyle b_ {N},}$ junto con los valores conocidos de los otros parámetros, para calcular ${\ Displaystyle \ lambda _ {N}}$ .
Repita los dos últimos pasos hasta la convergencia (es decir, hasta que ningún valor haya cambiado más que una pequeña cantidad).

Luego tenemos valores para los hiperparámetros de las distribuciones aproximadas de los parámetros posteriores, que podemos usar para calcular las propiedades que queramos del posterior, por ejemplo, su media y varianza, una región de densidad más alta del 95% (el intervalo más pequeño que incluye 95 % de la probabilidad total), etc.

Se puede demostrar que se garantiza que este algoritmo convergerá a un máximo local.

Tenga en cuenta también que las distribuciones posteriores tienen la misma forma que las distribuciones anteriores correspondientes. Nos hicieron no asumimos esto; la única suposición que hicimos fue que las distribuciones se factorizaron, y la forma de las distribuciones siguió de forma natural. Resulta (ver más abajo) que el hecho de que las distribuciones posteriores tengan la misma forma que las distribuciones anteriores no es una coincidencia, sino un resultado general siempre que las distribuciones anteriores sean miembros de la familia exponencial , que es el caso de la mayoría de las distribuciones. distribuciones estándar.

Más discusión

Receta paso a paso

El ejemplo anterior muestra el método mediante el cual se deriva la aproximación variacional-bayesiana a una densidad de probabilidad posterior en una red bayesiana determinada :

Describir la red con un modelo gráfico , identificando las variables observadas (datos) ${\ Displaystyle \ mathbf {X}}$ y variables no observadas ( parámetros ${\ Displaystyle {\ boldsymbol {\ Theta}}}$ y variables latentes ${\ Displaystyle \ mathbf {Z}}$ ) y sus distribuciones de probabilidad condicionales . Luego, Bayes variacional construirá una aproximación a la probabilidad posterior ${\ Displaystyle p (\ mathbf {Z}, {\ boldsymbol {\ Theta}} \ mid \ mathbf {X})}$ . La aproximación tiene la propiedad básica de que es una distribución factorizada, es decir, un producto de dos o más distribuciones independientes sobre subconjuntos disjuntos de las variables no observadas.
Divida las variables no observadas en dos o más subconjuntos, sobre los cuales se derivarán los factores independientes. No existe un procedimiento universal para hacer esto; la creación de demasiados subconjuntos produce una aproximación deficiente, mientras que la creación de muy pocos hace que todo el procedimiento de Bayes variacional sea intratable. Normalmente, la primera división consiste en separar los parámetros y las variables latentes; a menudo, esto es suficiente por sí solo para producir un resultado manejable. Suponga que las particiones se llaman ${\ Displaystyle \ mathbf {Z} _ {1}, \ ldots, \ mathbf {Z} _ {M}}$ .
Para una partición determinada ${\ Displaystyle \ mathbf {Z} _ {j}}$ , escriba la fórmula para obtener la mejor distribución aproximada ${\ Displaystyle q_ {j} ^ {*} (\ mathbf {Z} _ {j} \ mid \ mathbf {X})}$ usando la ecuación básica ${\ Displaystyle \ ln q_ {j} ^ {*} (\ mathbf {Z} _ {j} \ mid \ mathbf {X}) = \ operatorname {E} _ {i \ neq j} [\ ln p (\ mathbf {Z}, \ mathbf {X})] + {\ text {constante}}}$ .
Complete la fórmula para la distribución de probabilidad conjunta usando el modelo gráfico. Cualquier componente de distribuciones condicionales que no involucre ninguna de las variables en ${\ Displaystyle \ mathbf {Z} _ {j}}$ se puede ignorar; se incorporarán al término constante.
Simplifique la fórmula y aplique el operador de expectativa, siguiendo el ejemplo anterior. Idealmente, esto debería simplificarse en expectativas de funciones básicas de variables que no están en ${\ Displaystyle \ mathbf {Z} _ {j}}$ (por ejemplo, primer o segundo momento sin procesar , expectativa de un logaritmo, etc.). Para que el procedimiento de Bayes variacional funcione bien, estas expectativas generalmente deben ser expresadas analíticamente como funciones de los parámetros y / o hiperparámetros de las distribuciones de estas variables. En todos los casos, estos términos de expectativa son constantes con respecto a las variables en la partición actual.
La forma funcional de la fórmula con respecto a las variables en la partición actual indica el tipo de distribución. En particular, exponenciar la fórmula genera la función de densidad de probabilidad (PDF) de la distribución (o al menos, algo proporcional a ella, con constante de normalización desconocida ). Para que el método global sea manejable, debería ser posible reconocer la forma funcional como perteneciente a una distribución conocida. Es posible que se requiera una manipulación matemática significativa para convertir la fórmula en una forma que coincida con el PDF de una distribución conocida. Cuando se puede hacer esto, se puede restablecer la constante de normalización por definición, y se pueden derivar ecuaciones para los parámetros de la distribución conocida extrayendo las partes apropiadas de la fórmula.
Cuando todas las expectativas pueden ser reemplazadas analíticamente con funciones de variables que no están en la partición actual, y el PDF puesto en una forma que permite la identificación con una distribución conocida, el resultado es un conjunto de ecuaciones que expresan los valores de los parámetros óptimos como funciones de la parámetros de variables en otras particiones.
Cuando este procedimiento se puede aplicar a todas las particiones, el resultado es un conjunto de ecuaciones mutuamente vinculadas que especifican los valores óptimos de todos los parámetros.
Una expectativa maximización se aplica entonces procedimiento de tipo (EM), recogiendo un valor inicial para cada parámetro y la iteración a través de una serie de pasos, en donde en cada ciclo de paso que a través de las ecuaciones, la actualización de cada parámetro, a su vez. Esto está garantizado para converger.

Puntos mas importantes

Debido a todas las manipulaciones matemáticas involucradas, es fácil perder de vista el panorama general. Las cosas importantes son:

La idea de Bayes variacional es construir una aproximación analítica a la probabilidad posterior del conjunto de variables no observadas (parámetros y variables latentes), dados los datos. Esto significa que la forma de la solución es similar a otros métodos de inferencia bayesianos , como el muestreo de Gibbs , es decir, una distribución que busca describir todo lo que se sabe sobre las variables. Como en otros métodos bayesianos, pero a diferencia de, por ejemplo, en la maximización de expectativas (EM) u otros métodos de máxima verosimilitud , ambos tipos de variables no observadas (es decir, parámetros y variables latentes) se tratan de la misma manera, es decir, como variables aleatorias . Las estimaciones de las variables se pueden derivar de las formas bayesianas estándar, por ejemplo, calculando la media de la distribución para obtener una estimación puntual única o derivando un intervalo creíble , la región de mayor densidad, etc.
"Aproximación analítica" significa que se puede escribir una fórmula para la distribución posterior. La fórmula generalmente consiste en un producto de distribuciones de probabilidad bien conocidas, cada una de las cuales factoriza sobre un conjunto de variables no observadas (es decir, es condicionalmente independiente de las otras variables, dados los datos observados). Esta fórmula no es la verdadera distribución posterior, sino una aproximación a ella; en particular, generalmente coincidirá bastante en los momentos más bajos de las variables no observadas, por ejemplo, la media y la varianza .
El resultado de todas las manipulaciones matemáticas es (1) la identidad de las distribuciones de probabilidad que componen los factores, y (2) fórmulas mutuamente dependientes para los parámetros de estas distribuciones. Los valores reales de estos parámetros se calculan numéricamente, a través de un procedimiento iterativo alterno muy parecido a EM.

Comparado con la maximización de expectativas (EM)

Bayes variacional (VB) a menudo se compara con la maximización de expectativas (EM). El procedimiento numérico real es bastante similar, en el sentido de que ambos son procedimientos iterativos alternos que convergen sucesivamente en valores de parámetros óptimos. Los pasos iniciales para derivar los respectivos procedimientos también son vagamente similares, ambos comienzan con fórmulas para densidades de probabilidad y ambos involucran cantidades significativas de manipulaciones matemáticas.

Sin embargo, existen varias diferencias. Lo más importante es lo que se está calculando.

EM calcula estimaciones puntuales de la distribución posterior de aquellas variables aleatorias que se pueden categorizar como "parámetros", pero solo estimaciones de las distribuciones posteriores reales de las variables latentes (al menos en "EM suave", y a menudo solo cuando las variables latentes son discretas ). Las estimaciones puntuales calculadas son las modalidades de estos parámetros; No hay otra informacion disponible.
VB, por otro lado, calcula estimaciones de la distribución posterior real de todas las variables, tanto parámetros como variables latentes. Cuando es necesario derivar estimaciones puntuales, generalmente se usa la media en lugar de la moda, como es normal en la inferencia bayesiana. Concomitante con esto, los parámetros calculados en VB no tienen el mismo significado que los de EM. EM calcula los valores óptimos de los parámetros de la propia red Bayes. VB calcula valores óptimos de los parámetros de las distribuciones utilizadas para aproximar los parámetros y variables latentes de la red de Bayes. Por ejemplo, un modelo de mezcla gaussiano típico tendrá parámetros para la media y la varianza de cada uno de los componentes de la mezcla. EM estimaría directamente los valores óptimos para estos parámetros. Sin embargo, VB primero ajustaría una distribución a estos parámetros - típicamente en forma de una distribución previa , por ejemplo, una distribución gamma inversa de escala normal - y luego calcularía valores para los parámetros de esta distribución previa, es decir, esencialmente hiperparámetros . En este caso, VB calcularía estimaciones óptimas de los cuatro parámetros de la distribución gamma inversa en escala normal que describe la distribución conjunta de la media y la varianza del componente.

Un ejemplo más complejo

Modelo de mezcla bayesiana gaussiana mediante notación de placas . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; [ D , D ] significa una matriz de tamaño D × D ; K solo significa una variable categórica con K resultados. La línea ondulada que viene de z que termina en una barra transversal indica un cambio : el valor de esta variable selecciona, para las otras variables entrantes, qué valor usar fuera de la matriz de valores posibles de tamaño K.

Imagine un modelo de mezcla bayesiano gaussiano descrito de la siguiente manera: ^[6]

{\ Displaystyle {\ begin {alineado} \ mathbf {\ pi} & \ sim \ operatorname {SymDir} (K, \ alpha _ {0}) \\\ mathbf {\ Lambda} _ {i = 1 \ dots K} & \ sim {\ mathcal {W}} (\ mathbf {W} _ {0}, \ nu _ {0}) \\\ mathbf {\ mu} _ {i = 1 \ dots K} & \ sim {\ mathcal {N}} (\ mathbf {\ mu} _ {0}, (\ beta _ {0} \ mathbf {\ Lambda} _ {i}) ^ {- 1}) \\\ mathbf {z} [i = 1 \ puntos N] & \ sim \ operatorname {Mult} (1, \ mathbf {\ pi}) \\\ mathbf {x} _ {i = 1 \ puntos N} & \ sim {\ mathcal {N}} (\ mathbf {\ mu} _ {z_ {i}}, {\ mathbf {\ Lambda} _ {z_ {i}}} ^ {- 1}) \\ K & = {\ text {número de componentes de mezcla}} \\ N & = {\ text {número de puntos de datos}} \ end {alineado}}}

Nota:

SymDir () es la distribución simétrica de Dirichlet de dimensión ${\ Displaystyle K}$ , con el hiperparámetro de cada componente establecido en ${\ Displaystyle \ alpha _ {0}}$ . La distribución de Dirichlet es el conjugado previo de la distribución categórica o distribución multinomial .
${\ Displaystyle {\ mathcal {W}} ()}$ es la distribución de Wishart , que es el conjugado previo de la matriz de precisión ( matriz de covarianza inversa ) para una distribución gaussiana multivariante .
Mult () es una distribución multinomial sobre una sola observación (equivalente a una distribución categórica ). El espacio de estado es una representación "uno de K", es decir, una ${\ Displaystyle K}$ -vector dimensional en el que uno de los elementos es 1 (especificando la identidad de la observación) y todos los demás elementos son 0.
${\ Displaystyle {\ mathcal {N}} ()}$ es la distribución gaussiana , en este caso específicamente la distribución gaussiana multivariante .

La interpretación de las variables anteriores es la siguiente:

${\ Displaystyle \ mathbf {X} = \ {\ mathbf {x} _ {1}, \ dots, \ mathbf {x} _ {N} \}}$ es el conjunto de ${\ Displaystyle N}$ puntos de datos, cada uno de los cuales es un ${\ Displaystyle D}$ -vector dimensional distribuido según una distribución gaussiana multivariante .
${\ Displaystyle \ mathbf {Z} = \ {\ mathbf {z} _ {1}, \ dots, \ mathbf {z} _ {N} \}}$ es un conjunto de variables latentes, una por punto de datos, que especifica a qué componente de mezcla pertenece el punto de datos correspondiente, utilizando una representación vectorial "uno de K" con componentes ${\ Displaystyle z_ {nk}}$ por ${\ Displaystyle k = 1 \ dots K}$ , como se describió anteriormente.
${\ Displaystyle \ mathbf {\ pi}}$ son las proporciones de mezcla para el ${\ Displaystyle K}$ componentes de la mezcla.
${\ Displaystyle \ mathbf {\ mu} _ {i = 1 \ dots K}}$ y ${\ Displaystyle \ mathbf {\ Lambda} _ {i = 1 \ dots K}}$ especificar los parámetros ( media y precisión ) asociados con cada componente de la mezcla.

La probabilidad conjunta de todas las variables se puede reescribir como

{\ Displaystyle p (\ mathbf {X}, \ mathbf {Z}, \ mathbf {\ pi}, \ mathbf {\ mu}, \ mathbf {\ Lambda}) = p (\ mathbf {X} \ mid \ mathbf {Z}, \ mathbf {\ mu}, \ mathbf {\ Lambda}) p (\ mathbf {Z} \ mid \ mathbf {\ pi}) p (\ mathbf {\ pi}) p (\ mathbf {\ mu } \ mid \ mathbf {\ Lambda}) p (\ mathbf {\ Lambda})}

donde los factores individuales son

{\ Displaystyle {\ begin {alineado} p (\ mathbf {X} \ mid \ mathbf {Z}, \ mathbf {\ mu}, \ mathbf {\ Lambda}) & = \ prod _ {n = 1} ^ { N} \ prod _ {k = 1} ^ {K} {\ mathcal {N}} (\ mathbf {x} _ {n} \ mid \ mathbf {\ mu} _ {k}, \ mathbf {\ Lambda} _ {k} ^ {- 1}) ^ {z_ {nk}} \\ p (\ mathbf {Z} \ mid \ mathbf {\ pi}) & = \ prod _ {n = 1} ^ {N} \ prod _ {k = 1} ^ {K} \ pi _ {k} ^ {z_ {nk}} \\ p (\ mathbf {\ pi}) & = {\ frac {\ Gamma (K \ alpha _ {0 })} {\ Gamma (\ alpha _ {0}) ^ {K}}} \ prod _ {k = 1} ^ {K} \ pi _ {k} ^ {\ alpha _ {0} -1} \ \ p (\ mathbf {\ mu} \ mid \ mathbf {\ Lambda}) & = \ prod _ {k = 1} ^ {K} {\ mathcal {N}} (\ mathbf {\ mu} _ {k} \ mid \ mathbf {\ mu} _ {0}, (\ beta _ {0} \ mathbf {\ Lambda} _ {k}) ^ {- 1}) \\ p (\ mathbf {\ Lambda}) & = \ prod _ {k = 1} ^ {K} {\ mathcal {W}} (\ mathbf {\ Lambda} _ {k} \ mid \ mathbf {W} _ {0}, \ nu _ {0}) \ final {alineado}}}

dónde

{\ Displaystyle {\ begin {alineado} {\ mathcal {N}} (\ mathbf {x} \ mid \ mathbf {\ mu}, \ mathbf {\ Sigma}) & = {\ frac {1} {(2 \ pi) ^ {D / 2}}} {\ frac {1} {| \ mathbf {\ Sigma} | ^ {1/2}}} \ exp \ left \ {- {\ frac {1} {2}} (\ mathbf {x} - \ mathbf {\ mu}) ^ {\ rm {T}} \ mathbf {\ Sigma} ^ {- 1} (\ mathbf {x} - \ mathbf {\ mu}) \ right \ } \\ {\ mathcal {W}} (\ mathbf {\ Lambda} \ mid \ mathbf {W}, \ nu) & = B (\ mathbf {W}, \ nu) | \ mathbf {\ Lambda} | ^ {(\ nu -D-1) / 2} \ exp \ left (- {\ frac {1} {2}} \ operatorname {Tr} (\ mathbf {W} ^ {- 1} \ mathbf {\ Lambda} ) \ right) \\ B (\ mathbf {W}, \ nu) & = | \ mathbf {W} | ^ {- \ nu / 2} \ left \ {2 ^ {\ nu D / 2} \ pi ^ {D (D-1) / 4} \ prod _ {i = 1} ^ {D} \ Gamma \ left ({\ frac {\ nu + 1-i} {2}} \ right) \ right \} ^ {-1} \\ D & = {\ text {dimensionalidad de cada punto de datos}} \ end {alineado}}}

Asumir que ${\ Displaystyle q (\ mathbf {Z}, \ mathbf {\ pi}, \ mathbf {\ mu}, \ mathbf {\ Lambda}) = q (\ mathbf {Z}) q (\ mathbf {\ pi}, \ mathbf {\ mu}, \ mathbf {\ Lambda})}$ .

Luego

{\ Displaystyle {\ begin {alineado} \ ln q ^ {*} (\ mathbf {Z}) & = \ operatorname {E} _ {\ mathbf {\ pi}, \ mathbf {\ mu}, \ mathbf {\ Lambda}} [\ ln p (\ mathbf {X}, \ mathbf {Z}, \ mathbf {\ pi}, \ mathbf {\ mu}, \ mathbf {\ Lambda})] + {\ text {constante}} \\ & = \ operatorname {E} _ {\ mathbf {\ pi}} [\ ln p (\ mathbf {Z} \ mid \ mathbf {\ pi})] + \ operatorname {E} _ {\ mathbf {\ mu}, \ mathbf {\ Lambda}} [\ ln p (\ mathbf {X} \ mid \ mathbf {Z}, \ mathbf {\ mu}, \ mathbf {\ Lambda})] + {\ text {constante} } \\ & = \ sum _ {n = 1} ^ {N} \ sum _ {k = 1} ^ {K} z_ {nk} \ ln \ rho _ {nk} + {\ text {constante}} \ final {alineado}}}

donde hemos definido

{\ Displaystyle \ ln \ rho _ {nk} = \ operatorname {E} [\ ln \ pi _ {k}] + {\ frac {1} {2}} \ operatorname {E} [\ ln | \ mathbf { \ Lambda} _ {k} |] - {\ frac {D} {2}} \ ln (2 \ pi) - {\ frac {1} {2}} \ operatorname {E} _ {\ mathbf {\ mu } _ {k}, \ mathbf {\ Lambda} _ {k}} [(\ mathbf {x} _ {n} - \ mathbf {\ mu} _ {k}) ^ {\ rm {T}} \ mathbf {\ Lambda} _ {k} (\ mathbf {x} _ {n} - \ mathbf {\ mu} _ {k})]}

Exponenciar ambos lados de la fórmula para ${\ Displaystyle \ ln q ^ {*} (\ mathbf {Z})}$ rendimientos

{\ Displaystyle q ^ {*} (\ mathbf {Z}) \ propto \ prod _ {n = 1} ^ {N} \ prod _ {k = 1} ^ {K} \ rho _ {nk} ^ {z_ {nk}}}

Requerir que esto se normalice termina requiriendo que el ${\ Displaystyle \ rho _ {nk}}$ suma a 1 sobre todos los valores de ${\ Displaystyle k}$ , cediendo

{\ Displaystyle q ^ {*} (\ mathbf {Z}) = \ prod _ {n = 1} ^ {N} \ prod _ {k = 1} ^ {K} r_ {nk} ^ {z_ {nk} }}

dónde

{\ Displaystyle r_ {nk} = {\ frac {\ rho _ {nk}} {\ sum _ {j = 1} ^ {K} \ rho _ {nj}}}}

En otras palabras, ${\ Displaystyle q ^ {*} (\ mathbf {Z})}$ es un producto de distribuciones multinomiales de observación única y factores sobre cada individuo ${\ Displaystyle \ mathbf {z} _ {n}}$ , que se distribuye como una distribución multinomial de observación única con parámetros ${\ Displaystyle r_ {nk}}$ por ${\ Displaystyle k = 1 \ dots K}$ .

Además, observamos que

{\ Displaystyle \ operatorname {E} [z_ {nk}] = r_ {nk} \,}

que es un resultado estándar para distribuciones categóricas.

Ahora, considerando el factor ${\ Displaystyle q (\ mathbf {\ pi}, \ mathbf {\ mu}, \ mathbf {\ Lambda})}$ , tenga en cuenta que se tiene en cuenta automáticamente ${\ Displaystyle q (\ mathbf {\ pi}) \ prod _ {k = 1} ^ {K} q (\ mathbf {\ mu} _ {k}, \ mathbf {\ Lambda} _ {k})}$ debido a la estructura del modelo gráfico que define nuestro modelo de mezcla gaussiana, que se especifica anteriormente.

Luego,

{\ Displaystyle {\ begin {alineado} \ ln q ^ {*} (\ mathbf {\ pi}) & = \ ln p (\ mathbf {\ pi}) + \ operatorname {E} _ {\ mathbf {Z} } [\ ln p (\ mathbf {Z} \ mid \ mathbf {\ pi})] + {\ text {constante}} \\ & = (\ alpha _ {0} -1) \ sum _ {k = 1 } ^ {K} \ ln \ pi _ {k} + \ sum _ {n = 1} ^ {N} \ sum _ {k = 1} ^ {K} r_ {nk} \ ln \ pi _ {k} + {\ text {constante}} \ end {alineado}}}

Tomando la exponencial de ambos lados, reconocemos ${\ Displaystyle q ^ {*} (\ mathbf {\ pi})}$ como una distribución de Dirichlet

{\ Displaystyle q ^ {*} (\ mathbf {\ pi}) \ sim \ operatorname {Dir} (\ mathbf {\ alpha}) \,}

dónde

{\ Displaystyle \ alpha _ {k} = \ alpha _ {0} + N_ {k} \,}

dónde

{\ Displaystyle N_ {k} = \ sum _ {n = 1} ^ {N} r_ {nk} \,}

Finalmente

{\ Displaystyle \ ln q ^ {*} (\ mathbf {\ mu} _ {k}, \ mathbf {\ Lambda} _ {k}) = \ ln p (\ mathbf {\ mu} _ {k}, \ mathbf {\ Lambda} _ {k}) + \ sum _ {n = 1} ^ {N} \ operatorname {E} [z_ {nk}] \ ln {\ mathcal {N}} (\ mathbf {x} _ {n} \ mid \ mathbf {\ mu} _ {k}, \ mathbf {\ Lambda} _ {k} ^ {- 1}) + {\ text {constante}}}

Agrupar y leer términos que involucran ${\ Displaystyle \ mathbf {\ mu} _ {k}}$ y ${\ Displaystyle \ mathbf {\ Lambda} _ {k}}$ , el resultado es una distribución de Gauss-Wishart dada por

{\ Displaystyle q ^ {*} (\ mathbf {\ mu} _ {k}, \ mathbf {\ Lambda} _ {k}) = {\ mathcal {N}} (\ mathbf {\ mu} _ {k} \ mid \ mathbf {m} _ {k}, (\ beta _ {k} \ mathbf {\ Lambda} _ {k}) ^ {- 1}) {\ mathcal {W}} (\ mathbf {\ Lambda} _ {k} \ mid \ mathbf {W} _ {k}, \ nu _ {k})}

dadas las definiciones

{\ Displaystyle {\ begin {alineado} \ beta _ {k} & = \ beta _ {0} + N_ {k} \\\ mathbf {m} _ {k} & = {\ frac {1} {\ beta _ {k}}} (\ beta _ {0} \ mathbf {\ mu} _ {0} + N_ {k} {\ bar {\ mathbf {x}}} _ {k}) \\\ mathbf {W } _ {k} ^ {- 1} & = \ mathbf {W} _ {0} ^ {- 1} + N_ {k} \ mathbf {S} _ {k} + {\ frac {\ beta _ {0 } N_ {k}} {\ beta _ {0} + N_ {k}}} ({\ bar {\ mathbf {x}}} _ {k} - \ mathbf {\ mu} _ {0}) ({ \ bar {\ mathbf {x}}} _ {k} - \ mathbf {\ mu} _ {0}) ^ {\ rm {T}} \\\ nu _ {k} & = \ nu _ {0} + N_ {k} \\ N_ {k} & = \ sum _ {n = 1} ^ {N} r_ {nk} \\ {\ bar {\ mathbf {x}}} _ {k} & = {\ frac {1} {N_ {k}}} \ sum _ {n = 1} ^ {N} r_ {nk} \ mathbf {x} _ {n} \\\ mathbf {S} _ {k} & = { \ frac {1} {N_ {k}}} \ sum _ {n = 1} ^ {N} r_ {nk} (\ mathbf {x} _ {n} - {\ bar {\ mathbf {x}}} _ {k}) (\ mathbf {x} _ {n} - {\ bar {\ mathbf {x}}} _ {k}) ^ {\ rm {T}} \ end {alineado}}}

Finalmente, observe que estas funciones requieren los valores de ${\ Displaystyle r_ {nk}}$ , que hacen uso de ${\ Displaystyle \ rho _ {nk}}$ , que se define a su vez en base a ${\ Displaystyle \ operatorname {E} [\ ln \ pi _ {k}]}$ , ${\ Displaystyle \ operatorname {E} [\ ln | \ mathbf {\ Lambda} _ {k} |]}$ , y ${\ Displaystyle \ operatorname {E} _ {\ mathbf {\ mu} _ {k}, \ mathbf {\ Lambda} _ {k}} [(\ mathbf {x} _ {n} - \ mathbf {\ mu} _ {k}) ^ {\ rm {T}} \ mathbf {\ Lambda} _ {k} (\ mathbf {x} _ {n} - \ mathbf {\ mu} _ {k})]}$ . Ahora que hemos determinado las distribuciones sobre las que se toman estas expectativas, podemos derivar fórmulas para ellas:

{\ Displaystyle {\ begin {alineado} \ operatorname {E} _ {\ mathbf {\ mu} _ {k}, \ mathbf {\ Lambda} _ {k}} [(\ mathbf {x} _ {n} - \ mathbf {\ mu} _ {k}) ^ {\ rm {T}} \ mathbf {\ Lambda} _ {k} (\ mathbf {x} _ {n} - \ mathbf {\ mu} _ {k} )] & = D \ beta _ {k} ^ {- 1} + \ nu _ {k} (\ mathbf {x} _ {n} - \ mathbf {m} _ {k}) ^ {\ rm {T }} \ mathbf {W} _ {k} (\ mathbf {x} _ {n} - \ mathbf {m} _ {k}) \\\ ln {\ widetilde {\ Lambda}} _ {k} & \ equiv \ operatorname {E} [\ ln | \ mathbf {\ Lambda} _ {k} |] = \ sum _ {i = 1} ^ {D} \ psi \ left ({\ frac {\ nu _ {k} + 1-i} {2}} \ right) + D \ ln 2+ \ ln | \ mathbf {W} _ {k} | \\\ ln {\ widetilde {\ pi}} _ {k} & \ equiv \ operatorname {E} \ left [\ ln | \ pi _ {k} | \ right] = \ psi (\ alpha _ {k}) - \ psi \ left (\ sum _ {i = 1} ^ {K} \ alpha _ {i} \ right) \ end {alineado}}}

Estos resultados conducen a

{\ Displaystyle r_ {nk} \ propto {\ widetilde {\ pi}} _ {k} {\ widetilde {\ Lambda}} _ {k} ^ {1/2} \ exp \ left \ {- {\ frac { D} {2 \ beta _ {k}}} - {\ frac {\ nu _ {k}} {2}} (\ mathbf {x} _ {n} - \ mathbf {m} _ {k}) ^ {\ rm {T}} \ mathbf {W} _ {k} (\ mathbf {x} _ {n} - \ mathbf {m} _ {k}) \ right \}}

Estos se pueden convertir de valores proporcionales a absolutos normalizando sobre ${\ Displaystyle k}$ de modo que los valores correspondientes sumen 1.

Tenga en cuenta que:

Las ecuaciones de actualización para los parámetros. ${\ Displaystyle \ beta _ {k}}$ , ${\ Displaystyle \ mathbf {m} _ {k}}$ , ${\ Displaystyle \ mathbf {W} _ {k}}$ y ${\ Displaystyle \ nu _ {k}}$ de las variables ${\ Displaystyle \ mathbf {\ mu} _ {k}}$ y ${\ Displaystyle \ mathbf {\ Lambda} _ {k}}$ depende de las estadísticas ${\ Displaystyle N_ {k}}$ , ${\ Displaystyle {\ bar {\ mathbf {x}}} _ {k}}$ , y ${\ Displaystyle \ mathbf {S} _ {k}}$ , y estas estadísticas a su vez dependen de ${\ Displaystyle r_ {nk}}$ .
Las ecuaciones de actualización para los parámetros. ${\ Displaystyle \ alpha _ {1 \ dots K}}$ de la variable ${\ Displaystyle \ mathbf {\ pi}}$ depende de la estadística ${\ Displaystyle N_ {k}}$ , que depende a su vez de ${\ Displaystyle r_ {nk}}$ .
La ecuación de actualización para ${\ Displaystyle r_ {nk}}$ tiene una dependencia circular directa de ${\ Displaystyle \ beta _ {k}}$ , ${\ Displaystyle \ mathbf {m} _ {k}}$ , ${\ Displaystyle \ mathbf {W} _ {k}}$ y ${\ Displaystyle \ nu _ {k}}$ así como una dependencia circular indirecta de ${\ Displaystyle \ mathbf {W} _ {k}}$ , ${\ Displaystyle \ nu _ {k}}$ y ${\ Displaystyle \ alpha _ {1 \ dots K}}$ mediante ${\ Displaystyle {\ widetilde {\ pi}} _ {k}}$ y ${\ displaystyle {\ widetilde {\ Lambda}} _ {k}}$ .

Esto sugiere un procedimiento iterativo que alterna entre dos pasos:

Un paso E que calcula el valor de ${\ Displaystyle r_ {nk}}$ utilizando los valores actuales de todos los demás parámetros.
Un paso M que usa el nuevo valor de ${\ Displaystyle r_ {nk}}$ para calcular nuevos valores de todos los demás parámetros.

Tenga en cuenta que estos pasos se corresponden estrechamente con el algoritmo EM estándar para derivar una solución de máxima verosimilitud o máxima a posteriori (MAP) para los parámetros de un modelo de mezcla gaussiana . Las responsabilidades ${\ Displaystyle r_ {nk}}$ en el paso E corresponden estrechamente a las probabilidades posteriores de las variables latentes dados los datos, es decir ${\ Displaystyle p (\ mathbf {Z} \ mid \ mathbf {X})}$ ; el cálculo de las estadísticas ${\ Displaystyle N_ {k}}$ , ${\ Displaystyle {\ bar {\ mathbf {x}}} _ {k}}$ , y ${\ Displaystyle \ mathbf {S} _ {k}}$ corresponde estrechamente al cálculo de las correspondientes estadísticas de "conteo suave" sobre los datos; y el uso de esas estadísticas para calcular nuevos valores de los parámetros se corresponde estrechamente con el uso de recuentos suaves para calcular nuevos valores de parámetros en EM normal sobre un modelo de mezcla gaussiana.

Distribuciones de familias exponenciales

Tenga en cuenta que en el ejemplo anterior, una vez que se supuso que la distribución sobre las variables no observadas se factorizaba en distribuciones sobre los "parámetros" y distribuciones sobre los "datos latentes", la distribución "mejor" derivada para cada variable estaba en la misma familia que la correspondiente. distribución previa sobre la variable. Este es un resultado general que es válido para todas las distribuciones anteriores derivadas de la familia exponencial .

Ver también

Paso de mensaje variacional : un algoritmo modular para la inferencia bayesiana variacional.
Algoritmo de maximización de expectativas : un enfoque relacionado que corresponde a un caso especial de inferencia bayesiana variacional.
Filtrado generalizado : un esquema de filtrado variacional para modelos de espacio de estados no lineales.
Cálculo de variaciones : campo del análisis matemático que se ocupa de maximizar o minimizar funcionales.
Discriminación de entropía máxima : este es un marco de inferencia variacional que permite introducir y tener en cuenta restricciones adicionales de gran margen ^[7]

Notas

↑ a b c d Tran, Viet Hung (2018). "Inferencia de Cópula Variacional Bayes a través de la geometría de la información". arXiv : 1803.10998 [ cs.IT ].
^ a b Adamčík, Martin (2014). "La geometría de la información de las divergencias de Bregman y algunas aplicaciones en el razonamiento de múltiples expertos" . Entropía . 16 (12): 6338–6381. Código bibliográfico : 2014Entrp..16.6338A . doi : 10.3390 / e16126338 .
^ Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos . arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 .
^ Boyd, Stephen P .; Vandenberghe, Lieven (2004). Optimización convexa (pdf) . Prensa de la Universidad de Cambridge. ISBN 978-0-521-83378-3. Consultado el 15 de octubre de 2011 .
^ Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos . arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 .
^ a b Obispo, Christopher M. (2006). "Capítulo 10". Reconocimiento de patrones y aprendizaje automático . Saltador. ISBN 978-0-387-31073-2.
^ Sotirios P. Chatzis, " Máquinas de discriminación de máxima entropía de conmutación infinita de Markov ", Proc. 30th International Conference on Machine Learning (ICML). Journal of Machine Learning Research: Actas de talleres y conferencias, vol. 28, no. 3, págs. 729–737, junio de 2013.

Referencias

enlaces externos

El libro de texto en línea: Teoría de la información, inferencia y algoritmos de aprendizaje , de David JC MacKay, proporciona una introducción a los métodos variacionales (p. 422).
Un tutorial sobre bayes variacionales . Fox, C. y Roberts, S. 2012. Revisión de inteligencia artificial, doi : 10.1007 / s10462-011-9236-8 .
Repositorio Variational-Bayes Repositorio de artículos de investigación, software y enlaces relacionados con el uso de métodos variacionales para el aprendizaje bayesiano aproximado hasta 2003.
Algoritmos variacionales para inferencia bayesiana aproximada , de MJ Beal, incluye comparaciones de EM con EM bayesiana variacional y derivaciones de varios modelos, incluidos los HMM bayesianos variacionales.
Puede que valga la pena leer la Explicación de alto nivel de la inferencia variacional por Jason Eisner antes de un tratamiento más detallado matemáticamente.
Inferencia de Copula Variational Bayes a través de geometría de la información (pdf) por Tran, VH 2018. Este documento está escrito principalmente para estudiantes. A través de la divergencia de Bregman , el artículo muestra que Bayes Variacional es simplemente una proyección pitagórica generalizada del modelo verdadero en un espacio distribucional (cópula) arbitrariamente correlacionado, del cual el espacio independiente es simplemente un caso especial.

[Tran2018-1] Tran, Viet Hung (2018). "Inferencia de Cópula Variacional Bayes a través de la geometría de la información". arXiv : 1803.10998 [ cs.IT ].

[Martin2014-2] Adamčík, Martin (2014). "La geometría de la información de las divergencias de Bregman y algunas aplicaciones en el razonamiento de múltiples expertos" . Entropía . 16 (12): 6338–6381. Código bibliográfico : 2014Entrp..16.6338A . doi : 10.3390 / e16126338 .

[3] Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos . arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 .

[4] Boyd, Stephen P .; Vandenberghe, Lieven (2004). Optimización convexa (pdf) . Prensa de la Universidad de Cambridge. ISBN 978-0-521-83378-3. Consultado el 15 de octubre de 2011 .

[5] Lee, Se Yoon (2021). "Inferencia variacional de ascenso y muestreo de Gibbs: una revisión teórica de conjuntos". Comunicaciones en estadística: teoría y métodos . arXiv : 2008.01006 . doi : 10.1080 / 03610926.2021.1921214 .

[bishop-6] Obispo, Christopher M. (2006). "Capítulo 10". Reconocimiento de patrones y aprendizaje automático . Saltador. ISBN 978-0-387-31073-2.

[7] Sotirios P. Chatzis, " Máquinas de discriminación de máxima entropía de conmutación infinita de Markov ", Proc. 30th International Conference on Machine Learning (ICML). Journal of Machine Learning Research: Actas de talleres y conferencias, vol. 28, no. 3, págs. 729–737, junio de 2013.

[1]

Métodos Bayesianos Variacionales

Derivación matemática

Problema

Divergencia KL

Dificultad

Evidencia límite inferior

Pruebas

Aproximación de campo medio

Una fórmula de dualidad para la inferencia variacional

Un ejemplo basico

El modelo matemático

La probabilidad conjunta

Aproximación factorizada

Derivación de q (μ)

Derivación de q (τ)

Algoritmo para calcular los parámetros

Más discusión

Receta paso a paso

Puntos mas importantes

Comparado con la maximización de expectativas (EM)

Un ejemplo más complejo

Distribuciones de familias exponenciales

Ver también

Notas

Referencias

enlaces externos

Derivación de $q (μ)$

Derivación de $q (τ)$