Métodos bayesianos variacionales


Los métodos bayesianos variacionales son una familia de técnicas para aproximar integrales intratables que surgen en la inferencia bayesiana y el aprendizaje automático . Por lo general, se usan en modelos estadísticos complejos que consisten en variables observadas (generalmente denominadas "datos"), así como parámetros desconocidos y variables latentes , con varios tipos de relaciones entre los tres tipos de variables aleatorias , como podría ser descrito por un modelo gráfico . Como es típico en la inferencia bayesiana, los parámetros y las variables latentes se agrupan como "variables no observadas". Los métodos bayesianos variacionales se utilizan principalmente para dos propósitos:

En el primer propósito (el de aproximar una probabilidad posterior), el Bayes variacional es una alternativa a los métodos de muestreo de Monte Carlo , en particular, los métodos de Monte Carlo de la cadena de Markov , como el muestreo de Gibbs , para adoptar un enfoque totalmente bayesiano para la inferencia estadística sobre distribuciones complejas que son difícil de evaluar directamente o de muestra . En particular, mientras que las técnicas de Monte Carlo proporcionan una aproximación numérica al posterior exacto utilizando un conjunto de muestras, Variational Bayes proporciona una solución analítica exacta localmente óptima para una aproximación del posterior.

El bayesiano variacional puede verse como una extensión del algoritmo EM ( expectativa-maximización ) desde la estimación máxima a posteriori (estimación MAP) del valor único más probable de cada parámetro hasta la estimación completamente bayesiana que calcula (una aproximación a) toda la distribución posterior de los parámetros y variables latentes. Al igual que en EM, encuentra un conjunto de valores de parámetros óptimos y tiene la misma estructura alterna que EM, basada en un conjunto de ecuaciones entrelazadas (mutuamente dependientes) que no se pueden resolver analíticamente.

Para muchas aplicaciones, Bayes variacional produce soluciones de precisión comparable al muestreo de Gibbs a mayor velocidad. Sin embargo, derivar el conjunto de ecuaciones utilizado para actualizar los parámetros de forma iterativa a menudo requiere una gran cantidad de trabajo en comparación con derivar las ecuaciones de muestreo de Gibbs comparables. Este es el caso incluso para muchos modelos que son conceptualmente bastante simples, como se demuestra a continuación en el caso de un modelo básico no jerárquico con solo dos parámetros y sin variables latentes.

En la inferencia variacional , la distribución posterior sobre un conjunto de variables no observadas dados algunos datos se aproxima mediante la llamada distribución variacional ,

La distribución está restringida a pertenecer a una familia de distribuciones de forma más simple (por ejemplo, una familia de distribuciones gaussianas) que , seleccionada con la intención de hacer similar a la verdadera posterior, .


Teorema de Pitágoras generalizado para la divergencia de Bregman . [2]
Ilustración pictórica del algoritmo de inferencia variacional de ascenso de coordenadas mediante la fórmula de dualidad [5] .
Modelo de mezcla bayesiano gaussiano usando notación de placa . Los cuadrados más pequeños indican parámetros fijos; los círculos más grandes indican variables aleatorias. Las formas rellenas indican valores conocidos. La indicación [K] significa un vector de tamaño K ; [ D , D ] significa una matriz de tamaño D × D ; K solo significa una variable categórica con K resultados. La línea ondulada que sale de z y termina en una barra transversal indica un interruptor : el valor de esta variable selecciona, para las otras variables entrantes, qué valor usar de la matriz de valores posibles de tamaño K.