Algoritmo pseudo-marginal de Metropolis-Hastings

En estadística computacional , el algoritmo pseudo-marginal Metropolis-Hastings ^[1] es un método de Monte Carlo para muestrear a partir de una distribución de probabilidad. Es una instancia del popular algoritmo Metropolis-Hastings que extiende su uso a casos donde la densidad objetivo no está disponible analíticamente. Se basa en el hecho de que el algoritmo Metropolis-Hastings aún puede tomar muestras de la distribución objetivo correcta si la densidad objetivo en el índice de aceptación se reemplaza por una estimación. Es especialmente popular en las estadísticas bayesianas , donde se aplica si la función de verosimilitud no es manejable (vea el ejemplo a continuación).

Descripción del algoritmo

El objetivo es simular a partir de alguna función de densidad de probabilidad ${\ Displaystyle \ pi (\ theta)}$ . El algoritmo sigue los mismos pasos que el algoritmo estándar de Metropolis-Hastings, excepto que la evaluación de la densidad objetivo se reemplaza por una estimación no negativa e insesgada. A modo de comparación, a continuación se describen los pasos principales de un algoritmo de Metropolis-Hastings.

Algoritmo de Metropolis-Hastings

Dado un estado actual ${\ Displaystyle \ theta _ {n}}$ el algoritmo Metropolis-Hastings propone un nuevo estado según cierta densidad ${\ Displaystyle \ theta '\ sim Q (\ cdot \ mid \ theta _ {n})}$ . El algoritmo luego establece ${\ Displaystyle \ theta _ {n + 1} = \ theta '}$ con probabilidad

{\ Displaystyle a (\ theta _ {n}, \ theta ') = \ min \ left (1, {\ frac {\ pi (\ theta')} {\ pi (\ theta _ {n})}} { \ frac {Q (\ theta _ {n} \ mid \ theta ')} {Q (\ theta' \ mid \ theta _ {n})}} \ right)}

de lo contrario se mantiene el antiguo estado, es decir, ${\ Displaystyle \ theta _ {n + 1} = \ theta _ {n}}$ .

Algoritmo pseudo-marginal de Metropolis-Hastings

Si la densidad ${\ Displaystyle \ pi}$ no está disponible analíticamente, no se puede emplear el algoritmo anterior. Por el contrario, el algoritmo pseudo-marginal Metropolis-Hastings solo asume la existencia de un estimador ${\ Displaystyle {\ hat {\ pi}} _ {\ theta}}$ con ${\ Displaystyle \ mathbb {E} [{\ hat {\ pi}} _ {\ theta}] = \ pi (\ theta).}$ Ahora, dado ${\ Displaystyle \ theta _ {n}}$ y el presupuesto respectivo ${\ Displaystyle {\ hat {\ pi}} _ {\ theta _ {n}}}$ el algoritmo propone un nuevo estado según cierta densidad ${\ Displaystyle \ theta '\ sim Q (\ cdot \ mid \ theta _ {n})}$ . Luego, calcule una estimación ${\ Displaystyle {\ hat {\ pi}} _ {\ theta '}}$ y establecer ${\ Displaystyle \ theta _ {n + 1} = \ theta '}$ con probabilidad

{\ Displaystyle a (\ theta _ {n}, \ theta ') = \ min \ left (1, {\ frac {{\ hat {\ pi}} _ {\ theta'}} {{\ hat {\ pi }} _ {\ theta _ {n}}}} {\ frac {Q (\ theta _ {n} \ mid \ theta ')} {Q (\ theta' \ mid \ theta _ {n})}} \ derecho)}

de lo contrario se mantiene el antiguo estado, es decir, ${\ Displaystyle \ theta _ {n + 1} = \ theta _ {n}}$ .

Aplicación a la estadística bayesiana

En la estadística bayesiana, el objetivo de la inferencia es la distribución posterior

{\ Displaystyle p (\ theta \ mid y) = {\ frac {p _ {\ theta} (y) p (\ theta)} {p (y)}},}

dónde ${\ Displaystyle p _ {\ theta}}$ denota la función de verosimilitud, ${\ Displaystyle p}$ es el anterior y ${\ Displaystyle p (y)}$ es la distribución predictiva previa . Dado que a menudo no existe una expresión analítica de esta cantidad, a menudo se recurre a los métodos de Monte Carlo para tomar muestras de la distribución. Los métodos de Monte Carlo a menudo necesitan la probabilidad ${\ Displaystyle p _ {\ theta} (y)}$ ser accesible para cada valor de parámetro ${\ Displaystyle \ theta}$ . En algunos casos, sin embargo, la probabilidad no tiene una expresión analítica. A continuación se describe un ejemplo de tal caso.

Ejemplo: modelo La variable latente ^[1]

Considere un modelo que consta de iid variables aleatorias latentes de valor real ${\ Displaystyle Z_ {1}, \ ldots, Z_ {n}}$ con ${\ Displaystyle Z_ {i} \ sim f _ {\ theta} (\ cdot)}$ y supongamos que solo se pueden observar estas variables a través de algún ruido adicional ${\ Displaystyle Y_ {i} \ mid Z_ {i} = z \ sim g _ {\ theta} (\ cdot \ mid z)}$ para alguna densidad condicional ${\ Displaystyle g}$ . (Esto podría deberse a un error de medición , por ejemplo.) Estamos interesados en el análisis bayesiano de este modelo basado en algunos datos observados ${\ Displaystyle y_ {1}, \ ldots, y_ {n}}$ . Por lo tanto, presentamos alguna distribución previa. ${\ Displaystyle p (\ theta)}$ en el parámetro. Para calcular la distribución posterior

{\ Displaystyle p (\ theta \ mid y_ {1}, \ ldots, y_ {n}) \ propto p _ {\ theta} (y_ {1}, \ ldots, y_ {n}) p (\ theta)}

necesitamos encontrar la función de verosimilitud ${\ Displaystyle p _ {\ theta} (y_ {1}, \ ldots, y_ {n})}$ . La contribución de la probabilidad de cualquier punto de datos observado ${\ Displaystyle y}$ es entonces

{\ Displaystyle p _ {\ theta} (y) = \ int g _ {\ theta} (y \ mid z) f _ {\ theta} (z) \, dz}

y la probabilidad conjunta de los datos observados ${\ Displaystyle y_ {1}, \ ldots, y_ {n}}$ es

{\ Displaystyle p _ {\ theta} (y_ {1}, \ ldots, y_ {n}) = \ prod _ {i = 1} ^ {n} p _ {\ theta} (y_ {i}) = \ prod _ {i = 1} ^ {n} \ int g _ {\ theta} (y_ {i} \ mid z_ {i}) f _ {\ theta} (z_ {i}) \, dz_ {i}.}

Si la integral del lado derecho no está disponible analíticamente, se puede utilizar un muestreo de importancia para estimar la probabilidad. Introducir una distribución auxiliar ${\ Displaystyle q}$ tal que ${\ Displaystyle g _ {\ theta} (y \ mid z) f _ {\ theta} (z)> 0 \ Rightarrow q (z)> 0}$ para todos ${\ Displaystyle z}$ luego