Muestreo de rechazo

En análisis numérico y estadística computacional , el muestreo por rechazo es una técnica básica que se utiliza para generar observaciones a partir de una distribución . También se denomina comúnmente método de aceptación-rechazo o "algoritmo de aceptación-rechazo " y es un tipo de método de simulación exacta. El método funciona para cualquier distribución en ${\ Displaystyle \ mathbb {R} ^ {m}}$ con una densidad .

El muestreo de rechazo se basa en la observación de que para muestrear una variable aleatoria en una dimensión, se puede realizar un muestreo aleatorio uniforme del gráfico cartesiano bidimensional y mantener las muestras en la región debajo del gráfico de su función de densidad. ^[1]^[2]^[3] Tenga en cuenta que esta propiedad se puede ampliar a funciones de dimensión N.

Descripción

Para visualizar la motivación detrás del muestreo de rechazo, imagine graficar la función de densidad de una variable aleatoria en un tablero rectangular grande y lanzarle dardos. Suponga que los dardos están distribuidos uniformemente alrededor del tablero. Ahora quite todos los dardos que están fuera del área debajo de la curva. Los dardos restantes se distribuirán uniformemente dentro del área bajo la curva, y las posiciones x de estos dardos se distribuirán de acuerdo con la densidad de la variable aleatoria. Esto se debe a que hay más espacio para que los dardos caigan donde la curva es más alta y, por lo tanto, la densidad de probabilidad es mayor.

La visualización como se acaba de describir es equivalente a una forma particular de muestreo de rechazo donde la "distribución de la propuesta" es uniforme (por lo tanto, su gráfico es un rectángulo). La forma general de muestreo de rechazo asume que el tablero no es necesariamente rectangular, sino que tiene la forma de la densidad de alguna distribución de propuesta de la que sabemos cómo muestrear (por ejemplo, usando muestreo de inversión ), y que es al menos igual de alta en cada caso. punto como la distribución de la que queremos muestrear, de modo que el primero encierre completamente al segundo. (De lo contrario, habría partes del área curva de la que queremos tomar muestras que nunca podrían alcanzarse).

El muestreo de rechazo funciona de la siguiente manera:

Muestra un punto en el eje x de la distribución de la propuesta.
Dibuje una línea vertical en esta posición x, hasta el valor y máximo de la función de densidad de probabilidad de la distribución propuesta.
Muestre uniformemente a lo largo de esta línea desde 0 hasta el máximo de la función de densidad de probabilidad. Si el valor muestreado es mayor que el valor de la distribución deseada en esta línea vertical, rechace el valor x y vuelva al paso 1; de lo contrario, el valor x es una muestra de la distribución deseada.

Este algoritmo se puede utilizar para muestrear el área bajo cualquier curva, independientemente de si la función se integra a 1. De hecho, escalar una función por una constante no tiene ningún efecto sobre las posiciones x muestreadas. Por lo tanto, el algoritmo se puede utilizar para muestrear una distribución cuya constante de normalización se desconoce, lo que es común en la estadística computacional .

Teoría

El método de muestreo por rechazo genera valores de muestreo a partir de una distribución objetivo. ${\ Displaystyle X}$ con función de densidad de probabilidad arbitraria ${\ Displaystyle f (x)}$ mediante el uso de una distribución de propuesta ${\ Displaystyle Y}$ con densidad de probabilidad ${\ Displaystyle g (x)}$ . La idea es que se pueda generar un valor de muestra a partir de ${\ Displaystyle X}$ en lugar de tomar muestras de ${\ Displaystyle Y}$ y aceptando la muestra de ${\ Displaystyle Y}$ con probabilidad ${\ Displaystyle f (x) / (Mg (x))}$ , repitiendo los sorteos de ${\ Displaystyle Y}$ hasta que se acepte un valor. ${\ Displaystyle M}$ aquí hay un límite finito constante en la razón de verosimilitud ${\ Displaystyle f (x) / g (x)}$ , satisfactorio ${\ Displaystyle 1$ sobre el apoyo de ${\ Displaystyle X}$ ; en otras palabras, M debe satisfacer ${\ Displaystyle f (x) \ leq Mg (x)}$ para todos los valores de ${\ Displaystyle x}$ . Tenga en cuenta que esto requiere que el apoyo de ${\ Displaystyle Y}$ debe incluir el apoyo de ${\ Displaystyle X}$ -en otras palabras, ${\ Displaystyle g (x)> 0}$ cuando sea ${\ Displaystyle f (x)> 0}$ .

La validación de este método es el principio de la envolvente: al simular el par ${\ estilo de texto (x, v = u \ cdot Mg (x))}$ , se produce una simulación uniforme sobre el subgrafo de ${\ textstyle Mg (x)}$ . Aceptando solo pares tales que ${\ textstyle u$ luego produce pares ${\ Displaystyle (x, v)}$ distribuido uniformemente sobre el subgrafo de ${\ Displaystyle f (x)}$ y así, marginalmente, una simulación de ${\ Displaystyle f (x).}$

Esto significa que, con suficientes réplicas, el algoritmo genera una muestra a partir de la distribución deseada. ${\ Displaystyle f (x)}$ . Hay una serie de extensiones de este algoritmo, como el algoritmo Metropolis .

Este método se relaciona con el campo general de las técnicas de Monte Carlo , incluidos los algoritmos de Monte Carlo de cadena de Markov que también utilizan una distribución proxy para lograr la simulación a partir de la distribución de destino. ${\ Displaystyle f (x)}$ . Constituye la base de algoritmos como el de Metropolis .

La probabilidad de aceptación incondicional es la proporción de muestras propuestas que se aceptan, que es

{\ Displaystyle {\ begin {alineado} \ mathbb {P} \ left (U \ leq {\ frac {f (Y)} {Mg (Y)}} \ right) & = \ operatorname {E} \ mathbf {1 } _ {\ left [U \ leq {\ frac {f (Y)} {Mg (Y)}} \ right]} \\ [6pt] & = E \ left [\ operatorname {E} [\ mathbf {1 } _ {\ left [U \ leq {\ frac {f (Y)} {Mg (Y)}} \ right]} | Y] \ right] & ({\ text {por propiedad de la torre}}) \\ [ 6pt] & = \ operatorname {E} \ left [\ mathbb {P} \ left (U \ leq {\ frac {f (Y)} {Mg (Y)}} {\ biggr |} Y \ right) \ right ] \\ [6pt] & = E \ left [{\ frac {f (Y)} {Mg (Y)}} \ right] & ({\ text {porque}} \ Pr (U \ leq u) = u , {\ text {cuando}} U {\ text {es uniforme en}} (0,1)) \\ [6pt] & = \ int \ limits _ {y: g (y)> 0} {\ frac { f (y)} {Mg (y)}} g (y) \, dy \\ [6pt] & = {\ frac {1} {M}} \ int \ limits _ {y: g (y)> 0 } f (y) \, dy \\ [6pt] & = {\ frac {1} {M}} & ({\ text {ya que el soporte de}} Y {\ text {incluye el soporte de}} X) \ end {alineado}}}

dónde

{\ Displaystyle U \ sim \ mathrm {Unif} (0,1)}

, y el valor de

{\ Displaystyle y}

cada vez se genera bajo la función de densidad

{\ Displaystyle g (\ cdot)}

de la distribución de la propuesta

{\ Displaystyle Y}

.

El número de muestras requeridas de ${\ Displaystyle Y}$ para obtener un valor aceptado sigue una distribución geométrica con probabilidad ${\ Displaystyle 1 / M}$ , que tiene media ${\ Displaystyle M}$ . Intuitivamente, ${\ Displaystyle M}$ es el número esperado de iteraciones que se necesitan, como medida de la complejidad computacional del algoritmo.

Reescribe la ecuación anterior,

{\ Displaystyle M = {\ frac {1} {\ mathbb {P} \ left (U \ leq {\ frac {f (Y)} {Mg (Y)}} \ right)}}}

Tenga en cuenta que

{\ estilo de texto 1 \ leq M <\ infty}

, debido a la fórmula anterior, donde

{\ textstyle \ mathbb {P} \ left (U \ leq {\ frac {f (Y)} {Mg (Y)}} \ right)}

es una probabilidad que solo puede tomar valores en el intervalo

{\ Displaystyle [0,1]}

. Cuándo

{\ Displaystyle M}

se elige más cerca de uno, la probabilidad de aceptación incondicional es mayor cuanto menos varía la relación, ya que

{\ Displaystyle M}

es el límite superior de la razón de verosimilitud

{\ textstyle f (x) / g (x)}

. En la práctica, un valor de

{\ Displaystyle M}

se prefiere más cercano a 1 ya que implica menos muestras rechazadas, en promedio, y por lo tanto menos iteraciones del algoritmo. En este sentido, se prefiere tener

{\ Displaystyle M}

tan pequeño como sea posible (sin dejar de satisfacer

{\ Displaystyle f (x) \ leq Mg (x)}

, lo que sugiere que

{\ Displaystyle g (x)}

generalmente debería parecerse

{\ Displaystyle f (x)}

de alguna manera. Sin embargo, tenga en cuenta que

{\ Displaystyle M}

no puede ser igual a 1: esto implicaría que

{\ Displaystyle f (x) = g (x)}

, es decir, que las distribuciones de destino y propuesta son en realidad la misma distribución.

El muestreo de rechazo se utiliza con mayor frecuencia en los casos en que la forma de ${\ Displaystyle f (x)}$ dificulta el muestreo. Una sola iteración del algoritmo de rechazo requiere un muestreo de la distribución de la propuesta, el dibujo de una distribución uniforme y la evaluación de la ${\ Displaystyle f (x) / (Mg (x))}$ expresión. Por tanto, el muestreo de rechazo es más eficiente que algún otro método siempre que M veces el costo de estas operaciones, que es el costo esperado de obtener una muestra con muestreo de rechazo, es menor que el costo de obtener una muestra utilizando el otro método.

Algoritmo

El algoritmo (utilizado por John von Neumann ^{[ cita requerida ]} y que se remonta a Buffon y su aguja ^{[ cita requerida ]} ) para obtener una muestra de la distribución ${\ Displaystyle X}$ con densidad ${\ Displaystyle f}$ usando muestras de distribución ${\ Displaystyle Y}$ con densidad ${\ Displaystyle g}$ es como sigue:

Obtener una muestra ${\ Displaystyle y}$ de la distribución ${\ Displaystyle Y}$ y una muestra ${\ Displaystyle u}$ de ${\ Displaystyle \ mathrm {Unif} (0,1)}$ (la distribución uniforme sobre el intervalo unitario).
Compruebe si o no ${\ textstyle u$ .
- Si esto se mantiene, acepta ${\ Displaystyle y}$ como muestra extraída de ${\ Displaystyle f}$ ;
- si no, rechace el valor de ${\ Displaystyle y}$ y vuelva al paso de muestreo.

El algoritmo tomará un promedio de ${\ Displaystyle M}$ iteraciones para obtener una muestra.

Ventajas sobre el muestreo con métodos ingenuos

El muestreo de rechazo puede ser mucho más eficiente en comparación con los métodos Naive en algunas situaciones. Por ejemplo, dado un problema como muestreo ${\ estilo de texto X \ sim F (\ cdot)}$ condicionalmente en ${\ Displaystyle X}$ dado el conjunto ${\ Displaystyle A}$ , es decir, ${\ estilo de texto X | X \ en A}$ , algunas veces ${\ textstyle X}$ se puede simular fácilmente, utilizando los métodos Naive (por ejemplo, mediante muestreo de transformación inversa ):

Muestra ${\ estilo de texto X \ sim F (\ cdot)}$ de forma independiente, y dejar a los ${\ Displaystyle \ {n \ geq 1: X_ {n} \ in A \}}$
Producción: ${\ Displaystyle \ {X_ {1}, X_ {2}, ..., X_ {N}: X_ {i} \ in A, i = 1, ..., N \}}$

El problema es que este muestreo puede ser difícil e ineficaz, si ${\ textstyle \ mathbb {P} (X \ in A) \ approx 0}$ . El número esperado de iteraciones sería ${\ Displaystyle {\ frac {1} {\ mathbb {P} (X \ in A)}}}$ , que podría estar cerca del infinito. Además, incluso cuando aplica el método de muestreo de rechazo, siempre es difícil optimizar el límite ${\ Displaystyle M}$ para la razón de verosimilitud. Más a menudo que no, ${\ Displaystyle M}$ es grande y la tasa de rechazo es alta, el algoritmo puede ser muy ineficaz. La familia exponencial natural (si existe), también conocida como inclinación exponencial, proporciona una clase de distribuciones propuestas que pueden reducir la complejidad del cálculo, el valor de ${\ Displaystyle M}$ y acelerar los cálculos (ver ejemplos: trabajar con familias exponenciales naturales).

Ejemplos: trabajar con familias exponenciales naturales

Dada una variable aleatoria ${\ Displaystyle X \ sim F (\ cdot)}$ , ${\ Displaystyle F (x) = \ mathbb {P} (X \ leq x)}$ es la distribución de destino. Suponga, por simplicidad, que la función de densidad se puede escribir explícitamente como ${\ Displaystyle f (x)}$ . Elija la propuesta como

{\ Displaystyle {\ begin {alineado} F _ {\ theta} (x) & = \ mathbb {E} \ left [\ exp (\ theta X- \ psi (\ theta)) \ mathbb {I} (X \ leq x) \ right] \\ & = \ int _ {- \ infty} ^ {x} e ^ {\ theta y- \ psi (\ theta)} f (y) dy \\ g _ {\ theta} (x) & = F _ {\ theta} ^ {'} (x) = e ^ {\ theta x- \ psi (\ theta)} f (x) \ end {alineado}}}

dónde

{\ Displaystyle \ psi (\ theta) = \ log \ left (\ mathbb {E} \ exp (\ theta X) \ right)}

y

{\ Displaystyle \ Theta = \ {\ theta: \ psi (\ theta) <\ infty \}}

. Claramente,

{\ Displaystyle \ {F _ {\ theta} (\ cdot) \} _ {\ theta \ in \ Theta}}

, es de una familia exponencial natural . Además, la razón de verosimilitud es

{\ Displaystyle Z (x) = {\ frac {f (x)} {g _ {\ theta} (x)}} = {\ frac {f (x)} {e ^ {\ theta x- \ psi (\ theta)} f (x)}} = e ^ {- \ theta x + \ psi (\ theta)}}

Tenga en cuenta que

{\ Displaystyle \ psi (\ theta) <\ infty}

implica que de hecho es una función de generación de momento logarítmico , es decir,

{\ Displaystyle \ psi (\ theta) = \ log \ mathbb {E} {\ exp (tX)} | _ {t = \ theta} = \ log M_ {X} (t) | _ {t = \ theta} }

. Y es fácil derivar la función de generación de momentos de registro de la propuesta y, por lo tanto, los momentos de la propuesta.

{\ Displaystyle {\ begin {alineado} \ psi _ {\ theta} (\ eta) & = \ log \ left (\ mathbb {E} _ {\ theta} \ exp (\ eta X) \ right) = \ psi (\ theta + \ eta) - \ psi (\ theta) <\ infty \\\ mathbb {E} _ {\ theta} (X) & = \ left. {\ frac {\ parcial \ psi _ {\ theta} (\ eta)} {\ parcial \ eta}} \ derecha | _ {\ eta = 0} \\\ mathrm {Var} _ {\ theta} (X) & = \ izquierda. {\ frac {\ parcial ^ { 2} \ psi _ {\ theta} (\ eta)} {\ parcial ^ {2} \ eta}} \ right | _ {\ eta = 0} \ end {alineado}}}

Como ejemplo simple, suponga que bajo

{\ Displaystyle F (\ cdot)}

,

{\ Displaystyle X \ sim \ mathrm {N} (\ mu, \ sigma ^ {2})}

, con

{\ estilo de texto \ psi (\ theta) = \ theta \ mu + {\ frac {\ sigma ^ {2} \ theta ^ {2}} {2}}}

. El objetivo es muestrear

{\ Displaystyle X | X \ in \ left [b, \ infty \ right]}

,

{\ Displaystyle b> \ mu}

. El análisis es el siguiente.

Elija la forma de distribución de la propuesta ${\ Displaystyle F _ {\ theta} (\ cdot)}$ , con función de generación de momento de registro como ${\ estilo de texto \ psi _ {\ theta} (\ eta) = \ psi (\ theta + \ eta) - \ psi (\ eta) = \ eta (\ mu + \ theta \ sigma ^ {2}) + {\ frac {\ sigma ^ {2} \ eta ^ {2}} {2}}}$ , lo que implica además que es una distribución normal ${\ Displaystyle \ mathrm {N} (\ mu + \ theta \ sigma ^ {2}, \ sigma ^ {2})}$ .
Decide el bien elegido ${\ Displaystyle \ theta ^ {*}}$ para la distribución de la propuesta. En esta configuración, la forma intuitiva de elegir ${\ Displaystyle \ theta ^ {*}}$ es establecer ${\ Displaystyle \ mathbb {E} _ {\ theta} (X) = \ mu + \ theta \ sigma ^ {2} = b}$ , es decir ${\ Displaystyle \ theta ^ {*} = {\ frac {b- \ mu} {\ sigma ^ {2}}}}$
Escriba explícitamente el objetivo, la propuesta y el índice de probabilidad. ${\ Displaystyle {\ begin {alineado} f_ {X | X \ geq b} (x) & = {\ frac {f (x) \ mathbb {I} (x \ geq b)} {\ mathbb {P} ( x \ geq b)}} \\ g _ {\ theta ^ {*}} (x) & = f (x) \ exp (\ theta ^ {*} x- \ psi (\ theta ^ {*})) \ \ Z (x) & = {\ frac {f_ {X | X \ geq b} (x)} {g _ {\ theta ^ {*}} (x)}} = {\ frac {\ exp (- \ theta ^ {*} x + \ psi (\ theta ^ {*})) \ mathbb {I} (x \ geq b)} {\ mathbb {P} (x \ geq b)}} \ end {alineado}}}$
Derivar el límite ${\ Displaystyle M}$ para la razón de verosimilitud ${\ Displaystyle z (x)}$ , que es una función decreciente para ${\ Displaystyle x \ in [b, \ infty]}$ , por lo tanto ${\ Displaystyle M = Z (b) = {\ frac {\ exp (- \ theta ^ {*} b + \ psi (\ theta ^ {*}))} {\ mathbb {P} (X \ geq b)} } = {\ frac {\ exp \ left (- {\ frac {(b- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right)} {\ mathbb {P} (X \ geq b)}} = {\ frac {\ exp \ left (- {\ frac {(b- \ mu) ^ {2}} {2 \ sigma ^ {2}}} \ right)} {\ mathbb {P } \ left (\ mathrm {N} (0,1) \ geq {\ frac {b- \ mu} {\ sigma}} \ right)}}}$
Criterio de muestreo de rechazo: para ${\ Displaystyle U \ sim \ mathrm {Unif} (0,1)}$ , Si ${\ Displaystyle U \ leq {\ frac {Z (x)} {M}} = e ^ {- \ theta ^ {*} (xb)} \ mathbb {I} (x \ geq b)}$ sostiene, acepta el valor de ${\ Displaystyle X}$ ; si no, continúe probando nuevos ${\ textstyle X \ sim _ {iid} \ mathrm {N} (\ mu + \ theta ^ {*} \ sigma ^ {2}, \ sigma ^ {2})}$ y nuevo ${\ textstyle U \ sim \ mathrm {Unif} (0,1)}$ hasta la aceptación.

Para el ejemplo anterior, como medida de la eficiencia, el número esperado de iteraciones del método de muestreo de rechazo basado en NEF es de orden b, es decir ${\ Displaystyle M (b) = O (b)}$ , mientras que bajo el método Naive, el número esperado de iteraciones es ${\ textstyle {\ frac {1} {\ mathbb {P} (X \ geq b)}} = O (b \ cdot e ^ {\ frac {(b- \ mu) ^ {2}} {2 \ sigma ^ {2}}})}$ , que es mucho más ineficiente.

En general, la inclinación exponencial, una clase paramétrica de distribución de propuesta, resuelve convenientemente los problemas de optimización, con sus propiedades útiles que caracterizan directamente la distribución de la propuesta. Para este tipo de problema, para simular ${\ Displaystyle X}$ condicionalmente en ${\ Displaystyle X \ in A}$ , entre la clase de distribuciones simples, el truco consiste en utilizar NEF, lo que ayuda a obtener cierto control sobre la complejidad y acelera considerablemente el cálculo. De hecho, existen profundas razones matemáticas para usar NEF.

Inconvenientes

El muestreo de rechazo puede llevar a que se tomen muchas muestras no deseadas si la función que se muestrea está muy concentrada en una determinada región, por ejemplo, una función que tiene un pico en algún lugar. Para muchas distribuciones, este problema se puede resolver utilizando una extensión adaptativa (ver muestreo de rechazo adaptativo ). Además, a medida que aumentan las dimensiones del problema, la relación entre el volumen incrustado y las "esquinas" del volumen incrustado tiende a cero, por lo que pueden producirse muchos rechazos antes de que se genere una muestra útil, lo que hace que el algoritmo ineficaz y poco práctico. Vea la maldición de la dimensionalidad . En dimensiones elevadas, es necesario utilizar un enfoque diferente, típicamente un método Monte Carlo de cadena de Markov, como el muestreo de Metropolis o el muestreo de Gibbs . (Sin embargo, el muestreo de Gibbs, que descompone un problema de muestreo multidimensional en una serie de muestras de baja dimensión, puede utilizar el muestreo de rechazo como uno de sus pasos).

Muestreo de rechazo adaptativo

Para muchas distribuciones, es difícil encontrar una distribución de propuesta que incluya la distribución dada sin mucho espacio desperdiciado. Una extensión del muestreo de rechazo que se puede utilizar para superar esta dificultad y muestrear eficientemente de una amplia variedad de distribuciones (siempre que tengan funciones de densidad log-cóncavas , que es de hecho el caso para la mayoría de las distribuciones comunes, incluso aquellas cuya densidad ¡las funciones no son cóncavas en sí mismas!) se conoce como muestreo de rechazo adaptativo (ARS) .

Hay tres ideas básicas para esta técnica tal como la introdujo Gilks en 1992: ^[4]

Si ayuda, defina la distribución de su envolvente en el espacio de registro (por ejemplo, probabilidad de registro o densidad de registro) en su lugar. Es decir, trabajar con ${\ Displaystyle h \ left (x \ right) = \ log g \ left (x \ right)}$ en vez de ${\ Displaystyle g \ left (x \ right)}$ directamente.
- A menudo, las distribuciones que tienen funciones de densidad algebraicamente desordenadas tienen funciones de densidad logarítmica razonablemente más simples (es decir, cuando ${\ Displaystyle f \ left (x \ right)}$ es desordenado, ${\ Displaystyle \ log f \ left (x \ right)}$ puede ser más fácil trabajar con o, al menos, más cercano a lineal por partes).
En lugar de una única función de densidad de envolvente uniforme, utilice una función de densidad lineal por partes como su envolvente.
- Cada vez que tenga que rechazar una muestra, puede utilizar el valor de ${\ Displaystyle f \ left (x \ right)}$ que evaluó, para mejorar la aproximación por partes ${\ Displaystyle h \ left (x \ right)}$ . Por lo tanto, esto reduce la posibilidad de que su próximo intento sea rechazado. Asintóticamente, la probabilidad de tener que rechazar su muestra debería converger a cero y, en la práctica, a menudo muy rápidamente.
- Como se propone, cada vez que elegimos un punto que se rechaza, ajustamos la envolvente con otro segmento de línea que sea tangente a la curva en el punto con la misma coordenada x que el punto elegido.
- Un modelo lineal por partes de la distribución logarítmica de la propuesta da como resultado un conjunto de distribuciones exponenciales por partes (es decir, segmentos de una o más distribuciones exponenciales, unidos de un extremo a otro). Las distribuciones exponenciales se comportan bien y se comprenden bien. El logaritmo de una distribución exponencial es una línea recta y, por lo tanto, este método implica esencialmente encerrar el logaritmo de la densidad en una serie de segmentos de línea. Esta es la fuente de la restricción logarítmica-cóncava: si una distribución es logarítmica-cóncava, entonces su logaritmo es cóncavo (con forma de U invertida), lo que significa que un segmento de línea tangente a la curva siempre pasará por encima de la curva.
- Si no se trabaja en el espacio logarítmico, también se puede muestrear una función de densidad lineal por partes mediante distribuciones triangulares ^[5]
Podemos aprovechar aún más el requisito de concavidad (logarítmica), para evitar potencialmente el costo de evaluar ${\ Displaystyle f \ left (x \ right)}$ cuando se acepta su muestra .
- Al igual que podemos construir un límite superior lineal por partes (la función "envolvente") utilizando los valores de ${\ Displaystyle h \ left (x \ right)}$ que tuvimos que evaluar en la actual cadena de rechazos, también podemos construir un límite inferior lineal por partes (la función de "compresión") usando estos valores también.
- Antes de evaluar (lo potencialmente caro) ${\ Displaystyle f \ left (x \ right)}$ para ver si su muestra será aceptada, es posible que ya sepamos si será aceptada comparándola con la (idealmente más barata) ${\ Displaystyle g_ {l} \ left (x \ right)}$ (o ${\ Displaystyle h_ {l} \ left (x \ right)}$ en este caso) exprimiendo la función que tenga disponible.
- Este paso de compresión es opcional, incluso cuando lo sugiere Gilks. En el mejor de los casos, le ahorra una sola evaluación adicional de su densidad objetivo (desordenada y / o costosa). Sin embargo, presumiblemente para funciones de densidad particularmente caras (y asumiendo la rápida convergencia de la tasa de rechazo hacia cero), esto puede marcar una diferencia considerable en el tiempo de ejecución final.

El método consiste esencialmente en determinar sucesivamente una envolvente de segmentos de línea recta que se aproxima cada vez mejor al logaritmo sin dejar de estar por encima de la curva, comenzando con un número fijo de segmentos (posiblemente una sola línea tangente). El muestreo de una variable aleatoria exponencial truncada es sencillo. Simplemente tome el logaritmo de una variable aleatoria uniforme (con el intervalo apropiado y el truncamiento correspondiente).

Desafortunadamente, ARS solo se puede aplicar a partir de un muestreo de densidades objetivo log-cóncavas. Por esta razón, se han propuesto varias extensiones de ARS en la literatura para abordar distribuciones objetivo no log-cóncavas. ^[6]^[7]^[8] Además, se han diseñado diferentes combinaciones de ARS y el método Metropolis-Hastings con el fin de obtener un sampler universal que construya una propuesta de autoajuste de densidades (es decir, una propuesta construida y adaptada automáticamente a la objetivo). Esta clase de métodos a menudo se denominan algoritmos de muestreo de metrópolis de rechazo adaptativo (ARMS) . ^[9]^[10] Las técnicas adaptativas resultantes se pueden aplicar siempre, pero las muestras generadas están correlacionadas en este caso (aunque la correlación desaparece rápidamente a cero a medida que aumenta el número de iteraciones).

Ver también

Referencias

^ Casella, George; Robert, Christian P .; Wells, Martin T. (2004). Esquemas de muestreo generalizados de aceptación-rechazo . Instituto de Estadística Matemática. págs. 342–347. doi : 10.1214 / lnms / 1196285403 . ISBN 9780940600614.
^ Neal, Radford M. (2003). "Slice Sampling" . Annals of Statistics . 31 (3): 705–767. doi : 10.1214 / aos / 1056562461 . Señor 1994729 . Zbl 1051.65007 .
^ Obispo, Christopher (2006). "11.4: Muestreo de cortes". Reconocimiento de patrones y aprendizaje automático . Springer . ISBN 978-0-387-31073-2.
^ Muestreo de rechazo adaptativo para muestreo de Gibbs. https://stat.duke.edu/~cnk/Links/tangent.method.pdf
^ DB Thomas y W. Luk, Generación de números aleatorios no uniformes mediante aproximaciones lineales por partes, 2006. http://www.doc.ic.ac.uk/~wl/papers/iee07dt.pdf
^ Hörmann, Wolfgang (1 de junio de 1995). "Una técnica de rechazo para el muestreo de distribuciones cóncavas en T". ACM Trans. Matemáticas. Softw . 21 (2): 182-193. CiteSeerX 10.1.1.56.6055 . doi : 10.1145 / 203082.203089 . ISSN 0098-3500 .
^ Evans, M .; Swartz, T. (1 de diciembre de 1998). "Generación de variables aleatorias usando propiedades de concavidad de densidades transformadas". Revista de Estadística Computacional y Gráfica . 7 (4): 514-528. CiteSeerX 10.1.1.53.9001 . doi : 10.2307 / 1390680 . JSTOR 1390680 .
^ Görür, Dilan; Teh, Yee Whye (1 de enero de 2011). "Muestreo de rechazo adaptativo cóncavo-convexo". Revista de Estadística Computacional y Gráfica . 20 (3): 670–691. doi : 10.1198 / jcgs.2011.09058 . ISSN 1061-8600 .
^ Gilks, WR; Mejor, NG ; Tan, KKC (1 de enero de 1995). "Muestreo de metrópolis de rechazo adaptativo dentro del muestreo de Gibbs". Revista de la Royal Statistical Society. Serie C (Estadística aplicada) . 44 (4): 455–472. doi : 10.2307 / 2986138 . JSTOR 2986138 .
^ Meyer, Renate; Cai, Bo; Perron, François (15 de marzo de 2008). "Muestreo de Metrópolis de rechazo adaptativo mediante polinomios de interpolación de Lagrange de grado 2". Estadística computacional y análisis de datos . 52 (7): 3408–3423. doi : 10.1016 / j.csda.2008.01.005 .

Robert, CP y Casella, G. "Monte Carlo Statistical Methods" (segunda edición). Nueva York: Springer-Verlag, 2004.
J. von Neumann, "Varias técnicas utilizadas en relación con dígitos aleatorios. Métodos de Monte Carlo", Nat. Bureau Standards, 12 (1951), págs. 36–38.

[1] Casella, George; Robert, Christian P .; Wells, Martin T. (2004). Esquemas de muestreo generalizados de aceptación-rechazo . Instituto de Estadística Matemática. págs. 342–347. doi : 10.1214 / lnms / 1196285403 . ISBN 9780940600614.

[radford03-2] Neal, Radford M. (2003). "Slice Sampling" . Annals of Statistics . 31 (3): 705–767. doi : 10.1214 / aos / 1056562461 . Señor 1994729 . Zbl 1051.65007 .

[bishop06-3] Obispo, Christopher (2006). "11.4: Muestreo de cortes". Reconocimiento de patrones y aprendizaje automático . Springer . ISBN 978-0-387-31073-2.

[4] Muestreo de rechazo adaptativo para muestreo de Gibbs. https://stat.duke.edu/~cnk/Links/tangent.method.pdf

[5] DB Thomas y W. Luk, Generación de números aleatorios no uniformes mediante aproximaciones lineales por partes, 2006. http://www.doc.ic.ac.uk/~wl/papers/iee07dt.pdf

[6] Hörmann, Wolfgang (1 de junio de 1995). "Una técnica de rechazo para el muestreo de distribuciones cóncavas en T". ACM Trans. Matemáticas. Softw . 21 (2): 182-193. CiteSeerX 10.1.1.56.6055 . doi : 10.1145 / 203082.203089 . ISSN 0098-3500 .

[7] Evans, M .; Swartz, T. (1 de diciembre de 1998). "Generación de variables aleatorias usando propiedades de concavidad de densidades transformadas". Revista de Estadística Computacional y Gráfica . 7 (4): 514-528. CiteSeerX 10.1.1.53.9001 . doi : 10.2307 / 1390680 . JSTOR 1390680 .

[8] Görür, Dilan; Teh, Yee Whye (1 de enero de 2011). "Muestreo de rechazo adaptativo cóncavo-convexo". Revista de Estadística Computacional y Gráfica . 20 (3): 670–691. doi : 10.1198 / jcgs.2011.09058 . ISSN 1061-8600 .

[9] Gilks, WR; Mejor, NG ; Tan, KKC (1 de enero de 1995). "Muestreo de metrópolis de rechazo adaptativo dentro del muestreo de Gibbs". Revista de la Royal Statistical Society. Serie C (Estadística aplicada) . 44 (4): 455–472. doi : 10.2307 / 2986138 . JSTOR 2986138 .

[10] Meyer, Renate; Cai, Bo; Perron, François (15 de marzo de 2008). "Muestreo de Metrópolis de rechazo adaptativo mediante polinomios de interpolación de Lagrange de grado 2". Estadística computacional y análisis de datos . 52 (7): 3408–3423. doi : 10.1016 / j.csda.2008.01.005 .

[1]