Método de entropía cruzada

El método de entropía cruzada ( CE ) es un método de Monte Carlo para el muestreo y la optimización de importancia . Es aplicable tanto a problemas combinatorios como continuos , con un objetivo estático o ruidoso.

El método se aproxima al estimador de muestreo de importancia óptima repitiendo dos fases: ^[1]

Extrae una muestra de una distribución de probabilidad.
Minimice la entropía cruzada entre esta distribución y una distribución de destino para producir una mejor muestra en la siguiente iteración.

Reuven Rubinstein desarrolló el método en el contexto de la simulación de eventos raros , donde se deben estimar pequeñas probabilidades, por ejemplo, en análisis de confiabilidad de red, modelos de cola o análisis de rendimiento de sistemas de telecomunicaciones. El método también se ha aplicado al vendedor ambulante , la asignación cuadrática , la alineación de la secuencia de ADN , el corte máximo y los problemas de asignación de búfer.

Estimación mediante muestreo de importancia

Considere el problema general de estimar la cantidad

${\ Displaystyle \ ell = \ mathbb {E} _ {\ mathbf {u}} [H (\ mathbf {X})] = \ int H (\ mathbf {x}) \, f (\ mathbf {x}; \ mathbf {u}) \, {\ textrm {d}} \ mathbf {x}}$ ,

dónde ${\ Displaystyle H}$ es alguna función de rendimiento y ${\ Displaystyle f (\ mathbf {x}; \ mathbf {u})}$ es un miembro de alguna familia de distribuciones paramétricas . Utilizando un muestreo de importancia, esta cantidad se puede estimar como

${\ Displaystyle {\ hat {\ ell}} = {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} H (\ mathbf {X} _ {i}) {\ frac { f (\ mathbf {X} _ {i}; \ mathbf {u})} {g (\ mathbf {X} _ {i})}}}$ ,

dónde ${\ Displaystyle \ mathbf {X} _ {1}, \ dots, \ mathbf {X} _ {N}}$ es una muestra aleatoria de ${\ Displaystyle g \,}$ . Por positivo ${\ Displaystyle H}$ , la densidad de muestreo de importancia teóricamente óptima (PDF) viene dada por

${\ Displaystyle g ^ {*} (\ mathbf {x}) = H (\ mathbf {x}) f (\ mathbf {x}; \ mathbf {u}) / \ ell}$ .

Esto, sin embargo, depende de lo desconocido ${\ Displaystyle \ ell}$ . El método CE tiene como objetivo aproximar la PDF óptima mediante la selección adaptativa de los miembros de la familia paramétrica que están más cerca (en el sentido de Kullback-Leibler ) a la PDF óptima ${\ displaystyle g ^ {*}}$ .

Algoritmo genérico de CE

Elija el vector de parámetro inicial ${\ Displaystyle \ mathbf {v} ^ {(0)}}$ ; establecer t = 1.
Genera una muestra aleatoria ${\ Displaystyle \ mathbf {X} _ {1}, \ dots, \ mathbf {X} _ {N}}$ de ${\ Displaystyle f (\ cdot; \ mathbf {v} ^ {(t-1)})}$
Resolver ${\ Displaystyle \ mathbf {v} ^ {(t)}}$ , dónde
${\ Displaystyle \ mathbf {v} ^ {(t)} = \ mathop {\ textrm {argmax}} _ {\ mathbf {u}} {\ frac {1} {N}} \ sum _ {i = 1} ^ {N} H (\ mathbf {X} _ {i}) {\ frac {f (\ mathbf {X} _ {i}; \ mathbf {u})} {f (\ mathbf {X} _ {i }; \ mathbf {v} ^ {(t-1)})}} \ log f (\ mathbf {X} _ {i}; \ mathbf {v} ^ {(t-1)})}$
Si se alcanza la convergencia, deténgase ; de lo contrario, aumente t en 1 y repita desde el paso 2.

En varios casos, la solución al paso 3 se puede encontrar analíticamente . Las situaciones en las que esto ocurre son

Cuándo ${\ Displaystyle f \,}$ pertenece a la familia exponencial natural
Cuándo ${\ Displaystyle f \,}$ es discreto con soporte finito
Cuándo ${\ Displaystyle H (\ mathbf {X}) = \ mathrm {I} _ {\ {\ mathbf {x} \ in A \}}}$ y ${\ Displaystyle f (\ mathbf {X} _ {i}; \ mathbf {u}) = f (\ mathbf {X} _ {i}; \ mathbf {v} ^ {(t-1)})}$ , luego ${\ Displaystyle \ mathbf {v} ^ {(t)}}$ corresponde al estimador de máxima verosimilitud basado en aquellos ${\ Displaystyle \ mathbf {X} _ {k} \ in A}$ .

Optimización continua: ejemplo

El mismo algoritmo CE se puede utilizar para la optimización, en lugar de la estimación. Suponga que el problema es maximizar alguna función ${\ Displaystyle S}$ , por ejemplo, ${\ Displaystyle S (x) = {\ textrm {e}} ^ {- (x-2) ^ {2}} + 0.8 \, {\ textrm {e}} ^ {- (x + 2) ^ {2 }}}$ . Para aplicar CE, se considera primero el problema estocástico asociado de estimar ${\ Displaystyle \ mathbb {P} _ {\ boldsymbol {\ theta}} (S (X) \ geq \ gamma)}$ para un nivel dado ${\ Displaystyle \ gamma \,}$ y familia paramétrica ${\ Displaystyle \ left \ {f (\ cdot; {\ boldsymbol {\ theta}}) \ right \}}$ , por ejemplo la distribución gaussiana unidimensional , parametrizada por su media ${\ Displaystyle \ mu _ {t} \,}$ y varianza ${\ Displaystyle \ sigma _ {t} ^ {2}}$ (entonces ${\ displaystyle {\ boldsymbol {\ theta}} = (\ mu, \ sigma ^ {2})}$ aquí). Por lo tanto, para un ${\ Displaystyle \ gamma \,}$ , el objetivo es encontrar ${\ displaystyle {\ boldsymbol {\ theta}}}$ así que eso ${\ Displaystyle D _ {\ mathrm {KL}} ({\ textrm {I}} _ {\ {S (x) \ geq \ gamma \}} \ | f _ {\ boldsymbol {\ theta}})}$ se minimiza. Esto se hace resolviendo la versión de muestra (contraparte estocástica) del problema de minimización de divergencia KL, como en el paso 3 anterior. Resulta que los parámetros que minimizan la contraparte estocástica para esta elección de distribución objetivo y familia paramétrica son la media muestral y la varianza muestral correspondientes a las muestras élite , que son aquellas muestras que tienen un valor de función objetivo. ${\ Displaystyle \ geq \ gamma}$ . La peor de las muestras de élite se utiliza luego como parámetro de nivel para la siguiente iteración. Esto produce el siguiente algoritmo aleatorio que coincide con la llamada Estimación del algoritmo normal multivariante (EMNA), un algoritmo de estimación de distribución .

Pseudocódigo

// Inicializar parámetrosμ: = −6σ2: = 100t: = 0maxits: = 100N: = 100Ne: = 10// Mientras que los máximos no se excedieron y no convergieron mientras t áximos>y σ2> ε sí  // Obtenga N muestras de la distribución de muestreo actual X: = SampleGaussian (μ, σ2, N) // Evaluar la función objetivo en los puntos muestreados S: = exp (- (X - 2) ^ 2) + 0.8 exp (- (X + 2) ^ 2) // Ordenar X por valores de función objetivo en orden descendente X: = ordenar (X, S) // Actualizar los parámetros de la distribución de la muestra  μ: = media (X (1: Ne)) σ2: = var (X (1: Ne)) t: = t + 1// Devuelve la media de la distribución final del muestreo como solución devuelve μ

Métodos relacionados

Ver también

Artículos de revistas

De Boer, PT., Kroese, DP, Mannor, S. y Rubinstein, RY (2005). Un tutorial sobre el método de la entropía cruzada. Annals of Operations Research , 134 (1), 19–67. [1]
Rubinstein, RY (1997). Optimización de modelos de simulación por computadora con eventos raros, European Journal of Operational Research , 99 , 89–112.

Implementaciones de software

Paquete CEoptim R

Referencias

^ Rubinstein, RY y Kroese, DP (2004), El método de entropía cruzada: un enfoque unificado de optimización combinatoria, simulación de Monte-Carlo y aprendizaje automático, Springer-Verlag, Nueva York ISBN 978-0-387-21240-1 .

[1] Rubinstein, RY y Kroese, DP (2004), El método de entropía cruzada: un enfoque unificado de optimización combinatoria, simulación de Monte-Carlo y aprendizaje automático, Springer-Verlag, Nueva York ISBN 978-0-387-21240-1 .

[1]