Selección basada en recompensas

La selección basada en recompensas es una técnica utilizada en algoritmos evolutivos para seleccionar soluciones potencialmente útiles para la recombinación. La probabilidad de ser seleccionado para un individuo es proporcional a la recompensa acumulativa, obtenida por el individuo. La recompensa acumulativa se puede calcular como la suma de la recompensa individual y la recompensa, heredada de los padres.

Descripción

La selección basada en recompensas se puede utilizar dentro del marco de bandidos de armas múltiples para la optimización de objetivos múltiples para obtener una mejor aproximación del frente de Pareto . ^[1]

El recién nacido ${\ Displaystyle a '^ {(g + 1)}}$ y sus padres reciben una recompensa ${\ Displaystyle r ^ {(g)}}$ , Si ${\ Displaystyle a '^ {(g + 1)}}$ fue seleccionado para la nueva población ${\ Displaystyle Q ^ {(g + 1)}}$ , de lo contrario, la recompensa es cero. Son posibles varias definiciones de recompensa:

1. ${\ displaystyle r ^ {(g)} = 1}$ , si el recién nacido ${\ Displaystyle a '^ {(g + 1)}}$ fue seleccionado para la nueva población ${\ Displaystyle Q ^ {(g + 1)}}$ .
2. ${\ Displaystyle r ^ {(g)} = 1 - {\ frac {rango (a '^ {(g + 1)})} {\ mu}} {\ mbox {if}} a' ^ {(g + 1)} \ en Q ^ {(g + 1)}}$ , dónde ${\ rango de Displaystyle (a '^ {(g + 1)})}$ es el rango del individuo recién insertado en la población de ${\ Displaystyle \ mu}$ individuos. La clasificación se puede calcular utilizando un procedimiento de clasificación no dominado bien conocido . ^[2]
3. ${\ Displaystyle r ^ {(g)} = \ sum _ {a \ in Q ^ {(g + 1)}} \ Delta {H} (a, Q ^ {(g + 1)}) - \ sum _ {a \ in Q ^ {(g)}} \ Delta {H} (a, Q ^ {(g)})}$ , dónde ${\ Displaystyle \ Delta {H} (a, Q ^ {(g)})}$ es la contribución del indicador de hipervolumen del individuo ${\ Displaystyle a}$ a la población ${\ Displaystyle Q ^ {(g)}}$ . La recompensa ${\ displaystyle r ^ {(g)}> 0}$ si el individuo recién insertado mejora la calidad de la población, que se mide como su contribución de hipervolumen en el espacio objetivo.
4. Una relajación de la recompensa anterior, que implica una penalización basada en el rango para los puntos por ${\ Displaystyle k}$ -ésimo frente de Pareto dominado: ${\ Displaystyle r ^ {(g)} = {\ frac {1} {2 ^ {k-1}}} \ left (\ sum _ {ndom_ {k} (Q ^ {(g + 1)})} \ Delta {H} (a, ndom_ {k} (Q ^ {(g + 1)})) - \ sum _ {ndom_ {k} (Q ^ {(g)})} \ Delta {H} (a , ndom_ {k} (Q ^ {(g)})) \ right)}$

La selección basada en recompensas puede identificar rápidamente las direcciones de búsqueda más fructíferas al maximizar la recompensa acumulativa de los individuos.

Ver también

Referencias

↑ Loshchilov, I .; M. Schoenauer; M. Sebag (2011). "No todos los padres son iguales para MO-CMA-ES" (PDF) . Optimización evolutiva de criterios múltiples 2011 (EMO 2011) . Springer Verlag, LNCS 6576. págs. 31–45. Archivado desde el original (PDF) el 4 de junio de 2012.
^ Deb, K .; Pratap, A .; Agarwal, S .; Meyarivan, T. (2002). "Un algoritmo genético multiobjetivo rápido y elitista: NSGA-II". Transacciones IEEE sobre computación evolutiva . 6 (2): 182-197. CiteSeerX 10.1.1.17.7771 . doi : 10.1109 / 4235.996017 .

[1] Loshchilov, I .; M. Schoenauer; M. Sebag (2011). "No todos los padres son iguales para MO-CMA-ES" (PDF) . Optimización evolutiva de criterios múltiples 2011 (EMO 2011) . Springer Verlag, LNCS 6576. págs. 31–45. Archivado desde el original (PDF) el 4 de junio de 2012.

[2] Deb, K .; Pratap, A .; Agarwal, S .; Meyarivan, T. (2002). "Un algoritmo genético multiobjetivo rápido y elitista: NSGA-II". Transacciones IEEE sobre computación evolutiva . 6 (2): 182-197. CiteSeerX 10.1.1.17.7771 . doi : 10.1109 / 4235.996017 .

[1]