Estimación del algoritmo de distribución


De Wikipedia, la enciclopedia libre
Saltar a navegación Saltar a búsqueda
Estimación del algoritmo de distribución. Para cada iteración i , se realiza un sorteo aleatorio para una población P en una distribución PDu . A continuación, se estiman los parámetros de distribución PDe utilizando los puntos PS seleccionados . El ejemplo ilustrado optimiza una función continua objetivo f (X) con un óptimo único O . El muestreo (siguiendo una distribución normal N ) se concentra alrededor del óptimo a medida que avanza el algoritmo de desenrollado.

Los algoritmos de estimación de distribución ( EDA ), a veces llamados algoritmos genéticos de construcción de modelos probabilísticos (PMBGA), [1] sonmétodos de optimización estocástica que guían la búsqueda del óptimo mediante la construcción y muestreo de modelos probabilísticos explícitos de soluciones candidatas prometedoras. La optimización se ve como una serie de actualizaciones incrementales de un modelo probabilístico, comenzando con el modelo que codifica un anterior no informativo sobre soluciones admisibles y terminando con el modelo que genera solo los óptimos globales. [2] [3] [4]

Los EDA pertenecen a la clase de algoritmos evolutivos . La principal diferencia entre los EDA y la mayoría de los algoritmos evolutivos convencionales es que los algoritmos evolutivos generan nuevas soluciones candidatas utilizando una distribución implícita definida por uno o más operadores de variación, mientras que los EDA utilizan una distribución de probabilidad explícita codificada por una red bayesiana , una distribución normal multivariante u otra. clase modelo. De manera similar a otros algoritmos evolutivos, los EDA se pueden utilizar para resolver problemas de optimización definidos en una serie de representaciones desde vectores hasta expresiones LISP estilo S, y la calidad de las soluciones candidatas a menudo se evalúa utilizando una o más funciones objetivas.

El procedimiento general de una EDA se describe a continuación:

t  : = 0
inicializar el modelo M (0) para representar una distribución uniforme sobre las soluciones admisiblesmientras (no se cumplen los criterios de terminación) ¿  P  : = generar N> 0 soluciones candidatas muestreando M ( t ) F  : = evaluar todas las soluciones candidatas en P M (t + 1): = ajustar_modelo ( P , F , M ( t ) ) t  : = t + 1

El uso de modelos probabilísticos explícitos en la optimización permitió a los EDA resolver de manera factible problemas de optimización que eran notoriamente difíciles para la mayoría de los algoritmos evolutivos convencionales y las técnicas de optimización tradicionales, como problemas con altos niveles de epistasis [ cita requerida ] . No obstante, la ventaja de los EDA es también que estos algoritmos proporcionan al practicante de optimización una serie de modelos probabilísticos que revelan mucha información sobre el problema que se está resolviendo. Esta información, a su vez, se puede utilizar para diseñar operadores de vecindad específicos del problema para la búsqueda local, para sesgar las ejecuciones futuras de EDA en un problema similar o para crear un modelo computacional eficiente del problema.

Por ejemplo, si la población está representada por cadenas de bits de longitud 4, la EDA puede representar la población de solución prometedora utilizando un solo vector de cuatro probabilidades (p1, p2, p3, p4) donde cada componente de p define la probabilidad de que siendo la posición un 1. Con este vector de probabilidad es posible crear un número arbitrario de soluciones candidatas.

Estimación de algoritmos de distribución (EDA)

Esta sección describe los modelos construidos por algunos EDA conocidos de diferentes niveles de complejidad. Siempre se asume una población en la generación , un operador de selección , un operador de construcción de modelos y un operador de muestreo .

Factorizaciones univariadas

Las EDA más simples asumen que las variables de decisión son independientes, es decir . Por lo tanto, las EDA univariadas se basan solo en estadísticas univariadas y las distribuciones multivariadas deben factorizarse como el producto de distribuciones de probabilidad univariadas,

Estas factorizaciones se utilizan en muchas EDA diferentes, a continuación describimos algunas de ellas.

Algoritmo de distribución marginal univariante (UMDA)

El UMDA [5] es un EDA simple que utiliza un operador para estimar las probabilidades marginales de una población seleccionada . Suponiendo que contienen elementos, produce probabilidades:

Cada paso de UMDA se puede describir de la siguiente manera

Aprendizaje incremental basado en la población (PBIL)

El PBIL, [6] representa la población implícitamente por su modelo, a partir del cual muestra nuevas soluciones y actualiza el modelo. En cada generación, los individuos se muestrean y se seleccionan. Estos individuos luego se utilizan para actualizar el modelo de la siguiente manera

donde es un parámetro que define la tasa de aprendizaje , un valor pequeño determina que el modelo anterior solo debe ser modificado ligeramente por las nuevas soluciones muestreadas. PBIL se puede describir como

Algoritmo genético compacto (cGA)

El CGA, [7] también se basa en las poblaciones implícitas definidas por distribuciones univariadas. En cada generación , dos individuos se muestrean, . La población se ordena con el fin de disminuir la aptitud, con ser el mejor y el peor solución. La CGA estima probabilidades univariadas de la siguiente manera

donde, es una constante que define la tasa de aprendizaje , generalmente establecida en . La CGA se puede definir como

Factorizaciones bivariadas

Aunque los modelos univariados se pueden calcular de manera eficiente, en muchos casos no son lo suficientemente representativos para proporcionar un mejor rendimiento que los GA. Para superar este inconveniente, en la comunidad EDA se propuso el uso de factorizaciones bivariadas, en las que se podían modelar las dependencias entre pares de variables. Una factorización bivariada se puede definir de la siguiente manera, donde contiene una posible variable dependiente de , es decir .

Las distribuciones bivariadas y multivariadas generalmente se representan como modelos gráficos probabilísticos (gráficos), en los que los bordes denotan dependencias estadísticas (o probabilidades condicionales) y los vértices denotan variables. Para aprender la estructura de un PGM a partir del enlace de datos, se emplea el aprendizaje.

Información mutua que maximiza la agrupación de entradas (MIMIC)

El MIMIC [8] factoriza la distribución de probabilidad conjunta en un modelo en forma de cadena que representa sucesivas dependencias entre variables. Encuentra una permutación de las variables de decisión , tal que minimiza la divergencia de Kullback-Leibler en relación con la distribución de probabilidad verdadera, es decir . MIMIC modela una distribución

Las nuevas soluciones se muestrean desde la variable más a la izquierda a la más a la derecha, la primera se genera de forma independiente y las otras según probabilidades condicionales. Dado que la distribución estimada debe volver a calcularse en cada generación, MIMIC utiliza poblaciones concretas de la siguiente manera

Algoritmo de distribución marginal bivariante (BMDA)

El BMDA [9] factoriza la distribución de probabilidad conjunta en distribuciones bivariadas. Primero, se agrega una variable elegida aleatoriamente como un nodo en un gráfico, se elige la variable más dependiente a una de las que están en el gráfico entre las que aún no están en el gráfico, este procedimiento se repite hasta que ninguna variable restante dependa de ninguna variable en el gráfico. gráfico (verificado según un valor umbral).

El modelo resultante es un bosque con varios árboles enraizados en los nodos . Considerando las variables no raíz, BMDA estima una distribución factorizada en la que las variables raíz se pueden muestrear de forma independiente, mientras que todas las demás deben estar condicionadas a la variable madre .

Cada paso de BMDA se define de la siguiente manera

Factorizaciones multivariadas

La siguiente etapa del desarrollo de las EDA fue el uso de factorizaciones multivariadas. En este caso, la distribución de probabilidad conjunta generalmente se factoriza en una serie de componentes de tamaño limitado .

El aprendizaje de PGM que codifican distribuciones multivariadas es una tarea computacionalmente costosa, por lo tanto, es habitual que las EDA estimen estadísticas multivariadas a partir de estadísticas bivariadas. Tal relajación permite que PGM se construya en tiempo polinomial en ; sin embargo, también limita la generalidad de tales EDA.

Algoritmo genético compacto extendido (eCGA)

La ECGA [10] fue una de las primeras EDA en emplear factorizaciones multivariadas, en las que se pueden modelar dependencias de alto orden entre las variables de decisión. Su enfoque factoriza la distribución de probabilidad conjunta en el producto de distribuciones marginales multivariadas. Supongamos que es un conjunto de subconjuntos, en el que cada es un conjunto de vínculos, que contiene variables. La distribución de probabilidad conjunta factorizada se representa de la siguiente manera

La ECGA popularizó el término "aprendizaje de vínculos" como procedimientos que identifican conjuntos de vínculos. Su procedimiento de vinculación-aprendizaje se basa en dos medidas: (1) la Complejidad del Modelo (MC) y (2) la Complejidad de la Población Comprimida (CPC). El MC cuantifica el tamaño de la representación del modelo en términos de la cantidad de bits necesarios para almacenar todas las probabilidades marginales.

El CPC, por otro lado, cuantifica la compresión de datos en términos de entropía de la distribución marginal sobre todas las particiones, donde es el tamaño de la población seleccionada, es el número de variables de decisión en el conjunto de vínculos y es la entropía conjunta de las variables en

El aprendizaje de vínculos en ECGA funciona de la siguiente manera: (1) Inserte cada variable en un grupo, (2) calcule CCC = MC + CPC de los conjuntos de vínculos actuales, (3) verifique el aumento en CCC proporcionado al unir pares de grupos, (4) se une eficazmente a los grupos con mayor mejora de CCC. Este procedimiento se repite hasta que no es posible mejorar CCC y produce un modelo de vinculación . El ECGA trabaja con poblaciones concretas, por lo tanto, utilizando la distribución factorizada modelada por ECGA, se puede describir como

Algoritmo de optimización bayesiano (BOA)

El BOA [11] [12] [13] utiliza redes bayesianas para modelar y muestrear soluciones prometedoras. Las redes bayesianas son gráficos acíclicos dirigidos, con nodos que representan variables y bordes que representan probabilidades condicionales entre pares de variables. El valor de una variable puede estar condicionado a un máximo de otras variables, definidas en . BOA construye un PGM que codifica una distribución conjunta factorizada, en la que los parámetros de la red, es decir, las probabilidades condicionales, se estiman a partir de la población seleccionada utilizando el estimador de máxima verosimilitud.

La estructura de la red bayesiana, por otro lado, debe construirse de forma iterativa (aprendizaje de vínculos). Comienza con una red sin bordes y, en cada paso, agrega el borde que mejora mejor alguna métrica de puntuación (por ejemplo, criterio de información bayesiano (BIC) o métrica Bayesiana-Dirichlet con equivalencia de verosimilitud (BDe)). [14] La métrica de puntuación evalúa la estructura de la red de acuerdo con su precisión en el modelado de la población seleccionada. A partir de la red construida, BOA muestra nuevas soluciones prometedoras de la siguiente manera: (1) calcula el orden ancestral para cada variable, cada nodo está precedido por sus padres; (2) cada variable se muestrea condicionalmente a sus padres. Dado tal escenario, cada paso de BOA se puede definir como

Algoritmo genético de árbol de ligamiento (LTGA)

El LTGA [15] se diferencia de la mayoría de las EDA en el sentido de que no modela explícitamente una distribución de probabilidad, sino sólo un modelo de vinculación, llamado árbol de vinculación. Un vínculo es un conjunto de conjuntos de vínculos sin distribución de probabilidad asociada, por lo tanto, no hay forma de muestrear nuevas soluciones directamente . El modelo de vinculación es un árbol de vinculación producido y almacenado como una Familia de conjuntos (FOS).

El procedimiento de aprendizaje del árbol de vínculos es un algoritmo de agrupamiento jerárquico , que funciona de la siguiente manera. En cada paso se fusionan los dos grupos más cercanos y , este procedimiento se repite hasta que solo queda un grupo, cada subárbol se almacena como un subconjunto .

El LTGA utiliza para guiar un procedimiento de "mezcla óptima" que se asemeja a un operador de recombinación pero solo acepta movimientos de mejora. Lo denotamos como , donde la notación indica la transferencia del material genético indexado por de a .

Algoritmo Mezcla óptima de reserva genética Entrada: una familia de subconjuntos y una población. Salida: una población . para cada uno de tareas para cada uno de hacer elegir un azar  : = : = si luego regreso                 
  • "←" denota asignación . Por ejemplo, " más grandeartículo significa" que el valor de los mayores cambios en el valor del elemento .
  • " return " termina el algoritmo y genera el siguiente valor.

El LTGA no implementa operadores de selección típicos, en cambio, la selección se realiza durante la recombinación. Se han aplicado habitualmente ideas similares en heurísticas de búsqueda local y, en este sentido, el LTGA puede verse como un método híbrido. En resumen, un paso del LTGA se define como

Otro

  • Colectivos de probabilidad (PC) [16] [17]
  • Escalada con aprendizaje (HCwL) [18]
  • Estimación del algoritmo normal multivariante (EMNA) [ cita requerida ]
  • Estimación del algoritmo de redes bayesianas (EBNA) [ cita requerida ]
  • Escalada estocástica con aprendizaje por vectores de distribuciones normales (SHCLVND) [19]
  • PBIL con código real [ cita requerida ]
  • Algoritmo genético egoísta (SG) [20]
  • Evolución del diferencial compacto (cDE) [21] y sus variantes [22] [23] [24] [25] [26] [27]
  • Optimización del enjambre de partículas compactas (cPSO) [28]
  • Optimización compacta de búsqueda de bacterias (cBFO) [29]
  • Evolución probabilística incremental del programa (PIPE) [30]
  • Estimación del algoritmo de redes gaussianas (EGNA) [ cita requerida ]
  • Estimación del algoritmo normal multivariante con convergencia umbral [31]
  • Algoritmo genético de matriz de estructura de dependencia (DSMGA) [32] [33]

Relacionado

  • CMA-ES
  • Método de entropía cruzada

Referencias

  1. ^ Pelikan, Martin ( 21 de febrero de 2005 ), "Algoritmos genéticos de construcción de modelos probabilísticos", Algoritmo jerárquico de optimización bayesiana , Estudios sobre borrosidad y Soft Computing, 170 , Springer Berlin Heidelberg, págs. 13-30, doi : 10.1007 / 978 -3-540-32373-0_2 , ISBN 9783540237747
  2. ^ Pedro Larrañaga; José A. Lozano (2002). Estimación de algoritmos de distribución, una nueva herramienta para el cálculo evolutivo . Boston, MA: Springer EE. UU. ISBN 978-1-4615-1539-5.
  3. ^ José A. Lozano; Larrañaga, P .; Inza, I .; Bengoetxea, E. (2006). Hacia un nuevo cálculo evolutivo avanza en la estimación de algoritmos de distribución . Berlín: Springer. ISBN 978-3-540-32494-2.
  4. Pelikan, Martin; Sastry, Kumara; Cantú-Paz, Erick (2006). Optimización escalable mediante modelado probabilístico: desde algoritmos hasta aplicaciones; con 26 mesas . Berlín: Springer. ISBN 978-3540349532.
  5. ^ Mühlenbein, Heinz (1 de septiembre de 1997). "La ecuación de respuesta a la selección y su uso para la predicción" . Evol. Computación . 5 (3): 303–346. doi : 10.1162 / evco.1997.5.3.303 . ISSN 1063-6560 . PMID 10021762 .  
  6. ^ Baluja, Shummet (1 de enero de 1994). "Aprendizaje incremental basado en la población: un método para integrar la optimización de la función basada en la búsqueda genética y el aprendizaje competitivo" . Universidad de Carnegie mellon. Cite journal requiere |journal=( ayuda )
  7. ^ Harik, GR; Lobo, FG; Goldberg, DE (1999). "El algoritmo genético compacto". Transacciones IEEE sobre Computación Evolutiva . 3 (4): 287-297. doi : 10.1109 / 4235.797971 .
  8. ^ Bonet, Jeremy S. De; Isbell, Charles L .; Viola, Paul (1 de enero de 1996). "MIMIC: encontrar óptimos estimando densidades de probabilidad". Avances en los sistemas de procesamiento de información neuronal : 424. CiteSeerX 10.1.1.47.6497 . 
  9. Pelikan, Martin; Muehlenbein, Heinz (1 de enero de 1999). El algoritmo de distribución marginal bivariante . Avances en Soft Computing . págs. 521–535. CiteSeerX 10.1.1.55.1151 . doi : 10.1007 / 978-1-4471-0819-1_39 . ISBN  978-1-85233-062-0.
  10. ^ Harik, Georges Raif (1997). Aprendizaje de la vinculación genética para resolver de manera eficiente problemas de dificultad limitada utilizando algoritmos genéticos . Universidad de Michigan.
  11. Pelikan, Martin; Goldberg, David E .; Cantu-Paz, Erick (1 de enero de 1999). "BOA: el algoritmo de optimización bayesiano". Morgan Kaufmann: 525–532. CiteSeerX 10.1.1.46.8131 .  Cite journal requiere |journal=( ayuda )
  12. ^ Pelikan, Martin (2005). Algoritmo de optimización jerárquico bayesiano: hacia una nueva generación de algoritmos evolutivos (1ª ed.). Berlín [ua]: Springer. ISBN 978-3-540-23774-7.
  13. ^ Wolpert, David H .; Rajnarayan, Dev (1 de enero de 2013). "Uso del aprendizaje automático para mejorar la optimización estocástica" . Actas de la 17ª Conferencia AAAI sobre desarrollos de última hora en el campo de la inteligencia artificial . Aaaiws'13-17: 146-148.
  14. Larrañaga, Pedro; Karshenas, Hossein; Bielza, Concha; Santana, Roberto (21 de agosto de 2012). "Una revisión sobre modelos gráficos probabilísticos en computación evolutiva" . Revista de heurística . 18 (5): 795–819. doi : 10.1007 / s10732-012-9208-4 .
  15. ^ Thierens, Dirk (11 de septiembre de 2010). El algoritmo genético del árbol de ligamiento . Resolución de problemas paralelos desde la naturaleza, PPSN XI . págs. 264-273. doi : 10.1007 / 978-3-642-15844-5_27 . ISBN 978-3-642-15843-8.
  16. ^ WOLPERT, DAVID H .; STRAUSS, CHARLIE EM; RAJNARAYAN, DEV (diciembre de 2006). "Avances en optimización distribuida mediante colectivos de probabilidad". Avances en sistemas complejos . 09 (4): 383–436. CiteSeerX 10.1.1.154.6395 . doi : 10.1142 / S0219525906000884 . 
  17. Pelikan, Martin; Goldberg, David E .; Lobo, Fernando G. (2002). "Una encuesta de optimización mediante la construcción y el uso de modelos probabilísticos". Optimización Computacional y Aplicaciones . 21 (1): 5-20. doi : 10.1023 / A: 1013500812258 .
  18. ^ Rudlof, Stephan; Köppen, Mario (1997). "Escalada estocástica con aprendizaje por vectores de distribuciones normales". CiteSeerX 10.1.1.19.3536 .  Cite journal requiere |journal=( ayuda )
  19. ^ Rudlof, Stephan; Köppen, Mario (1997). "Escalada estocástica con aprendizaje por vectores de distribuciones normales": 60––70. CiteSeerX 10.1.1.19.3536 .  Cite journal requiere |journal=( ayuda )
  20. ^ Corno, Fulvio; Reorda, Matteo Sonza; Squillero, Giovanni (27 de febrero de 1998). El algoritmo del gen egoísta: una nueva estrategia de optimización evolutiva . ACM. págs. 349–355. doi : 10.1145 / 330560.330838 . ISBN 978-0897919692.
  21. ^ Mininno, Ernesto; Neri, Ferrante; Cupertino, Francesco; Naso, David (2011). "Evolución del diferencial compacto". Transacciones IEEE sobre Computación Evolutiva . 15 (1): 32–54. doi : 10.1109 / tevc.2010.2058120 . ISSN 1089-778X . 
  22. Iacca, Giovanni; Caraffini, Fabio; Neri, Ferrante (2012). "Luz compacta de evolución diferencial: alto rendimiento a pesar de los requisitos de memoria limitados y la sobrecarga computacional modesta". Revista de Ciencias y Tecnología de la Computación . 27 (5): 1056–1076. doi : 10.1007 / s11390-012-1284-2 . ISSN 1000-9000 . 
  23. Iacca, Giovanni; Neri, Ferrante; Mininno, Ernesto (2011), "Aprendizaje basado en la oposición en la evolución diferencial compacta", Aplicaciones de la computación evolutiva , Springer Berlin Heidelberg, págs. 264-273, doi : 10.1007 / 978-3-642-20525-5_27 , ISBN 9783642205248
  24. ^ Mallipeddi, Rammohan; Iacca, Giovanni; Suganthan, Ponnuthurai Nagaratnam; Neri, Ferrante; Mininno, Ernesto (2011). Estrategias de conjunto en Evolución Diferencial Compacta . 2011 Congreso IEEE de Computación Evolutiva (CEC) . IEEE. doi : 10.1109 / cec.2011.5949857 . ISBN 9781424478347.
  25. ^ Neri, Ferrante; Iacca, Giovanni; Mininno, Ernesto (2011). "Evolución diferencial compacta de explotación perturbada para problemas de optimización de memoria limitada". Ciencias de la información . 181 (12): 2469–2487. doi : 10.1016 / j.ins.2011.02.004 . ISSN 0020-0255 . 
  26. Iacca, Giovanni; Mallipeddi, Rammohan; Mininno, Ernesto; Neri, Ferrante; Suganthan, Pannuthurai Nagaratnam (2011). Supervisión global para la Evolución Diferencial compacta . Simposio IEEE 2011 sobre Evolución Diferencial (SDE) . IEEE. doi : 10.1109 / sde.2011.5952051 . ISBN 9781612840710.
  27. Iacca, Giovanni; Mallipeddi, Rammohan; Mininno, Ernesto; Neri, Ferrante; Suganthan, Pannuthurai Nagaratnam (2011). Super-ajuste y reducción del tamaño de la población en la evolución diferencial compacta . 2011 Taller IEEE sobre Computación Memética (MC) . IEEE. doi : 10.1109 / mc.2011.5953633 . ISBN 9781612840659.
  28. ^ Neri, Ferrante; Mininno, Ernesto; Iacca, Giovanni (2013). "Optimización del enjambre de partículas compactas". Ciencias de la información . 239 : 96-121. doi : 10.1016 / j.ins.2013.03.026 . ISSN 0020-0255 . 
  29. Iacca, Giovanni; Neri, Ferrante; Mininno, Ernesto (2012), "Optimización de forrajeo bacteriano compacto", Swarm and Evolutionary Computation , Springer Berlin Heidelberg, págs. 84–92, doi : 10.1007 / 978-3-642-29353-5_10 , ISBN 9783642293528
  30. ^ Salustowicz, nulo; Schmidhuber, null (1997). "Evolución probabilística incremental del programa" . Computación evolutiva . 5 (2): 123-141. doi : 10.1162 / evco.1997.5.2.123 . ISSN 1530-9304 . PMID 10021756 .  
  31. ^ Tamayo-Vera, Dania; Bolufe-Rohler, Antonio; Chen, Stephen (2016). Estimación del algoritmo normal multivariante con convergencia umbral . Congreso IEEE 2016 sobre Computación Evolutiva (CEC) . IEEE. doi : 10.1109 / cec.2016.7744223 . ISBN 9781509006236.
  32. ^ Yu, Tian-Li; Goldberg, David E .; Yassine, Ali; Chen, Ying-Ping (2003), "Diseño de algoritmos genéticos inspirados por la teoría organizacional: estudio piloto de un algoritmo genético impulsado por matrices de estructuras de dependencia", Computación genética y evolutiva - GECCO 2003 , Springer Berlin Heidelberg, págs. 1620-1621, doi : 10.1007 / 3-540-45110-2_54 , ISBN 9783540406037
  33. ^ Hsu, Shih-Huan; Yu, Tian-Li (11 de julio de 2015). Optimización mediante detección de enlace por pares, conjunto de enlace incremental y mezcla restringida / inversa: DSMGA-II . ACM. págs. 519–526. arXiv : 1807.11669 . doi : 10.1145 / 2739480.2754737 . ISBN 9781450334723.
Obtenido de " https://en.wikipedia.org/w/index.php?title=Estimation_of_distribution_algorithm&oldid=994861548 "