Método de actualización de peso multiplicativo

El método de actualización de pesos multiplicativos es una técnica algorítmica más comúnmente utilizada para la toma de decisiones y la predicción, y también ampliamente implementada en la teoría de juegos y el diseño de algoritmos. El caso de uso más simple es el problema de la predicción a partir del asesoramiento de un experto, en el que un responsable de la toma de decisiones debe decidir iterativamente sobre un experto cuyo consejo seguir. El método asigna ponderaciones iniciales a los expertos (normalmente ponderaciones iniciales idénticas) y actualiza estas ponderaciones de forma multiplicativa e iterativa de acuerdo con la retroalimentación de qué tan bien se desempeñó un experto: reduciéndola en caso de desempeño deficiente y aumentándola en caso contrario. ^[1] Se descubrió repetidamente en campos muy diversos, como el aprendizaje automático ( AdaBoost , Winnow, Hedge), optimización (resolución de programas lineales ), informática teórica (diseño de algoritmos rápidos para LP y SDP ) y teoría de juegos .

Nombre

"Pesos multiplicativos" implica la regla iterativa utilizada en los algoritmos derivados del método de actualización del peso multiplicativo. ^[2] Se le da con diferentes nombres en los diferentes campos donde fue descubierto o redescubierto.

Historia y antecedentes

La primera versión conocida de esta técnica estaba en un algoritmo llamado " juego ficticio " que se propuso en la teoría de juegos a principios de la década de 1950. Grigoriadis y Khachiyan ^[3] aplicaron una variante aleatoria de "juego ficticio" para resolver juegos de suma cero de dos jugadores de manera eficiente utilizando el algoritmo de pesos multiplicativos. En este caso, el jugador asigna mayor peso a las acciones que tuvieron un mejor resultado y elige su estrategia basándose en estos pesos. En el aprendizaje automático , Littlestone aplicó la forma más temprana de la regla de actualización de pesos multiplicativos en su famoso algoritmo de aventar , que es similar al algoritmo de aprendizaje de perceptrones anterior de Minsky y Papert . Más tarde, generalizó el algoritmo de aventar al algoritmo de mayoría ponderada. Freund y Schapire siguieron sus pasos y generalizaron el algoritmo de aventar en forma de algoritmo de cobertura.

El algoritmo de pesos multiplicativos también se aplica ampliamente en geometría computacional , como el algoritmo de Kenneth Clarkson para programación lineal (LP) con un número limitado de variables en tiempo lineal. ^[4]^[5] Más tarde, Bronnimann y Goodrich emplearon métodos análogos para encontrar cubiertas de conjuntos para hipergráficos con pequeñas dimensiones de VC . ^[6]

En el campo de problemas de investigación de operaciones y toma de decisiones estadísticas en línea, el algoritmo de mayoría ponderada y sus versiones más complicadas se han encontrado de forma independiente.

En el campo de la informática, algunos investigadores han observado previamente las estrechas relaciones entre los algoritmos de actualización multiplicativa utilizados en diferentes contextos. Young descubrió las similitudes entre los algoritmos LP rápidos y el método de estimadores pesimistas de Raghavan para la desaleatorización de los algoritmos de redondeo aleatorios; Klivans y Servedio vincularon los algoritmos de impulso en la teoría del aprendizaje a las pruebas del XOR Lemma de Yao; Garg y Khandekar definieron un marco común para problemas de optimización convexa que contiene a Garg-Konemann y Plotkin-Shmoys-Tardos como subcasas. ^[1]

Configuración general

Se debe tomar una decisión binaria basada en las opiniones de n expertos para lograr una recompensa asociada. En la primera ronda, todas las opiniones de los expertos tienen el mismo peso. El tomador de decisiones tomará la primera decisión basándose en la mayoría de las predicciones de los expertos. Luego, en cada ronda sucesiva, el tomador de decisiones actualizará repetidamente el peso de la opinión de cada experto en función de la exactitud de sus predicciones anteriores. Los ejemplos de la vida real incluyen predecir si llueve mañana o si el mercado de valores subirá o bajará.

Análisis de algoritmos

Algoritmo de reducción a la mitad ^[2]

Dado un juego secuencial entre un adversario y un agregador asesorado por N expertos, el objetivo es que el agregador cometa la menor cantidad de errores posible. Suponga que hay un experto entre los N expertos que siempre da la predicción correcta. En el algoritmo de reducción a la mitad, solo se retienen los expertos consistentes. Los expertos que cometan errores serán despedidos. Para cada decisión, el agregador decide por mayoría de votos entre los expertos restantes. Por lo tanto, cada vez que el agregador comete un error, al menos la mitad de los expertos restantes son despedidos. El agregador comete como máximo errores de $log 2 (N)$ . ^[2]

Algoritmo de mayoría ponderada ^[1]^[7]

A diferencia del algoritmo de reducción a la mitad que descarta a los expertos que han cometido errores, el algoritmo de mayoría ponderada descarta sus consejos. Dada la misma configuración de "asesoramiento de expertos", suponga que tenemos n decisiones y necesitamos seleccionar una decisión para cada ciclo. En cada ciclo, cada decisión tiene un costo. Todos los costos se revelarán después de realizar la elección. El costo es 0 si el experto tiene razón y 1 en caso contrario. El objetivo de este algoritmo es limitar sus pérdidas acumulativas a aproximadamente lo mismo que el mejor de los expertos. El primer algoritmo que toma decisiones basadas en el voto de la mayoría en cada iteración no funciona, ya que la mayoría de los expertos pueden equivocarse constantemente en todo momento. El algoritmo de mayoría ponderada corrige el algoritmo trivial anterior manteniendo un peso de expertos en lugar de fijar el costo en 1 o 0. ^[1] Esto cometería menos errores en comparación con el algoritmo de reducción a la mitad.

 Inicialización : Arreglar un  ${\ Displaystyle \ eta \ leq 1/2}$ . Para cada experto, asocie el peso ${\ Displaystyle {w_ {i}} ^ {1}}$ ≔1. Para  ${\ Displaystyle t}$  =  ${\ Displaystyle {\ mathit {1}}}$ ,  ${\ Displaystyle {\ mathit {2}}}$ , ..., ${\ Displaystyle T}$  1 . Realice la predicción dada por la mayoría ponderada de las predicciones de los expertos en función de sus ponderaciones. ${\ Displaystyle \ mathbb {w_ {1}} ^ {t}, ..., \ mathbb {w_ {n}} ^ {t}}$ . Es decir, elegir 0 o 1 dependiendo de qué predicción tenga un mayor peso total de expertos que la aconsejen (rompiendo empates de forma arbitraria). 2 . Por cada experto i que predijo incorrectamente, disminuya su peso para la siguiente ronda multiplicándolo por un factor de (1-η):  ${\ Displaystyle w_ {i} ^ {t + 1}}$ = ${\ Displaystyle (1- \ eta) w_ {i} ^ {t}}$  (regla de actualización)

Si ${\ Displaystyle \ eta = 0}$ , el peso del consejo del experto seguirá siendo el mismo. Cuándo ${\ Displaystyle \ eta}$ aumenta, el peso de los consejos del experto disminuirá. Tenga en cuenta que algunos investigadores corrigen ${\ Displaystyle \ eta = 1/2}$ en el algoritmo de mayoría ponderada.

Después ${\ Displaystyle T}$ pasos, deja ${\ Displaystyle m_ {i} ^ {T}}$ sea el número de errores del experto i y ${\ Displaystyle M ^ {T}}$ sea el número de errores que ha cometido nuestro algoritmo. Entonces tenemos el siguiente límite para cada ${\ Displaystyle i}$ :

  ${\ Displaystyle M ^ {T} \ leq 2 (1+ \ eta) m_ {i} ^ {T} + {\ frac {2 \ ln (n)} {\ eta}}}$ .

En particular, esto es válido para i, que es el mejor experto. Dado que el mejor experto tendrá menos ${\ Displaystyle m_ {i} ^ {T}}$ , dará el mejor límite sobre el número de errores cometidos por el algoritmo en su conjunto.

Algoritmo de mayoría ponderada aleatoria ^[2]^[8]

Dada la misma configuración con N expertos. Considere la situación especial en la que las proporciones de expertos que predicen positivos y negativos, contando los pesos, se acercan al 50%. Entonces, podría haber un empate. Siguiendo la regla de actualización del peso en el algoritmo de mayoría ponderada, las predicciones realizadas por el algoritmo serían aleatorias. El algoritmo calcula las probabilidades de los expertos que predicen positivos o negativos, y luego toma una decisión aleatoria basada en la fracción calculada:

predecir

{\ displaystyle f (x) = {\ begin {cases} 1 & {\ text {con probabilidad}} {\ frac {q_ {1}} {W}} \\ 0 & {\ text {de lo contrario}} \ end {cases }}}

dónde

  ${\ Displaystyle W = \ sum _ {i} {w_ {i}} = q_ {0} + q_ {1}}$ .

El número de errores cometidos por el algoritmo de mayoría ponderada aleatoria se limita a:

  ${\ displaystyle E \ left [\ # {\ text {errores del alumno}} \ right] \ leq \ alpha _ {\ beta} \ left (\ # {\ text {errores del mejor experto}} \ right) + c _ {\ beta} \ ln (N)}$

dónde ${\ Displaystyle \ alpha _ {\ beta} = {\ frac {\ ln ({\ frac {1} {\ beta}})} {1- \ beta}}}$ y ${\ Displaystyle c _ {\ beta} = {\ frac {1} {1- \ beta}}}$ .

Tenga en cuenta que solo el algoritmo de aprendizaje es aleatorio. El supuesto subyacente es que los ejemplos y las predicciones de los expertos no son aleatorios. La única aleatoriedad es la aleatoriedad en la que el alumno hace su propia predicción. En este algoritmo aleatorio, ${\ Displaystyle \ alpha _ {\ beta} \ rightarrow 1}$ Si ${\ Displaystyle \ beta \ rightarrow 1}$ . En comparación con el algoritmo ponderado, esta aleatoriedad redujo a la mitad el número de errores que va a cometer el algoritmo. ^[9] Sin embargo, es importante tener en cuenta que en algunas investigaciones, las personas definen ${\ Displaystyle \ eta = 1/2}$ en el algoritmo de mayoría ponderada y permitir ${\ Displaystyle 0 \ leq \ eta \ leq 1}$ en el algoritmo de mayoría ponderada aleatoria . ^[2]

Aplicaciones

El método de pesos multiplicativos se usa generalmente para resolver un problema de optimización restringido. Deje que cada experto sea la restricción en el problema y los eventos representen los puntos en el área de interés. El castigo del experto corresponde a qué tan bien se satisface su correspondiente restricción en el punto representado por un evento. ^[1]

Resolviendo juegos de suma cero aproximadamente (algoritmo de Oracle): ^[1]^[9]

Supongamos que nos dieron la distribución ${\ Displaystyle P}$ en expertos. Dejar ${\ Displaystyle A}$ = matriz de pagos de un juego finito de suma cero de dos jugadores, con ${\ Displaystyle n}$ filas.

Cuando el jugador de la fila ${\ Displaystyle p_ {r}}$ plan de usos ${\ Displaystyle i}$ y el jugador de la columna ${\ Displaystyle p_ {c}}$ plan de usos ${\ Displaystyle j}$ , la recompensa del jugador ${\ Displaystyle p_ {c}}$ es ${\ Displaystyle A \ left (i, j \ right)}$ ≔ ${\ Displaystyle A_ {ij}}$ , asumiendo ${\ Displaystyle A \ left (i, j \ right) \ in \ left [0,1 \ right]}$ .

Si jugador ${\ Displaystyle p_ {r}}$ elige acción ${\ Displaystyle i}$ de una distribución ${\ Displaystyle P}$ sobre las filas, luego el resultado esperado para el jugador ${\ Displaystyle p_ {c}}$ seleccionando acción ${\ Displaystyle j}$ es ${\ Displaystyle A \ left (P, j \ right) = E_ {i \ in P} \ left [A \ left (i, j \ right) \ right]}$ .

Para maximizar ${\ Displaystyle A \ left (P, j \ right)}$ , jugador ${\ Displaystyle p_ {c}}$ debería elegir plan ${\ Displaystyle j}$ . Del mismo modo, la recompensa esperada para el jugador ${\ Displaystyle p_ {l}}$ es ${\ Displaystyle A \ left (i, P \ right) = E_ {j \ in P} \ left [A \ left (i, j \ right) \ right]}$ . Elegir plan ${\ Displaystyle i}$ minimizaría esta recompensa. Por el teorema Min-Max de John Von Neumann, obtenemos:

  ${\ Displaystyle \ min _ {P} \ max _ {j} A \ left (P, j \ right) = \ max _ {Q} \ min _ {i} A \ left (i, Q \ right)}$

donde P e i cambian sobre las distribuciones sobre filas, Q yj cambian sobre las columnas.

Entonces, deja ${\ Displaystyle \ lambda ^ {*}}$ denotar el valor común de las cantidades anteriores, también denominado como el "valor del juego". Dejar ${\ Displaystyle \ delta> 0}$ ser un parámetro de error. Para resolver el juego de suma cero limitado por el error aditivo de ${\ Displaystyle \ delta}$ ,

  ${\ Displaystyle \ lambda ^ {*} - \ delta \ leq \ min _ {i} A \ left (i, q \ right)}$   ${\ Displaystyle \ max _ {j} A \ left (p, j \ right) \ leq \ lambda ^ {*} + \ delta}$

Entonces, hay un algoritmo que resuelve un juego de suma cero hasta un factor aditivo de δ usando O ( $log 2 (n)$ / ${\ Displaystyle \ delta ^ {2}}$ ) llamadas a ORACLE, con un tiempo de procesamiento adicional de O (n) por llamada ^[9]

Bailey y Piliouras demostraron que, aunque el comportamiento promedio en el tiempo de la actualización de los pesos multiplicativos converge a los equilibrios de Nash en los juegos de suma cero, el comportamiento del día a día (última iteración) se aleja de él. ^[10]

Aprendizaje automático

En el aprendizaje automático, Littlestone y Warmuth generalizaron el algoritmo de aventar al algoritmo de mayoría ponderada. ^[11] Más tarde, Freund y Schapire lo generalizaron en forma de algoritmo de cobertura. ^{[12] El} algoritmo AdaBoost formulado por Yoav Freund y Robert Schapire también empleó el método de actualización de peso multiplicativo. ^[1]

Algoritmo de aventar

Basado en el conocimiento actual en algoritmos, el método de actualización de peso multiplicativo se utilizó por primera vez en el algoritmo de aventar de Littlestone. ^[1] Se utiliza en aprendizaje automático para resolver un programa lineal.

Dado ${\ Displaystyle m}$ ejemplos etiquetados ${\ Displaystyle \ left (a_ {1}, l_ {1} \ right), {\ text {…}}, \ left (a_ {m}, l_ {m} \ right)}$ dónde ${\ Displaystyle a_ {j} \ in \ mathbb {R} ^ {n}}$ son vectores de características, y ${\ Displaystyle l_ {j} \ in \ left \ {- 1,1 \ right \} \ quad}$ son sus etiquetas.

El objetivo es encontrar ponderaciones no negativas de modo que, para todos los ejemplos, el signo de la combinación ponderada de las características coincida con sus etiquetas. Es decir, exigir que ${\ Displaystyle l_ {j} a_ {j} x \ geq 0}$ para todos ${\ Displaystyle j}$ . Sin pérdida de generalidad, suponga que el peso total es 1 para que formen una distribución. Por lo tanto, por conveniencia de notación, redefina ${\ Displaystyle a_ {j}}$ ser - estar ${\ Displaystyle l_ {j} a_ {j}}$ , el problema se reduce a encontrar una solución al siguiente LP:

  ${\ Displaystyle \ forall j = 1,2, {\ text {…}}, m: a_ {j} x \ geq 0}$ ,  ${\ Displaystyle 1 * x = 1}$ ,  ${\ Displaystyle \ forall i: x_ {i} \ geq 0}$ .

Esta es una forma general de LP.

Algoritmo de cobertura ^[2]

El algoritmo de cobertura es similar al algoritmo de mayoría ponderada. Sin embargo, sus reglas de actualización exponencial son diferentes. ^[2] Generalmente se usa para resolver el problema de la asignación binaria en la que necesitamos asignar diferentes porciones de recursos en N opciones diferentes. La pérdida con cada opción está disponible al final de cada iteración. El objetivo es reducir la pérdida total sufrida por una asignación en particular. A continuación, se revisa la asignación para la siguiente iteración, en función de la pérdida total sufrida en la iteración actual mediante la actualización multiplicativa. ^[13]

Análisis

Asume la tasa de aprendizaje ${\ Displaystyle \ eta> 0}$ y para ${\ Displaystyle t \ en [T]}$ , ${\ Displaystyle p ^ {t}}$ es elegido por Hedge. Entonces para todos los expertos ${\ Displaystyle i}$ ,

  ${\ Displaystyle \ sum _ {t \ leq T} p ^ {t} m ^ {t} \ leq \ sum _ {t \ leq T} m_ {i} ^ {t} + {\ frac {\ ln (N )} {\ eta}} + \ eta T}$

Inicialización : corrige un ${\ Displaystyle \ eta> 0}$ . Para cada experto, asocie el peso ${\ Displaystyle w_ {i} ^ {1}}$ ≔1 Para t = 1,2, ..., T:

 1. Elija la distribución  ${\ Displaystyle p_ {i} ^ {t} = {\ frac {w_ {i} ^ {t}} {\ Phi t}}}$  dónde  ${\ Displaystyle \ Phi t = \ sum _ {i} w_ {i} ^ {t}}$ . 2. Observe el costo de la decisión.  ${\ Displaystyle m ^ {t}}$ .  3. Establecer   ${\ Displaystyle w_ {i} ^ {t + 1} = w_ {i} ^ {t} \ exp (- \ eta m_ {i} ^ {t}}$ ).

Algoritmo AdaBoost

Este algoritmo ^[12] mantiene un conjunto de pesos ${\ Displaystyle w ^ {t}}$ sobre los ejemplos de formación. En cada iteración ${\ Displaystyle t}$ , una distribución ${\ Displaystyle p ^ {t}}$ se calcula normalizando estos pesos. Esta distribución se alimenta al aprendiz débil WeakLearn que genera una hipótesis ${\ Displaystyle h_ {t}}$ que (con suerte) tiene un pequeño error con respecto a la distribución. Usando la nueva hipótesis ${\ Displaystyle h_ {t}}$ , AdaBoost genera el siguiente vector de peso ${\ Displaystyle w ^ {t + 1}}$ . El proceso se repite. Después de T tales iteraciones, la hipótesis final ${\ Displaystyle h_ {f}}$ es la salida. La hipótesis ${\ Displaystyle h_ {f}}$ combina los resultados de las hipótesis T débiles utilizando un voto mayoritario ponderado. ^[12]

Entrada : Secuencia de  ${\ Displaystyle N}$  ejemplos etiquetados ${\ Displaystyle x_ {1}}$ , ${\ Displaystyle y_ {1}}$ ), ..., ( ${\ Displaystyle x_ {N}}$ ,  ${\ Displaystyle y_ {N}}$ ) Distribución  ${\ Displaystyle D}$  sobre el  ${\ Displaystyle N}$  ejemplos Algoritmo de aprendizaje débil "'WeakLearn"' Entero  ${\ Displaystyle T}$ especificar el número de iteraciones Inicializar el vector de peso: ${\ Displaystyle w_ {i} ^ {1} = D (i)}$  por  ${\ Displaystyle i = 1}$ , ...,  ${\ Displaystyle N}$ .Hacer para  ${\ Displaystyle t = 1}$ , ...,  ${\ Displaystyle N}$  1 . Colocar ${\ Displaystyle p ^ {t} = {\ frac {w ^ {t}} {\ sum _ {i = 1} ^ {N} w_ {i} ^ {t}}}}$ . 2 . Llame a WeakLearn , proporcionándole la distribución ${\ Displaystyle p ^ {t}}$ ; recuperar una hipótesis ${\ displaystyle h_ {t}: X \ rightarrow}$ [0,1]. 3 . Calcule el error de ${\ Displaystyle h_ {t}: \ epsilon _ {t} = \ sum _ {i = 1} ^ {N} p_ {i} ^ {t}}$ | ${\ Displaystyle h_ {t} (x_ {i})}$ . 4 . Colocar ${\ Displaystyle \ beta _ {t} = {\ frac {\ epsilon _ {t}} {1- \ epsilon _ {t}}}}$ . 5 . Establezca el nuevo vector de peso para que sea ${\ Displaystyle w_ {i} ^ {t + 1} = w_ {i} ^ {t} \ beta _ {t} ^ {1- | h_ {t} (x_ {i}) - y_ {i} |} }$ .Genere la hipótesis:

  ${\ Displaystyle f (x) = {\ begin {cases} 1 & {\ text {if}} \ sum _ {t = 1} ^ {T} \ log (1 / \ beta _ {t}) h_ {t} (x) \ geq {\ frac {1} {2}} \ sum _ {t = 1} ^ {T} \ log (1 / \ beta _ {t}) {\ frac {q_ {1}} {W }} \\ 0 & {\ text {de lo contrario}} \ end {cases}}}$

Resolviendo programas lineales aproximadamente ^[14]

Problema

Dado un ${\ Displaystyle m \ times n}$ matriz ${\ Displaystyle A}$ y ${\ Displaystyle b \ in \ mathbb {R} ^ {n}}$ , Hay una ${\ Displaystyle x}$ tal que ${\ Displaystyle Ax \ geq b}$ ?

  ${\ Displaystyle \ existe? x: Ax \ geq b}$  (1)

Suposición

Usando el algoritmo de Oracle para resolver un problema de suma cero, con un parámetro de error ${\ Displaystyle \ epsilon> 0}$ , la salida sería un punto ${\ Displaystyle x}$ tal que ${\ Displaystyle Ax \ geq b- \ epsilon}$ o una prueba de que ${\ Displaystyle x}$ no existe, es decir, no hay solución para este sistema lineal de desigualdades.

Solución

Vector dado ${\ Displaystyle p \ in \ Delta _ {n}}$ , resuelve el siguiente problema relajado

  ${\ Displaystyle \ existe? x: p ^ {\ textsf {T}} \! \! Ax \ geq p ^ {\ textsf {T}} \! b}$  (2)

Si existe ax que satisface (1), entonces x satisface (2) para todos ${\ Displaystyle p \ in \ Delta _ {n}}$ . Lo contrario de esta afirmación también es cierto. Suponga que si Oracle devuelve una solución factible para un ${\ Displaystyle p}$ , la solución ${\ Displaystyle x}$ devuelve tiene un ancho acotado ${\ Displaystyle \ max _ {i} | {(Ax)} _ {i} -b_ {i} | \ leq 1}$ . Entonces, si hay una solución para (1), entonces hay un algoritmo que su salida x satisface el sistema (2) hasta un error aditivo de ${\ Displaystyle 2 \ epsilon}$ . El algoritmo hace como máximo ${\ Displaystyle {\ frac {\ ln (m)} {\ epsilon ^ {2}}}}$ llamadas a un oráculo de ancho limitado para el problema (2). Lo contrapositivo también es cierto. Las actualizaciones multiplicativas se aplican en el algoritmo en este caso.

Otras aplicaciones

Teoría de juegos evolutivos

La actualización de pesos multiplicativos es la variante en tiempo discreto de la ecuación del replicador (dinámica del replicador), que es un modelo de uso común en la teoría de juegos evolutivos . Converge al equilibrio de Nash cuando se aplica a un juego de congestión . ^[15]

Investigación operativa y toma de decisiones estadísticas en línea ^[1]

En el campo de problemas de investigación de operaciones y toma de decisiones estadísticas en línea, el algoritmo de mayoría ponderada y sus versiones más complicadas se han encontrado de forma independiente.

Geometría Computacional

El algoritmo de pesos multiplicativos también se aplica ampliamente en geometría computacional , ^[1] como el algoritmo de Clarkson para programación lineal (LP) con un número limitado de variables en tiempo lineal. ^[4]^[5] Más tarde, Bronnimann y Goodrich emplearon métodos análogos para encontrar Cubiertas de conjuntos para hipergráficos con una pequeña dimensión de VC . ^[6]

Método de descenso de gradiente ^[1]

Actualización de pesos multiplicativos de matrices ^[1]

Plotkin, Shmoys, Tardos estructura para empaquetar / cubrir LPs ^[1]

Aproximación a los problemas de flujo de múltiples productos básicos ^[1]

O (logn) - aproximación para muchos problemas NP-difíciles ^[1]

Aprendizaje teórico y refuerzo ^[1]

Conjuntos estrictos y el lema XOR ^[1]

Algoritmo de Hannan y pesos multiplicativos ^[1]

Optimización convexa en línea ^[1]

Referencias

^ a b c d e f g h i j k l m n o p q r s Arora, Sanjeev ; Hazan, Elad; Kale, Satyen (2012). "El método de actualización de pesos multiplicativos: un meta-algoritmo y aplicaciones" . Teoría de la Computación . 8 : 121-164. doi : 10.4086 / toc.2012.v008a006 .
^ a b c d e f g "El algoritmo de pesos multiplicativos *" (PDF) . Consultado el 9 de noviembre de 2016 .
^ Grigoriadis, Michael D .; Khachiyan, Leonid G. (1995). "Un algoritmo de aproximación aleatorizado en tiempo sublineal para juegos matriciales". Cartas de investigación operativa . 18 (2): 53–58. doi : 10.1016 / 0167-6377 (95) 00032-0 .
^ a b Kenneth L. Clarkson. Un algoritmo de Las Vegas para programación lineal cuando la dimensión es pequeña. , En Proc. 29th FOCS, págs. 452–456. IEEE Comp. Soc. Press, 1988. [doi: 10.1109 / SFCS.1988.21961] 123, 152.
^ a b Kenneth L. Clarkson. Un algoritmo de Las Vegas para programación lineal y entera cuando la dimensión es pequeña. , Journal of the ACM, 42: 488–499, 1995. [doi: 10.1145 / 201019.201036] 123, 152.
^ a b H. Bronnimann y MT Goodrich. Cubiertas de juego casi óptimas en dimensión VC finita. , Computación discreta. Geom. , 14: 463–479, 1995. Versión preliminar en 10th Ann. Symp. Comp. Geom. (SCG'94). [doi: 10.1007 / BF02570718] 123, 152
^ "Lección 8: Toma de decisiones bajo incertidumbre total: el algoritmo de ponderación multiplicativa" (PDF) . 2013.
^ "COS 511: Fundamentos del aprendizaje automático" (PDF) . 20 de marzo de 2006.
^ a b c "Kit de herramientas de un algoritmo" . 8 de diciembre de 2009 . Consultado el 9 de noviembre de 2016 .
^ Bailey, James P. y Georgios Piliouras. "Actualización de pesos multiplicativos en juegos de suma cero". Actas de la Conferencia ACM 2018 sobre Economía y Computación. ACM, 2018.
^ Foster, Dean P .; Vohra, Rakesh (1999). "Lamento en el problema de decisión en línea" (PDF) . Juegos y comportamiento económico . 29 (1–2): 7–35. doi : 10.1006 / juego.1999.0740 .
^ a b c Yoav, Freund. Robert, E. Schapire (1996). TA Generalización de la teoría de la decisión del aprendizaje en línea y una aplicación para impulsar * , p. 55. Revista de ciencias informáticas y de sistemas.
^ "Aprendizaje en línea de expertos: mayoría ponderada y cobertura" (PDF) . Consultado el 7 de diciembre de 2016 .
^ "Fundamentos de la optimización convexa" (PDF) . Consultado el 9 de noviembre de 2016 .
^ Kleinberg, Robert, Georgios Piliouras y Eva Tardos. "Las actualizaciones multiplicativas superan el aprendizaje genérico sin arrepentimiento en los juegos de congestión". Actas del cuadragésimo primer simposio anual ACM sobre teoría de la computación. ACM, 2009.

enlaces externos

The Game Theory of Life en un artículo de la revista Quanta que describe el uso del método para la biología evolutiva en un artículo de Erick Chastain, Adi Livnat, Christos Papadimitriou y Umesh Vazirani

[ref1-1] ^ a b c d e f g h i j k l m n o p q r s Arora, Sanjeev ; Hazan, Elad; Kale, Satyen (2012). "El método de actualización de pesos multiplicativos: un meta-algoritmo y aplicaciones" . Teoría de la Computación . 8 : 121-164. doi : 10.4086 / toc.2012.v008a006 .

[ref2-2] "El algoritmo de pesos multiplicativos *" (PDF) . Consultado el 9 de noviembre de 2016 .

[3] Grigoriadis, Michael D .; Khachiyan, Leonid G. (1995). "Un algoritmo de aproximación aleatorizado en tiempo sublineal para juegos matriciales". Cartas de investigación operativa . 18 (2): 53–58. doi : 10.1016 / 0167-6377 (95) 00032-0 .

[Kenneth_L._Clarkson_pp._452-4] Kenneth L. Clarkson. Un algoritmo de Las Vegas para programación lineal cuando la dimensión es pequeña. , En Proc. 29th FOCS, págs. 452–456. IEEE Comp. Soc. Press, 1988. [doi: 10.1109 / SFCS.1988.21961] 123, 152.

[Kenneth_L._Clarkson_1995-5] Kenneth L. Clarkson. Un algoritmo de Las Vegas para programación lineal y entera cuando la dimensión es pequeña. , Journal of the ACM, 42: 488–499, 1995. [doi: 10.1145 / 201019.201036] 123, 152.

[M.T._GOODRICH._1995-6] H. Bronnimann y MT Goodrich. Cubiertas de juego casi óptimas en dimensión VC finita. , Computación discreta. Geom. , 14: 463–479, 1995. Versión preliminar en 10th Ann. Symp. Comp. Geom. (SCG'94). [doi: 10.1007 / BF02570718] 123, 152

[ref5-7] "Lección 8: Toma de decisiones bajo incertidumbre total: el algoritmo de ponderación multiplicativa" (PDF) . 2013.

[ref6-8] "COS 511: Fundamentos del aprendizaje automático" (PDF) . 20 de marzo de 2006.

[ref7-9] "Kit de herramientas de un algoritmo" . 8 de diciembre de 2009 . Consultado el 9 de noviembre de 2016 .

[Bailey_and_Piliouras_EC18-10] Bailey, James P. y Georgios Piliouras. "Actualización de pesos multiplicativos en juegos de suma cero". Actas de la Conferencia ACM 2018 sobre Economía y Computación. ACM, 2018.

[11] Foster, Dean P .; Vohra, Rakesh (1999). "Lamento en el problema de decisión en línea" (PDF) . Juegos y comportamiento económico . 29 (1–2): 7–35. doi : 10.1006 / juego.1999.0740 .

[ref8-12] Yoav, Freund. Robert, E. Schapire (1996). TA Generalización de la teoría de la decisión del aprendizaje en línea y una aplicación para impulsar * , p. 55. Revista de ciencias informáticas y de sistemas.

[ref16-13] "Aprendizaje en línea de expertos: mayoría ponderada y cobertura" (PDF) . Consultado el 7 de diciembre de 2016 .

[ref11-14] "Fundamentos de la optimización convexa" (PDF) . Consultado el 9 de noviembre de 2016 .

[Kleinberg,_Piliouras,_Tardos_09-15] Kleinberg, Robert, Georgios Piliouras y Eva Tardos. "Las actualizaciones multiplicativas superan el aprendizaje genérico sin arrepentimiento en los juegos de congestión". Actas del cuadragésimo primer simposio anual ACM sobre teoría de la computación. ACM, 2009.

[1]

Método de actualización de peso multiplicativo

Nombre

Historia y antecedentes

Configuración general

Análisis de algoritmos

Algoritmo de reducción a la mitad [2]

Algoritmo de mayoría ponderada [1] [7]

Algoritmo de mayoría ponderada aleatoria [2] [8]

Aplicaciones

Resolviendo juegos de suma cero aproximadamente (algoritmo de Oracle): [1] [9]