Juego estocástico

En teoría de juegos , un juego estocástico , introducido por Lloyd Shapley a principios de la década de 1950, ^[1] es un juego repetido con transiciones probabilísticas jugado por uno o más jugadores. El juego se juega en una secuencia de etapas. Al comienzo de cada etapa, el juego se encuentra en algún estado . Los jugadores seleccionan acciones y cada jugador recibe una recompensa.eso depende del estado actual y las acciones elegidas. Luego, el juego pasa a un nuevo estado aleatorio cuya distribución depende del estado anterior y de las acciones elegidas por los jugadores. El procedimiento se repite en el nuevo estado y el juego continúa durante un número finito o infinito de etapas. La recompensa total para un jugador a menudo se considera la suma descontada de las recompensas de la etapa o el límite inferior de los promedios de las recompensas de la etapa.

Los juegos estocásticos generalizan los procesos de decisión de Markov a múltiples tomadores de decisiones que interactúan, así como los juegos de forma estratégica a situaciones dinámicas en las que el entorno cambia en respuesta a las elecciones de los jugadores. ^[2]

Juegos de dos jugadores

Los juegos estocásticos de dos jugadores en gráficos dirigidos se utilizan ampliamente para modelar y analizar sistemas discretos que operan en un entorno desconocido (adversario). Las posibles configuraciones de un sistema y su entorno se representan como vértices, y las transiciones corresponden a acciones del sistema, su entorno o "naturaleza". Entonces, una ejecución del sistema corresponde a una ruta infinita en el gráfico. Así, un sistema y su entorno pueden verse como dos jugadores con objetivos antagónicos, donde un jugador (el sistema) apunta a maximizar la probabilidad de carreras "buenas", mientras que el otro jugador (el entorno) apunta a lo contrario.

En muchos casos, existe un valor de equilibrio de esta probabilidad, pero es posible que no existan estrategias óptimas para ambos jugadores.

Introducimos conceptos básicos y preguntas algorítmicas estudiadas en esta área, y mencionamos algunos problemas abiertos de larga data. Luego, mencionamos resultados recientes seleccionados.

Teoría

Los ingredientes de un juego estocástico son: un conjunto finito de jugadores ${\ Displaystyle I}$ ; un espacio estatal ${\ Displaystyle M}$ (ya sea un conjunto finito o un espacio medible ${\ Displaystyle (M, {\ mathcal {A}})}$ ); para cada jugador ${\ Displaystyle i \ in I}$ , un conjunto de acciones ${\ Displaystyle S ^ {i}}$ (ya sea un conjunto finito o un espacio medible ${\ Displaystyle (S ^ {i}, {\ mathcal {S}} ^ {i})}$ ); una probabilidad de transición ${\ Displaystyle P}$ de ${\ Displaystyle M \ times S}$ , dónde ${\ Displaystyle S = \ times _ {i \ in I} S ^ {i}}$ son los perfiles de acción, para ${\ Displaystyle M}$ , dónde ${\ Displaystyle P (A \ mid m, s)}$ es la probabilidad de que el siguiente estado esté en ${\ Displaystyle A}$ dado el estado actual ${\ Displaystyle m}$ y el perfil de acción actual ${\ Displaystyle s}$ ; y una función de pago ${\ Displaystyle g}$ de ${\ Displaystyle M \ times S}$ a ${\ Displaystyle R ^ {I}}$ , donde el ${\ Displaystyle i}$ -th coordenada de ${\ Displaystyle g}$ , ${\ Displaystyle g ^ {i}}$ , es la recompensa para el jugador ${\ Displaystyle i}$ en función del estado ${\ Displaystyle m}$ y el perfil de acción ${\ Displaystyle s}$ .

El juego comienza en algún estado inicial. ${\ Displaystyle m_ {1}}$ . En el escenario ${\ Displaystyle t}$ , los jugadores primero observan ${\ Displaystyle m_ {t}}$ , luego elige simultáneamente acciones ${\ Displaystyle s_ {t} ^ {i} \ in S ^ {i}}$ , luego observe el perfil de acción ${\ Displaystyle s_ {t} = (s_ {t} ^ {i}) _ {i}}$ , y luego la naturaleza selecciona ${\ Displaystyle m_ {t + 1}}$ según la probabilidad ${\ Displaystyle P (\ cdot \ mid m_ {t}, s_ {t})}$ . Una jugada del juego estocástico, ${\ Displaystyle m_ {1}, s_ {1}, \ ldots, m_ {t}, s_ {t}, \ ldots}$ , define un flujo de recompensas ${\ Displaystyle g_ {1}, g_ {2}, \ ldots}$ , dónde ${\ Displaystyle g_ {t} = g (m_ {t}, s_ {t})}$ .

El juego con descuento ${\ Displaystyle \ Gamma _ {\ lambda}}$ con factor de descuento ${\ Displaystyle \ lambda}$ ( ${\ Displaystyle 0 <\ lambda \ leq 1}$ ) es el juego donde la recompensa para el jugador ${\ Displaystyle i}$ es ${\ Displaystyle \ lambda \ sum _ {t = 1} ^ {\ infty} (1- \ lambda) ^ {t-1} g_ {t} ^ {i}}$ . La ${\ Displaystyle n}$ -El juego de escenario es el juego donde la recompensa para el jugador ${\ Displaystyle i}$ es ${\ Displaystyle {\ bar {g}} _ {n} ^ {i}: = {\ frac {1} {n}} \ sum _ {t = 1} ^ {n} g_ {t} ^ {i} }$ .

El valor ${\ Displaystyle v_ {n} (m_ {1})}$ , respectivamente ${\ Displaystyle v _ {\ lambda} (m_ {1})}$ , de un juego estocástico de suma cero para dos personas ${\ Displaystyle \ Gamma _ {n}}$ , respectivamente ${\ Displaystyle \ Gamma _ {\ lambda}}$ , con un número finito de estados y acciones existe, y Truman Bewley y Elon Kohlberg (1976) demostraron que ${\ Displaystyle v_ {n} (m_ {1})}$ converge a un límite como ${\ Displaystyle n}$ va al infinito y que ${\ Displaystyle v _ {\ lambda} (m_ {1})}$ converge al mismo límite que ${\ Displaystyle \ lambda}$ va a ${\ Displaystyle 0}$ .

El juego "sin descuento" ${\ Displaystyle \ Gamma _ {\ infty}}$ es el juego donde la recompensa para el jugador ${\ Displaystyle i}$ es el "límite" de los promedios de los pagos de la etapa. Se necesitan algunas precauciones para definir el valor de una suma cero para dos personas. ${\ Displaystyle \ Gamma _ {\ infty}}$ y en la definición de pagos de equilibrio de una suma distinta de cero ${\ Displaystyle \ Gamma _ {\ infty}}$ . El valor uniforme ${\ Displaystyle v _ {\ infty}}$ de un juego estocástico de suma cero para dos personas ${\ Displaystyle \ Gamma _ {\ infty}}$ existe si para cada ${\ Displaystyle \ varepsilon> 0}$ hay un entero positivo ${\ Displaystyle N}$ y un par de estrategias ${\ Displaystyle \ sigma _ {\ varepsilon}}$ del jugador 1 y ${\ Displaystyle \ tau _ {\ varepsilon}}$ del jugador 2 de modo que para cada ${\ Displaystyle \ sigma}$ y ${\ Displaystyle \ tau}$ y cada ${\ Displaystyle n \ geq N}$ la expectativa de ${\ Displaystyle {\ bar {g}} _ {n} ^ {i}}$ con respecto a la probabilidad de jugadas definida por ${\ Displaystyle \ sigma _ {\ varepsilon}}$ y ${\ Displaystyle \ tau}$ Por lo menos ${\ Displaystyle v _ {\ infty} - \ varepsilon}$ , y la expectativa de ${\ Displaystyle {\ bar {g}} _ {n} ^ {i}}$ con respecto a la probabilidad de jugadas definida por ${\ Displaystyle \ sigma}$ y ${\ Displaystyle \ tau _ {\ varepsilon}}$ es como máximo ${\ Displaystyle v _ {\ infty} + \ varepsilon}$ . Jean-François Mertens y Abraham Neyman (1981) demostraron que todo juego estocástico de suma cero de dos personas con un número finito de estados y acciones tiene un valor uniforme. ^[3]

Si hay un número finito de jugadores y los conjuntos de acción y el conjunto de estados son finitos, entonces un juego estocástico con un número finito de etapas siempre tiene un equilibrio de Nash . Lo mismo es cierto para un juego con infinitas etapas si la recompensa total es la suma descontada.

El juego estocástico de suma no cero ${\ Displaystyle \ Gamma _ {\ infty}}$ tiene una recompensa de equilibrio uniforme ${\ Displaystyle v _ {\ infty}}$ si por cada ${\ Displaystyle \ varepsilon> 0}$ hay un entero positivo ${\ Displaystyle N}$ y un perfil de estrategia ${\ Displaystyle \ sigma}$ tal que por cada desviación unilateral de un jugador ${\ Displaystyle i}$ , es decir, un perfil de estrategia ${\ Displaystyle \ tau}$ con ${\ Displaystyle \ sigma ^ {j} = \ tau ^ {j}}$ para todos ${\ Displaystyle j \ neq i}$ , y cada ${\ Displaystyle n \ geq N}$ la expectativa de ${\ Displaystyle {\ bar {g}} _ {n} ^ {i}}$ con respecto a la probabilidad de jugadas definida por ${\ Displaystyle \ sigma}$ Por lo menos ${\ Displaystyle v _ {\ infty} ^ {i} - \ varepsilon}$ , y la expectativa de ${\ Displaystyle {\ bar {g}} _ {n} ^ {i}}$ con respecto a la probabilidad de jugadas definida por ${\ Displaystyle \ tau}$ es como máximo ${\ Displaystyle v _ {\ infty} ^ {i} + \ varepsilon}$ . Nicolas Vieille ha demostrado que todos los juegos estocásticos de dos personas con estados finitos y espacios de acción tienen una recompensa de equilibrio uniforme. ^[4]

El juego estocástico de suma no cero ${\ Displaystyle \ Gamma _ {\ infty}}$ tiene una recompensa de equilibrio promedio límite ${\ Displaystyle v _ {\ infty}}$ si por cada ${\ Displaystyle \ varepsilon> 0}$ hay un perfil de estrategia ${\ Displaystyle \ sigma}$ tal que por cada desviación unilateral de un jugador ${\ Displaystyle i}$ , la expectativa del límite inferior de los promedios de los pagos de etapa con respecto a la probabilidad de jugadas definida por ${\ Displaystyle \ sigma}$ Por lo menos ${\ Displaystyle v _ {\ infty} ^ {i} - \ varepsilon}$ , y la expectativa del límite superior de los promedios de los pagos de la etapa con respecto a la probabilidad de jugadas definida por ${\ Displaystyle \ tau}$ es como máximo ${\ Displaystyle v _ {\ infty} ^ {i} + \ varepsilon}$ . Jean-François Mertens y Abraham Neyman (1981) demuestran que todo juego estocástico de suma cero de dos personas con un número finito de estados y acciones tiene un valor promedio límite, ^[3] y Nicolas Vieille ha demostrado que todos los juegos estocásticos de dos personas con Los espacios finitos de estado y acción tienen una recompensa de equilibrio promedio límite. ^[4] En particular, estos resultados implican que estos juegos tienen un valor y una recompensa de equilibrio aproximada, denominada recompensa de equilibrio liminf-average (respectivamente, limsup-average), cuando la recompensa total es el límite inferior (o el límite superior) ) de los promedios de los pagos de la etapa.

Si cada juego estocástico con un número finito de jugadores, estados y acciones tiene una recompensa de equilibrio uniforme, una recompensa de equilibrio promedio límite, o incluso una recompensa de equilibrio promedio liminf, es una cuestión abierta desafiante.

Un equilibrio perfecto de Markov es un refinamiento del concepto de equilibrio de Nash perfecto en subjuegos para juegos estocásticos.

Los juegos estocásticos se han combinado con los juegos bayesianos para modelar la incertidumbre sobre las estrategias de los jugadores. ^[5] El modelo de "juego estocástico bayesiano" resultante se resuelve mediante una combinación recursiva de la ecuación de equilibrio bayesiano de Nash y la ecuación de optimalidad de Bellman .

Aplicaciones

Los juegos estocásticos tienen aplicaciones en economía , biología evolutiva y redes informáticas. ^[6]^[7] Son generalizaciones de juegos repetidos que corresponden al caso especial donde solo hay un estado.

Ver también

Proceso estocástico

Notas

^ Shapley, LS (1953). "Juegos estocásticos" . PNAS . 39 (10): 1095-1100. Código Bibliográfico : 1953PNAS ... 39.1095S . doi : 10.1073 / pnas.39.10.1095 . PMC 1063912 . PMID 16589380 .
^ Solan, Eilon; Vieille, Nicolas (2015). "Juegos estocásticos" . PNAS . 112 (45): 13743-13746. doi : 10.1073 / pnas.1513508112 . PMC 4653174 . PMID 26556883 .
^ a b Mertens, JF y Neyman, A. (1981). "Juegos estocásticos". Revista Internacional de Teoría de Juegos . 10 (2): 53–66. doi : 10.1007 / BF01769259 . S2CID 189830419 .
^ a b Vieille, N. (2002). "Juegos estocásticos: resultados recientes". Manual de teoría de juegos . Ámsterdam: Elsevier Science. págs. 1833–1850. ISBN 0-444-88098-4.
^ Albrecht, Stefano; Crandall, Jacob; Ramamoorthy, Subramanian (2016). "Creencia y verdad en conductas hipotéticas". Inteligencia artificial . 235 : 63–94. arXiv : 1507.07688 . doi : 10.1016 / j.artint.2016.02.004 .
^ Juegos estocásticos restringidos en redes inalámbricas por E.Altman, K.Avratchenkov, N.Bonneau, M.Debbah, R.El-Azouzi, DSMenasche
^ Djehiche, Boualem; Tcheukam, Alain; Tembine, Hamidou (27 de septiembre de 2017). "Juegos de tipo campo medio en ingeniería". OBJETIVOS Electrónica e Ingeniería Eléctrica . 1 : 18–73. arXiv : 1605.03281 . doi : 10.3934 / ElectrEng.2017.1.18 . S2CID 16055840 .

Otras lecturas

Filar, J. y Vrieze, K. (1997). Procesos competitivos de decisión de Markov . Springer-Verlag. ISBN 0-387-94805-8.
Neyman, A. y Sorin, S. (2003). Juegos y aplicaciones estocásticos . Dordrecht: Kluwer Academic Press. ISBN 1-4020-1492-9.
Yoav Shoham; Kevin Leyton-Brown (2009). Sistemas multiagente: bases algorítmicas, teóricas de juegos y lógicas . Prensa de la Universidad de Cambridge. pp. 153 -156. ISBN 978-0-521-89943-7. (apto para estudiantes universitarios; resultados principales, sin pruebas)

enlaces externos

Conferencia sobre juegos estocásticos para dos jugadores a cargo de Antonin Kucera

[1] Shapley, LS (1953). "Juegos estocásticos" . PNAS . 39 (10): 1095-1100. Código Bibliográfico : 1953PNAS ... 39.1095S . doi : 10.1073 / pnas.39.10.1095 . PMC 1063912 . PMID 16589380 .

[2] Solan, Eilon; Vieille, Nicolas (2015). "Juegos estocásticos" . PNAS . 112 (45): 13743-13746. doi : 10.1073 / pnas.1513508112 . PMC 4653174 . PMID 26556883 .

[MertensNeyman-3] Mertens, JF y Neyman, A. (1981). "Juegos estocásticos". Revista Internacional de Teoría de Juegos . 10 (2): 53–66. doi : 10.1007 / BF01769259 . S2CID 189830419 .

[Vieille-4] Vieille, N. (2002). "Juegos estocásticos: resultados recientes". Manual de teoría de juegos . Ámsterdam: Elsevier Science. págs. 1833–1850. ISBN 0-444-88098-4.

[5] Albrecht, Stefano; Crandall, Jacob; Ramamoorthy, Subramanian (2016). "Creencia y verdad en conductas hipotéticas". Inteligencia artificial . 235 : 63–94. arXiv : 1507.07688 . doi : 10.1016 / j.artint.2016.02.004 .

[6] Juegos estocásticos restringidos en redes inalámbricas por E.Altman, K.Avratchenkov, N.Bonneau, M.Debbah, R.El-Azouzi, DSMenasche

[7] Djehiche, Boualem; Tcheukam, Alain; Tembine, Hamidou (27 de septiembre de 2017). "Juegos de tipo campo medio en ingeniería". OBJETIVOS Electrónica e Ingeniería Eléctrica . 1 : 18–73. arXiv : 1605.03281 . doi : 10.3934 / ElectrEng.2017.1.18 . S2CID 16055840 .

[1]