Juego repetido

En la teoría de juegos , un juego repetido es un juego de forma extensiva que consiste en una serie de repeticiones de algún juego base (llamado juego de escenario ). El juego de escenario suele ser uno de los juegos de 2 personas más estudiados . Los juegos repetidos capturan la idea de que un jugador tendrá que tener en cuenta el impacto de su acción actual en las acciones futuras de otros jugadores; este impacto a veces se llama su reputación. Juego de una sola etapa o juego de un solo disparo son nombres para juegos que no se repiten.

Juegos repetidos finita vs infinitamente

Los juegos repetidos se pueden dividir en dos clases, finitos e infinitos, dependiendo de cuánto tiempo se juegue el juego.

Los juegos finitos son aquellos en los que ambos jugadores saben que el juego se está jugando un número específico (y finito) de rondas, y que el juego termina con certeza después de que se hayan jugado muchas rondas. En general, los juegos finitos se pueden resolver mediante inducción hacia atrás .
Los juegos infinitos son aquellos en los que el juego se juega un número infinito de veces. Un juego con un número infinito de rondas también es equivalente (en términos de estrategias para jugar) a un juego en el que los jugadores del juego no saben por cuántas rondas se está jugando. Los juegos infinitos (o juegos que se repiten un número desconocido de veces) no se pueden resolver por inducción hacia atrás ya que no hay una "última ronda" desde la que comenzar la inducción hacia atrás.

Incluso si el juego que se juega en cada ronda es idéntico, repetir ese juego un número finito o infinito de veces puede, en general, conducir a resultados muy diferentes (equilibrios), así como a estrategias óptimas muy diferentes.

Juegos infinitamente repetidos

Los juegos repetidos más estudiados son los que se repiten un número infinito de veces. En los juegos repetidos del dilema del prisionero , se encuentra que la estrategia preferida no es jugar una estrategia de Nash del juego de escenario, sino cooperar y jugar una estrategia socialmente óptima. Una parte esencial de las estrategias en un juego infinitamente repetido es castigar a los jugadores que se desvían de esta estrategia cooperativa. El castigo puede ser jugar una estrategia que conduzca a una reducción de la recompensa para ambos jugadores durante el resto del juego (llamada estrategia de activación ). Un jugador normalmente puede optar por actuar de manera egoísta para aumentar su propia recompensa en lugar de jugar la estrategia socialmente óptima. Sin embargo, si se sabe que el otro jugador está siguiendo una estrategia de activación, el jugador espera recibir pagos reducidos en el futuro si se desvían en esta etapa. Una estrategia de disparo efectiva asegura que cooperar tenga más utilidad para el jugador que actuar egoístamente ahora y enfrentar el castigo del otro jugador en el futuro.

Hay muchos resultados en teoremas que tratan sobre cómo lograr y mantener un equilibrio socialmente óptimo en juegos repetidos. Estos resultados se denominan colectivamente "Teoremas populares" . Una característica importante de un juego repetido es la forma en que se pueden modelar las preferencias de un jugador. Hay muchas formas diferentes en las que se puede modelar una relación de preferencia en un juego repetido infinitamente, pero dos claves son:

Límite de medios : si el juego da como resultado una ruta de resultados ${\ Displaystyle x_ {t}}$ y el jugador i tiene la función de utilidad básica del juego ${\ Displaystyle u_ {i}}$ , la utilidad del jugador i es:

{\ Displaystyle U_ {i} = \ lim _ {T \ to \ infty} \ inf {\ frac {1} {T}} \ sum _ {t = 0} ^ {T} u_ {i} (x_ {t })}

Descuentos : si la valoración del juego del jugador i disminuye con el tiempo dependiendo de un factor de descuento ${\ Displaystyle \ delta <1}$ , entonces la utilidad del jugador i es:

{\ Displaystyle U_ {i} = \ sum _ {t \ geq 0} \ delta ^ {t} u_ {i} (x_ {t})}

Para jugadores suficientemente pacientes (por ejemplo, aquellos con valores suficientemente altos de ${\ Displaystyle \ delta}$ ), se puede demostrar que toda estrategia que tenga una recompensa mayor que la recompensa minmax puede ser un equilibrio de Nash : un conjunto muy grande de estrategias.

Juegos finamente repetidos

Los juegos repetidos permiten estudiar la interacción entre ganancias inmediatas e incentivos a largo plazo. Un juego de repetición finita es un juego en el que el mismo juego de una sola etapa se juega repetidamente durante varios períodos de tiempo discretos, o rondas. Cada período de tiempo está indexado por 0 La recompensa final de un jugador es la suma de sus recompensas de cada ronda. ^[1]

En cada período de un juego finito, los jugadores ejecutan una cierta cantidad de acción. Estas acciones conducen a una recompensa en el juego de escenario para los jugadores. El juego de etapa se puede denotar por {A, u } donde A = A 1 * A2 * ... * An es el conjunto de perfiles y ui (a) es la recompensa del juego de etapa del jugador i cuando se juega el perfil a. El juego de escenario se juega en cada período. Además, suponemos que en cada período t , los jugadores han observado la historia del juego, o la secuencia de perfiles de acción, desde el primer período hasta el período t -1. La recompensa de todo el juego es la suma de los pagos fase del juego en los periodos 1 a T . A veces, se debe suponer que todos los jugadores descuentan el futuro, en cuyo caso incluimos un factor de descuento en la especificación de pago. ^[2]

Para aquellos juegos repetidos con un número fijo y conocido de períodos de tiempo, si el juego de escenario tiene un equilibrio de Nash único , entonces el juego repetido tiene un perfil de estrategia de equilibrio de Nash perfecto en subjuegos único de jugar el equilibrio del juego de escenario en cada ronda. Esto se puede deducir mediante inducción hacia atrás . El equilibrio de Nash del juego de etapa único debe jugarse en la última ronda independientemente de lo que sucedió en las rondas anteriores. Sabiendo esto, los jugadores no tienen ningún incentivo para desviarse del equilibrio de Nash del juego de etapa único en la penúltima ronda, y así sucesivamente esta lógica se aplica nuevamente a la primera ronda del juego. ^[3] Este "desmoronamiento" de un juego desde su punto final se puede observar en la paradoja de Chainstore .

Si el juego por etapas tiene más de un equilibrio de Nash, el juego repetido puede tener múltiples equilibrios de Nash perfectos en subjuegos . Si bien se debe jugar un equilibrio de Nash en la última ronda, la presencia de equilibrios múltiples introduce la posibilidad de estrategias de recompensa y castigo que pueden usarse para respaldar la desviación de los equilibrios de Nash del juego por etapas en rondas anteriores. ^[3]

Por otro lado, los juegos repetidos de forma finita con un número de períodos de tiempo desconocido o indeterminado se consideran como si fueran un juego repetido infinitamente. No es posible aplicar la inducción hacia atrás a estos juegos.

Ejemplos de cooperación en juegos repetidos finitamente

	X	Y	Z
A	5 , 4	1, 1	2 , 5
B	1, 1	3 , 2	1, 1

Ejemplo 1: juego repetido de dos etapas con múltiples equilibrios de Nash

El ejemplo 1 muestra un juego repetido de dos etapas con múltiples equilibrios de Nash de estrategia pura . Debido a que estos equilibrios difieren notablemente en términos de recompensas para el jugador 2, el jugador 1 puede proponer una estrategia en múltiples etapas del juego que incorpore la posibilidad de castigo o recompensa para el jugador 2. Por ejemplo, el jugador 1 podría proponer que juegue (A, X) en la primera ronda. Si el jugador 2 cumple en la primera ronda, el jugador 1 lo recompensará jugando el equilibrio (A, Z) en la segunda ronda, obteniendo una recompensa total en dos rondas de (7, 9).

Si el jugador 2 se desvía a (A, Z) en la primera ronda en lugar de jugar el acordado (A, X), el jugador 1 puede amenazar con castigarlo jugando el equilibrio (B, Y) en la segunda ronda. Esta última situación produce recompensas (5, 7), dejando a ambos jugadores en peor situación.

De esta manera, la amenaza de castigo en una ronda futura incentiva una estrategia colaborativa de desequilibrio en la primera ronda. Debido a que la ronda final de cualquier juego repetido finita, por su propia naturaleza, elimina la amenaza de un castigo futuro, la estrategia óptima en la última ronda siempre será uno de los equilibrios del juego. Es el diferencial de pago entre los equilibrios en el juego representado en el Ejemplo 1 lo que hace viable una estrategia de castigo / recompensa (para obtener más información sobre la influencia del castigo y la recompensa en la estrategia del juego, consulte ' Juego de bienes públicos con castigo y recompensa ').

	METRO	norte	O
C	5 , 4	1, 1	0, 5
D	1, 1	3 , 2	1, 1

Ejemplo 2: juego repetido de dos etapas con equilibrio de Nash único

El ejemplo 2 muestra un juego repetido de dos etapas con un equilibrio de Nash único. Debido a que solo hay un equilibrio aquí, no hay ningún mecanismo para que ninguno de los jugadores amenace con castigar o prometa recompensa en la segunda ronda del juego. Como tal, la única estrategia que se puede apoyar como un equilibrio de Nash perfecto en subjuegos es la de jugar la estrategia de equilibrio de Nash única del juego (D, N) en cada ronda. En este caso, eso significa jugar (D, N) cada etapa durante dos etapas (n = 2), pero sería cierto para cualquier número finito de etapas n . ^[4] Para interpretar: este resultado significa que la sola presencia de un horizonte de tiempo finito conocido sabotea la cooperación en cada ronda del juego. La cooperación en juegos iterados solo es posible cuando el número de rondas es infinito o desconocido.

Resolver juegos repetidos

En general, los juegos repetidos se resuelven fácilmente utilizando estrategias proporcionadas por teoremas populares . Los juegos complejos repetidos se pueden resolver utilizando varias técnicas, la mayoría de las cuales se basan en gran medida en el álgebra lineal y los conceptos expresados en el juego ficticio . Se puede deducir que puede determinar la caracterización de los pagos de equilibrio en juegos repetidos infinitamente. Mediante la alternancia entre dos pagos, digamos ayf, el perfil de pago promedio puede ser un promedio ponderado entre ay f.

Información incompleta

Los juegos repetidos pueden incluir información incompleta. Aumann y Maschler fueron pioneros en los juegos repetidos con información incompleta . ^[5] Si bien es más fácil tratar una situación en la que un jugador está informado y el otro no, y cuando la información recibida por cada jugador es independiente, es posible lidiar con juegos de suma cero con información incompleta en ambos lados y señales de que no son independientes. ^[6]

Referencias

^ Caballero, Vince. "Juegos repetidos finamente" . Teoría de juegos . Consultado el 6 de diciembre de 2017 . Verifique los valores de fecha en: |access-date=( ayuda )
^ Waston, Joel (2013). Estrategia: Introducción a la teoría de juegos . Nueva York, Londres: WW Norton and Company. pag. 292. ISBN 978-0-393-91838-0.
^ ^a ^b Benoit, JP y Krishna, V. (1985). "Juegos repetidos finamente". Econometrica : 905–922. doi : 10.2307 / 1912660 .CS1 maint: varios nombres: lista de autores ( enlace )
^ Levin, Jonathan (mayo de 2006). " " Juegos repetidos I: Seguimiento perfecto " " (PDF) . www.stanford.edu . Consultado el 12 de diciembre de 2017 .
^ Aumann, RJ; Maschler, M. (1995). Juegos repetidos con información incompleta . Cambridge Londres: MIT Press.
^ Mertens, J.-F. (1987). "Juegos repetidos". Actas del Congreso Internacional de Matemáticos, Berkeley 1986 . Providencia: Sociedad Matemática Estadounidense. págs. 1528-1577. ISBN 0-8218-0110-4.

Fudenberg, Drew; Tirole, Jean (1991). Teoría de juegos . Cambridge: MIT Press. ISBN 0-262-06141-4.
Mailath, G. y Samuelson, L. (2006). Juegos repetidos y reputaciones: relaciones a largo plazo . Nueva York: Oxford University Press. ISBN 0-19-530079-3.
Osborne, Martin J .; Rubinstein, Ariel (1994). Un curso de teoría de juegos . Cambridge: MIT Press. ISBN 0-262-15041-7.
Sorin, Sylvain (2002). Un primer curso sobre juegos repetidos de suma cero . Berlín: Springer. ISBN 3-540-43028-8.

enlaces externos

Solución teórica del juego al póquer mediante el juego ficticio
Notas de teoría de juegos sobre juegos repetidos
sobre los juegos repetidos y la paradoja de la cadena de tiendas

[1] Caballero, Vince. "Juegos repetidos finamente" . Teoría de juegos . Consultado el 6 de diciembre de 2017 . Verifique los valores de fecha en: |access-date=( ayuda )

[2] Waston, Joel (2013). Estrategia: Introducción a la teoría de juegos . Nueva York, Londres: WW Norton and Company. pag. 292. ISBN 978-0-393-91838-0.

[:0-3] Benoit, JP y Krishna, V. (1985). "Juegos repetidos finamente". Econometrica : 905–922. doi : 10.2307 / 1912660 .CS1 maint: varios nombres: lista de autores ( enlace )

[4] Levin, Jonathan (mayo de 2006). " " Juegos repetidos I: Seguimiento perfecto " " (PDF) . www.stanford.edu . Consultado el 12 de diciembre de 2017 .

[5] Aumann, RJ; Maschler, M. (1995). Juegos repetidos con información incompleta . Cambridge Londres: MIT Press.

[6] Mertens, J.-F. (1987). "Juegos repetidos". Actas del Congreso Internacional de Matemáticos, Berkeley 1986 . Providencia: Sociedad Matemática Estadounidense. págs. 1528-1577. ISBN 0-8218-0110-4.

[1]