El principio de desviación de una sola acción (también conocido como propiedad de una desviación [1] ) es el principio de optimización de la programación dinámica aplicado a la teoría de juegos . [2] Dice que un perfil de estrategia de un juego finito de forma extensiva es un equilibrio perfecto en subjuegos (SPE) si y solo si no existen desviaciones rentables de un solo intento para cada subjuego y cada jugador. [1] [3]En términos más simples, si ningún jugador puede aumentar sus ganancias desviando una sola decisión, o período, de su estrategia original, entonces la estrategia que ha elegido es una SPE. Como resultado, ningún jugador puede beneficiarse de desviarse de la estrategia durante un período y luego volver a la estrategia.
Además, el principio de desviación de un solo paso es muy importante para los juegos de horizonte infinito, en los que el principio normalmente no se cumple, [4] ya que no es plausible considerar un número infinito de estrategias y pagos para resolver. En un juego de horizonte infinito donde el factor de descuento es menor que 1, un perfil de estrategia es un equilibrio perfecto en subjuegos si y solo si satisface el principio de desviación de un solo intento. [5]
Definiciones
La siguiente es la definición parafraseada de Watson (2013) [1]
Para comprobar si la estrategia s es un equilibrio de Nash perfecto en subjuegos, tenemos que preguntar a cada jugador iy cada subjuego, si se considera s , hay una estrategia s ' que produce una recompensa estrictamente mayor para el jugador i que s en el subjuego. Este análisis es equivalente a considerar las desviaciones individuales de s , lo que significa que s ' difiere de s en un solo conjunto de información. Tenga en cuenta que las opciones asociadas con s y s ' son las mismas en todos los nodos que son sucesores de nodos en el conjunto de información donde s y s' prescriben acciones diferentes.
Ejemplo
Considere un juego simétrico con dos jugadores en el que cada jugador toma decisiones de elección binaria, A o B, en tres secuencias. Tenga en cuenta que cada jugador solo ve primero la secuencia opuesta una vez que se han seleccionado tres personajes. Hay 8 (2 3 ) un número total de estrategias puras para cada jugador: {AAA, AAB, ABA, ABB, BBB, BBA, BAB, BAA}. En este ejemplo, considere que un jugador elige la estrategia (AAA). Para verificar si esta estrategia es una SPE, el principio de desviación de un solo paso establece que el jugador necesita verificar los beneficios de solo otras tres estrategias que difieren de la estrategia original por una sola desviación, en lugar de las otras siete. Estas tres estrategias son: ( B AA), (A B A) y (AA B ). Si ninguna de estas tres estrategias produce una recompensa mayor que (AAA), entonces el jugador puede concluir que (AAA) es una SPE.
Referencias
- ↑ a b c Watson, Joel (2013). Estrategia: Introducción a la teoría de juegos . Nueva York: WW Norton & Company. pag. 194. ISBN 978-0393123876.
- ^ Blackwell, David (1965). "Programación dinámica de descuentos" . Anales de estadística matemática . 36 : 226-235. doi : 10.1214 / aoms / 1177700285 .
- ^ Tirole, Jean; Fudenberg, Drew (1991). Teoría de juegos (6. imprenta. Ed.). Cambridge, Mass. [Ua]: MIT Press. ISBN 978-0-262-06141-4.
- ^ Obara, I. (2012). Equilibrio perfecto en subjuegos [documento PDF]. Diapositiva 13. Obtenido de http://www.econ.ucla.edu/iobara/SPE201B.pdf
- ^ Ozdaglar, A. (2010). Juegos repetidos [documento PDF]. Diapositiva 13. Obtenido de https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-254-game-theory-with-engineering-applications-spring-2010/lecture-notes/MIT6_254S10_lec15 .pdf