El dilema del prisionero

El dilema del prisionero es un ejemplo estándar de un juego analizado en la teoría de juegos que muestra por qué dos individuos completamente racionales podrían no cooperar, incluso si parece que lo mejor para ellos es hacerlo. Originalmente fue enmarcado por Merrill Flood y Melvin Dresher mientras trabajaba en RAND en 1950. Albert W. Tucker formalizó el juego con recompensas de sentencia de prisión y lo llamó "el dilema del prisionero", ^[1] presentándolo de la siguiente manera:

Dos miembros de una organización criminal son arrestados y encarcelados. Cada preso se encuentra en régimen de aislamiento sin medios para comunicarse con el otro. Los fiscales carecen de pruebas suficientes para condenar a la pareja por el cargo principal, pero tienen suficiente para condenar a ambos por un cargo menor. Simultáneamente, los fiscales ofrecen a cada preso un trato. A cada preso se le da la oportunidad de traicionar al otro testificando que el otro cometió el crimen, o de cooperar con el otro permaneciendo en silencio. Los posibles resultados son:

Se da a entender que los presos no tendrán la oportunidad de recompensar o castigar a su pareja más que las penas de prisión que reciban y que su decisión por sí sola no afectará su reputación en el futuro. Como traicionar a un compañero ofrece una recompensa mayor que cooperar con ellos, todos los prisioneros puramente racionales y egoístas traicionarán al otro, lo que significa que el único resultado posible para dos prisioneros puramente racionales es que se traicionen entre sí, aunque la cooperación mutua produciría una mayor recompensa. recompensa. ^[2]

En este caso, "traicionar" se define como una estrategia dominante para ambos jugadores. Una estrategia dominante es la mejor respuesta de un jugador al otro, y está alineada con el principio seguro. ^[3] El dilema del prisionero también ilustra que las decisiones tomadas bajo la racionalidad colectiva pueden no ser necesariamente las mismas que las tomadas bajo la racionalidad individual, y este conflicto también se puede presenciar en una situación llamada " Tragedia de los Comunes ". Este caso indica el hecho de que los bienes públicos siempre son propensos a un uso excesivo. ^[3]

En realidad, tal sesgo sistémico hacia el comportamiento cooperativo ocurre a pesar de lo que predicen los modelos simples de acción "racional" egoísta. ^[4]^[5]^[6]^[7] Este sesgo hacia la cooperación se conoce desde que la prueba se realizó por primera vez en RAND; los secretarios involucrados confiaron unos en otros y trabajaron juntos para lograr el mejor resultado común. ^[8] El dilema del prisionero se convirtió en el foco de una extensa investigación experimental. ^[9]^[10] Esta investigación experimental generalmente toma una de estas tres formas: juego único, juego iterado y juego iterado contra un jugador programado, cada uno con diferentes propósitos. ^[3]Y como resumen de estos experimentos, sus resultados justifican el imperativo categórico planteado por Kant, que establece que se espera que un agente racional "actúe de la forma en que usted desea que actúen los demás". Esta teoría es vital para una situación en la que hay diferentes jugadores, cada uno de los cuales actúa por su mejor interés, y tiene que tomar en consideración los actos de los demás para formar su propia elección. Subraya la interconexión de los jugadores en tal juego y, por lo tanto, enfatiza el hecho de que una estrategia debe considerar las reacciones de los demás para tener éxito, incluida su capacidad de respuesta, su tendencia a imitar, etc. ^[3]

También existe una versión extendida "iterada" del juego. En esta versión, el juego clásico se juega repetidamente entre los mismos prisioneros, quienes continuamente tienen la oportunidad de penalizar al otro por decisiones anteriores. Si los jugadores conocen el número de veces que se jugará el juego, entonces (por inducción hacia atrás ) dos jugadores clásicamente racionales se traicionarán entre sí repetidamente, por las mismas razones que la variante de un solo disparo. En un juego de duración infinita o desconocida, no hay una estrategia óptima fija, y se han realizado torneos de dilema del prisionero para competir y probar algoritmos para tales casos. ^[11]

La relación entre cero determinante (ZD), estrategias de cooperación y deserción en el dilema del prisionero iterado (DPI) ilustrado en un diagrama de Venn . Las estrategias de cooperación siempre cooperan con otras estrategias de cooperación, y las estrategias de deserción siempre desembocan en otras estrategias de deserción. Ambos contienen subconjuntos de estrategias que son robustas bajo una fuerte selección, lo que significa que no se selecciona ninguna otra estrategia de memoria-1 para invadir tales estrategias cuando residen en una población. Solo las estrategias cooperativas contienen un subconjunto que siempre es robusto, lo que significa que no se selecciona ninguna otra estrategia de memoria-1 para invadir y reemplazar tales estrategias, tanto bajo una selección fuerte como débil.. La intersección entre ZD y buenas estrategias de cooperación es el conjunto de generosas estrategias de ZD. Las estrategias de extorsión son la intersección entre ZD y estrategias de deserción no robustas. El ojo por ojo se encuentra en la intersección de las estrategias de cooperación, deserción y ZD.

El dilema del prisionero como intercambio de maletín