El dilema del prisionero

El dilema del prisionero es un ejemplo estándar de un juego analizado en la teoría de juegos que muestra por qué dos individuos completamente racionales podrían no cooperar, incluso si parece que lo mejor para ellos es hacerlo. Originalmente fue enmarcado por Merrill Flood y Melvin Dresher mientras trabajaba en RAND en 1950. Albert W. Tucker formalizó el juego con recompensas de pena de prisión y lo llamó "dilema del prisionero", ^[1] una versión de la cual fue declarada por William Poundstone en su Libro de 1993 El dilema del prisionero como:

Dos miembros de una banda criminal son arrestados y encarcelados. Cada prisionero está en confinamiento solitario sin medios para hablar o intercambiar mensajes con el otro. La policía admite que no tiene pruebas suficientes para condenar a la pareja por el cargo principal. Planean sentenciar a ambos a un año de prisión por un cargo menor. Simultáneamente, la policía ofrece a cada prisionero un trato faustiano.

Se da a entender que los presos no tendrán oportunidad de recompensar o castigar a su pareja más allá de las sentencias de prisión que reciban y que su decisión por sí sola no afectará su reputación en el futuro. Como traicionar a un compañero ofrece una recompensa mayor que cooperar con ellos, todos los presos puramente racionales y egoístas traicionarán al otro, lo que significa que el único resultado posible para dos presos puramente racionales es que se traicionen mutuamente, aunque la cooperación mutua produciría una mayor premio. ^[2]

En este caso, "traicionar" es la estrategia dominante para ambos jugadores, lo que significa que es la mejor respuesta del jugador en todas las circunstancias y está alineada con el principio de certeza . ^[3] El dilema del prisionero también ilustra que las decisiones tomadas bajo la racionalidad colectiva pueden no ser necesariamente las mismas que las tomadas bajo la racionalidad individual, y este conflicto también puede ser presenciado en una situación llamada " Tragedia de los Comunes ". Este caso indica el hecho de que los bienes públicos siempre son propensos al uso excesivo. ^[3]

En realidad, tal sesgo sistémico hacia el comportamiento cooperativo ocurre a pesar de lo que predicen los modelos simples de acción egoísta "racional". ^[4]^[5]^[6]^[7] Este sesgo hacia la cooperación se conoce desde que la prueba se realizó por primera vez en RAND; los secretarios involucrados confiaron entre sí y trabajaron juntos para lograr el mejor resultado común. ^[8] El dilema del prisionero se convirtió en el foco de una extensa investigación experimental. ^[9]^[10] Estas investigaciones experimentales suelen tomar una de estas tres formas: juego individual, juego iterado y juego iterado contra un jugador programado, cada uno con diferentes propósitos. ^[3]Y como resumen de estos experimentos, sus resultados justifican el imperativo categórico planteado por Immanuel Kant , que afirma que se espera que un agente racional "actúe de la forma en que desea que actúen los demás". Esta teoría es vital para una situación en la que hay diferentes jugadores, cada uno actuando en su mejor interés, y tiene que tener en cuenta las acciones de los demás para formar su propia elección. Subraya la interconexión de los jugadores en dicho juego y, por lo tanto, enfatiza el hecho de que una estrategia debe considerar las reacciones de los demás para tener éxito, incluida su capacidad de respuesta, su tendencia a imitar, etc. ^[3]

También existe una versión extendida "iterada" del juego. En esta versión, el juego clásico se juega repetidamente entre los mismos presos, quienes continuamente tienen la oportunidad de penalizar al otro por decisiones anteriores. Si los jugadores conocen el número de veces que se jugará el juego, entonces, por inducción hacia atrás, dos jugadores clásicamente racionales se traicionarán repetidamente, por las mismas razones que la variante de un solo tiro. En un juego de duración infinita o desconocida no existe una estrategia óptima fija, y se han realizado torneos de dilema del prisionero para competir y probar algoritmos para tales casos. ^[11]

La relación entre el determinante cero (ZD), las estrategias de cooperación y deserción en el dilema del prisionero iterado (IPD) ilustrado en un diagrama de Venn . Las estrategias cooperantes siempre cooperan con otras estrategias cooperantes, y las estrategias desertoras siempre desertan contra otras estrategias desertoras. Ambos contienen subconjuntos de estrategias que son robustas bajo una fuerte selección, lo que significa que no se selecciona ninguna otra estrategia de memoria-1 para invadir tales estrategias cuando residen en una población. Solo las estrategias de cooperación contienen un subconjunto que siempre es robusto, lo que significa que no se selecciona ninguna otra estrategia de memoria 1 para invadir y reemplazar tales estrategias, tanto bajo selección fuerte como débil .. La intersección entre ZD y buenas estrategias de cooperación es el conjunto de estrategias generosas de ZD. Las estrategias de extorsión son la intersección entre ZD y las estrategias de deserción no robustas. Ojo por ojo se encuentra en la intersección de las estrategias de cooperación, deserción y ZD.

El dilema del prisionero como intercambio de maletines