B A | B se queda en silencio | B traiciona |
---|---|---|
A se queda en silencio | -1 -1 | 0 -3 |
A traiciona | -3 0 | -2 -2 |
El dilema del prisionero es un ejemplo estándar de un juego analizado en la teoría de juegos que muestra por qué dos individuos completamente racionales podrían no cooperar, incluso si parece que lo mejor para ellos es hacerlo. Originalmente fue enmarcado por Merrill Flood y Melvin Dresher mientras trabajaba en RAND en 1950. Albert W. Tucker formalizó el juego con recompensas de sentencia de prisión y lo llamó "dilema del prisionero", [1] presentándolo de la siguiente manera:
Dos miembros de una banda criminal son arrestados y encarcelados. Cada preso está en régimen de aislamiento sin medios para comunicarse con el otro. Los fiscales carecen de pruebas suficientes para condenar a la pareja por el cargo principal, pero tienen suficiente para condenar a ambos por un cargo menor. Simultáneamente, los fiscales ofrecen a cada preso un trato. A cada preso se le da la oportunidad de traicionar al otro testificando que el otro cometió el crimen o de cooperar con el otro permaneciendo en silencio. Los posibles resultados son:
- Si A y B se traicionan mutuamente, cada uno de ellos cumple dos años de prisión.
- Si A traiciona a B pero B permanece en silencio, A será puesto en libertad y B cumplirá tres años de prisión.
- Si A guarda silencio pero B traiciona a A, A cumplirá tres años de prisión y B será puesto en libertad.
- Si A y B permanecen en silencio, ambos cumplirán solo un año de prisión (por el cargo menor).
Se da a entender que los presos no tendrán la oportunidad de recompensar o castigar a su pareja más que las penas de prisión que reciban y que su decisión no afectará su reputación en el futuro. Debido a que traicionar a un compañero ofrece una recompensa mayor que cooperar con ellos, todos los prisioneros puramente racionales y egoístas traicionarán al otro, lo que significa que el único resultado posible para dos prisioneros puramente racionales es que se traicionen entre sí. [2] En realidad, los humanos muestran un sesgo sistémico hacia el comportamiento cooperativo en este y otros juegos similares a pesar de lo que predicen los modelos simples de acciones "racionales" egoístas. [3] [4] [5] [6] Este sesgo hacia la cooperación se conoce desde que la prueba se realizó por primera vez en RAND; los secretarios involucrados confiaron entre sí y trabajaron juntos para lograr el mejor resultado común. [7] El dilema del prisionero se convirtió en el foco de una extensa investigación experimental. [8] [9]
También existe una versión extendida "iterada" del juego. En esta versión, el juego clásico se juega repetidamente entre los mismos prisioneros, quienes continuamente tienen la oportunidad de penalizar al otro por decisiones anteriores. Si los jugadores conocen el número de veces que se jugará el juego, entonces (por inducción hacia atrás ) dos jugadores clásicamente racionales se traicionarán entre sí repetidamente, por las mismas razones que la variante de un solo disparo. En un juego de duración infinita o desconocida, no hay una estrategia óptima fija, y se han realizado torneos de dilema del prisionero para competir y probar algoritmos para tales casos. [10]
El juego del dilema del prisionero se puede utilizar como modelo para muchas situaciones del mundo real que implican un comportamiento cooperativo. En el uso casual, la etiqueta "dilema del prisionero" puede aplicarse a situaciones que no coinciden estrictamente con los criterios formales de los juegos clásicos o iterativos: por ejemplo, aquellas en las que dos entidades podrían obtener importantes beneficios de la cooperación o sufrir por no hacerlo. , pero les resulta difícil o costoso, no necesariamente imposible, coordinar sus actividades.
Estrategia para el dilema del prisionero
Dos presos están separados en habitaciones individuales y no pueden comunicarse entre sí. El juego normal se muestra a continuación:
Prisionero B Prisionero A | El prisionero B permanece en silencio ( coopera ) | El prisionero B traiciona ( defectos ) |
---|---|---|
El prisionero A permanece en silencio ( coopera ) | Cada uno sirve 1 año | Prisionero A: 3 años Prisionero B: queda libre |
El prisionero A traiciona ( defectos ) | Prisionero A: queda libre Prisionero B: 3 años | Cada uno sirve 2 años |
Se asume que ambos prisioneros comprenden la naturaleza del juego, no se tienen lealtad entre ellos y no tendrán oportunidad de recibir represalias o recompensas fuera del juego. Independientemente de lo que decida el otro, cada prisionero obtiene una recompensa mayor al traicionar al otro ("desertar"). El razonamiento implica un argumento por dilema : B cooperará o fallará. Si B coopera, A debería desertar, porque salir libre es mejor que servir 1 año. Si B tiene defectos, A también debería hacerlo, porque servir 2 años es mejor que servir 3. Entonces, de cualquier manera, A debería desertar. Un razonamiento paralelo mostrará que B debe fallar.
Debido a que la deserción siempre resulta en una mejor recompensa que la cooperación, independientemente de la elección del otro jugador, es una estrategia dominante . La deserción mutua es el único equilibrio fuerte de Nash en el juego (es decir, el único resultado del cual cada jugador solo podría hacerlo peor cambiando unilateralmente la estrategia). El dilema, entonces, es que la cooperación mutua produce un resultado mejor que la deserción mutua, pero no es el resultado racional porque la elección de cooperar, desde una perspectiva de interés propio, es irracional.
Forma generalizada
La estructura del dilema del prisionero tradicional se puede generalizar a partir de su entorno prisionero original. Supongamos que los dos jugadores están representados por los colores rojo y azul, y que cada jugador elige "cooperar" (permanecer en silencio) o "desertar" (traicionar).
Si ambos jugadores cooperan, ambos reciben la recompensa R por cooperar. Si ambos jugadores de defectos, ambos reciben el castigo recompensa P . Si los defectos azul, mientras que coopera rojo, luego azul recibe la tentación recompensa T , mientras que Red recibe recompensa del "lechón", S . De manera similar, si Azul coopera mientras que Rojo falla, entonces Azul recibe la recompensa S del tonto , mientras que Rojo recibe la recompensa T por tentación .
Esto se puede expresar en forma normal :
rojo Azul | Cooperar | Defecto |
---|---|---|
Cooperar | R R | T S |
Defecto | S T | PAG PAG |
y para ser un juego de dilemas de prisioneros en el sentido fuerte, la siguiente condición debe ser válida para las recompensas:
La relación de pago implica que la cooperación mutua es superior a la deserción mutua, mientras que las relaciones de pago y implican que la deserción es la estrategia dominante para ambos agentes.
Caso especial: juego de donaciones
El "juego de la donación" [11] es una forma de dilema del prisionero en el que la cooperación corresponde a ofrecer al otro jugador un beneficio b a un costo personal c con b > c . La deserción significa no ofrecer nada. Por tanto, la matriz de pagos es
rojo Azul | Cooperar | Defecto |
---|---|---|
Cooperar | b - c b - c | B - c |
Defecto | - c B | 0 0 |
Tenga en cuenta que (es decir ) que califica el juego de donación como un juego iterativo (ver la siguiente sección).
El juego de la donación se puede aplicar a los mercados. Supongamos que X produce naranjas, Y Y manzanas. La utilidad marginal de una manzana para el productor de naranjas X es b , que es mayor que la utilidad marginal ( c ) de una naranja, ya que X tiene un excedente de naranjas y no tiene manzanas. De manera similar, para el productor de manzanas Y, la utilidad marginal de una naranja es b mientras que la utilidad marginal de una manzana es c . Si X e Y se contraen para intercambiar una manzana y una naranja, y cada uno cumple su parte del trato, cada uno recibe una recompensa de b - c . Si uno "deserta" y no cumple lo prometido, el desertor recibirá una recompensa de b , mientras que el cooperador perderá c . Si ambos desertan, ninguno gana ni pierde nada.
El dilema del prisionero repetido
Si dos jugadores juegan el dilema del prisionero más de una vez seguidas y recuerdan acciones anteriores de su oponente y cambian su estrategia en consecuencia, el juego se llama dilema del prisionero iterado.
Además del formulario general anterior, la versión iterativa también requiere que , para evitar que la cooperación y la deserción alternas den una recompensa mayor que la cooperación mutua.
El juego repetido del dilema del prisionero es fundamental para algunas teorías de cooperación y confianza humanas. Suponiendo que el juego puede modelar transacciones entre dos personas que requieren confianza, el comportamiento cooperativo en poblaciones puede ser modelado por una versión del juego para múltiples jugadores, iterada. En consecuencia, ha fascinado a muchos estudiosos a lo largo de los años. En 1975, Grofman y Pool estimaron el recuento de artículos académicos dedicados a él en más de 2.000. El dilema del prisionero repetido también se ha denominado " juego de guerra de paz ". [12]
Si el juego se juega exactamente N veces y ambos jugadores lo saben, entonces es óptimo desertar en todas las rondas. El único equilibrio de Nash posible es siempre desertar. La prueba es inductiva : uno podría desertar en el último turno, ya que el oponente no tendrá la oportunidad de tomar represalias más tarde. Por lo tanto, ambos desertarán en el último turno. Por lo tanto, el jugador también podría desertar en el penúltimo turno, ya que el oponente desertará en el último sin importar lo que se haga, y así sucesivamente. Lo mismo se aplica si se desconoce la duración del juego pero tiene un límite superior conocido.
A diferencia del dilema del prisionero estándar, en el dilema del prisionero repetido, la estrategia de deserción es contraria a la intuición y no logra predecir el comportamiento de los jugadores humanos. Sin embargo, dentro de la teoría económica estándar, esta es la única respuesta correcta. La estrategia superracional en el dilema del prisionero iterado con N fijo es cooperar contra un oponente superracional, y en el límite de N grande , los resultados experimentales de las estrategias concuerdan con la versión superracional, no con la versión racional de la teoría del juego.
Para que surja la cooperación entre jugadores racionales teóricos del juego, los jugadores deben desconocer el número total de rondas N. En este caso, "siempre defecto" puede que ya no sea una estrategia estrictamente dominante, solo un equilibrio de Nash. Entre los resultados mostrados por Robert Aumann en un artículo de 1959, los jugadores racionales que interactúan repetidamente durante juegos de duración indefinida pueden sostener el resultado cooperativo.
Según un estudio experimental de 2019 en American Economic Review que probó qué estrategias usaron los sujetos de la vida real en situaciones de dilema de prisioneros iterados con un monitoreo perfecto, la mayoría de las estrategias elegidas siempre fueron defectos, ojo por ojo y desencadenante sombrío . La estrategia que eligieron los sujetos dependía de los parámetros del juego. [13]
Estrategia para el dilema del prisionero repetido
El interés en el dilema del prisionero repetido (DPI) fue despertado por Robert Axelrod en su libro La evolución de la cooperación (1984). En él informa sobre un torneo que organizó sobre el dilema del prisionero de paso N (con N fijo) en el que los participantes tienen que elegir su estrategia mutua una y otra vez, y recordar sus encuentros anteriores. Axelrod invitó a colegas académicos de todo el mundo a diseñar estrategias informáticas para competir en un torneo de IPD. Los programas que se ingresaron variaron ampliamente en complejidad algorítmica, hostilidad inicial, capacidad de perdón, etc.
Axelrod descubrió que cuando estos encuentros se repetían durante un largo período de tiempo con muchos jugadores, cada uno con estrategias diferentes, las estrategias codiciosas tendían a funcionar muy mal a largo plazo, mientras que las estrategias más altruistas funcionaban mejor, según se juzga únicamente por el interés propio. Usó esto para mostrar un posible mecanismo para la evolución del comportamiento altruista a partir de mecanismos que inicialmente son puramente egoístas, por selección natural .
La estrategia determinista ganadora fue ojo por ojo, que Anatol Rapoport desarrolló y entró en el torneo. Fue el más simple de todos los programas ingresados, conteniendo solo cuatro líneas de BASIC , y ganó el concurso. La estrategia es simplemente cooperar en la primera iteración del juego; después de eso, el jugador hace lo que hizo su oponente en el movimiento anterior. Dependiendo de la situación, una estrategia ligeramente mejor puede ser "ojo por ojo con perdón". Cuando el oponente abandona, en el siguiente movimiento, el jugador a veces coopera de todos modos, con una pequeña probabilidad (alrededor del 1–5%). Esto permite una recuperación ocasional de quedar atrapado en un ciclo de deserciones. La probabilidad exacta depende de la alineación de los oponentes.
Al analizar las estrategias de máxima puntuación, Axelrod estableció varias condiciones necesarias para que una estrategia tenga éxito.
- Lindo
- La condición más importante es que la estrategia debe ser "agradable", es decir, no fallará antes que su oponente (esto a veces se denomina algoritmo "optimista"). Casi todas las estrategias de máxima puntuación fueron buenas; por lo tanto, una estrategia puramente egoísta no "engañará" a su oponente, primero por razones puramente egoístas.
- Tomar represalias
- Sin embargo, argumentó Axelrod, la estrategia exitosa no debe ser un optimista ciego. A veces debe tomar represalias. Un ejemplo de una estrategia de no represalias es siempre cooperar. Esta es una muy mala elección, ya que las estrategias "desagradables" explotarán despiadadamente a esos jugadores.
- Indulgente
- Las estrategias exitosas también deben perdonar. Aunque los jugadores tomarán represalias, una vez más volverán a cooperar si el oponente no continúa desertando. Esto detiene largas rachas de venganza y contravenganza, maximizando los puntos.
- No envidioso
- La última cualidad es no tener envidia, es decir, no esforzarse por anotar más que el oponente.
La estrategia óptima (maximización de puntos) para el juego de DP de una sola vez es simplemente la deserción; como se explicó anteriormente, esto es cierto cualquiera que sea la composición de los oponentes. Sin embargo, en el juego de DP iterado, la estrategia óptima depende de las estrategias de los posibles oponentes y de cómo reaccionarán ante las deserciones y las cooperaciones. Por ejemplo, considere una población en la que todo el mundo tiene defectos en todo momento, excepto un solo individuo que sigue la estrategia de ojo por ojo. Ese individuo se encuentra en una ligera desventaja debido a la pérdida en el primer turno. En tal población, la estrategia óptima para ese individuo es desertar cada vez. En una población con un cierto porcentaje de siempre desertores y el resto siendo jugadores de ojo por ojo, la estrategia óptima para un individuo depende del porcentaje y de la duración del juego.
En la estrategia llamada Pavlov, ganar-quedarse, perder-cambiar , ante una falla en la cooperación, el jugador cambia de estrategia en el siguiente turno. [14] En determinadas circunstancias, [ especificar ] Pavlov supera todas las demás estrategias dando un trato preferencial a los co-jugadores que utilizan una estrategia similar.
La derivación de la estrategia óptima generalmente se realiza de dos maneras:
- Equilibrio de Nash bayesiano : si se puede determinar la distribución estadística de las estrategias opuestas (por ejemplo, 50% ojo por ojo, 50% siempre coopera), se puede derivar analíticamente una contraestrategia óptima. [a]
- Se han realizado simulaciones de Monte Carlo de poblaciones, donde los individuos con puntajes bajos mueren y aquellos con puntajes altos se reproducen (un algoritmo genético para encontrar una estrategia óptima). La combinación de algoritmos en la población final generalmente depende de la combinación en la población inicial. La introducción de la mutación (variación aleatoria durante la reproducción) disminuye la dependencia de la población inicial; Los experimentos empíricos con tales sistemas tienden a producir jugadores de ojo por ojo (ver, por ejemplo, Chess 1988), [se necesita aclaración ] pero no existe ninguna prueba analítica de que esto siempre ocurra. [dieciséis]
Aunque el ojo por ojo se considera la estrategia básica más sólida , un equipo de la Universidad de Southampton en Inglaterra introdujo una nueva estrategia en la competencia del dilema del prisionero iterado del vigésimo aniversario, que resultó ser más exitosa que el ojo por ojo. Esta estrategia se basó en la colusión entre programas para lograr el mayor número de puntos para un solo programa. La universidad presentó 60 programas a la competencia, que fueron diseñados para reconocerse entre sí a través de una serie de cinco a diez movimientos al inicio. [17] Una vez hecho este reconocimiento, un programa siempre cooperaría y el otro siempre desertaría, asegurando el máximo número de puntos para el desertor. Si el programa se da cuenta de que está jugando contra un jugador que no es del Southampton, desertaría continuamente en un intento de minimizar la puntuación del programa en competencia. Como resultado, los resultados del Torneo Prisoners 'Dilemma de 2004 muestran las estrategias de la Universidad de Southampton en los primeros tres lugares, a pesar de tener menos victorias y muchas más derrotas que la estrategia GRIM. (En un torneo de PD, el objetivo del juego no es "ganar" partidos, eso se puede lograr fácilmente mediante deserciones frecuentes). Además, incluso sin una colusión implícita entre las estrategias de software (explotadas por el equipo de Southampton), el ojo por ojo no siempre es el ganador absoluto de un torneo determinado; Sería más preciso decir que sus resultados a largo plazo en una serie de torneos superan a sus rivales. (En cualquier caso, una estrategia determinada puede ajustarse ligeramente mejor a la competencia que el ojo por ojo, pero el ojo por ojo es más sólido). Lo mismo se aplica al ojo por ojo con la variante del perdón y otras estrategias óptimas: en un día cualquiera, es posible que no "ganen" contra una combinación específica de contraestrategias. Una forma alternativa de decirlo es usar la simulación darwiniana de ESS . En tal simulación, el ojo por ojo casi siempre dominará, aunque las estrategias desagradables entrarán y saldrán de la población porque una población de ojo por ojo es penetrable mediante estrategias agradables que no toman represalias, que a su vez son presa fácil para los desagradables. estrategias. Richard Dawkins demostró que aquí, ninguna combinación estática de estrategias forma un equilibrio estable y el sistema siempre oscilará entre límites. Esta estrategia terminó tomando las tres primeras posiciones en la competencia, así como una serie de posiciones hacia la parte inferior.
La estrategia de Southampton aprovecha el hecho de que se permitieron múltiples entradas en esta competencia en particular y que el desempeño de un equipo se midió por el del jugador con mayor puntuación (lo que significa que el uso de jugadores abnegados fue una forma de minmaxing ) . En una competición en la que uno tiene el control de un solo jugador, el ojo por ojo es sin duda una mejor estrategia. Debido a esta nueva regla, esta competencia también tiene poca importancia teórica cuando se analizan las estrategias de un solo agente en comparación con el torneo seminal de Axelrod. Sin embargo, proporcionó una base para analizar cómo lograr estrategias cooperativas en marcos de múltiples agentes, especialmente en presencia de ruido. De hecho, mucho antes de que se jugara este torneo de nuevas reglas, Dawkins, en su libro The Selfish Gene , señaló la posibilidad de que tales estrategias ganaran si se permitieran múltiples entradas, pero comentó que lo más probable es que Axelrod no las hubiera permitido si hubieran había sido presentado. También se basa en eludir las reglas sobre el dilema del prisionero en el sentido de que no se permite la comunicación entre los dos jugadores, lo que posiblemente hicieron los programas de Southampton con su "baile de diez movimientos" de apertura para reconocerse entre sí; esto solo refuerza lo valiosa que puede ser la comunicación para cambiar el equilibrio del juego.
El estocástico iteraba el dilema del prisionero
En un juego de dilema del prisionero iterado estocástico, las estrategias se especifican en términos de "probabilidades de cooperación". [18] En un encuentro entre jugador X y el jugador Y , X estrategia 's es especificado por un conjunto de probabilidades P de cooperar con Y . P es una función de los resultados de sus encuentros anteriores o de algún subconjunto de los mismos. Si P es una función sólo de sus n encuentros más recientes , se denomina estrategia de "memoria-n". Luego, una estrategia de memoria 1 se especifica mediante cuatro probabilidades de cooperación:, dónde es la probabilidad de que X coopere en el encuentro actual dado que el encuentro anterior se caracterizó por (ab). Por ejemplo, si el encuentro anterior fue uno en el que X cooperó e Y desertó, entonceses la probabilidad de que X coopere en el encuentro actual. Si cada una de las probabilidades es 1 o 0, la estrategia se llama determinista. Un ejemplo de una estrategia determinista es la estrategia de ojo por ojo escrita como P = {1,0,1,0}, en la que X responde como lo hizo Y en el encuentro anterior. Otra es la estrategia de ganar-quedarse, perder-cambiar escrita como P = {1,0,0,1}, en la que X responde como en el encuentro anterior, si fue una "victoria" (es decir, cc o dc) pero cambia estrategia si fue una pérdida (es decir, cd o dd). Se ha demostrado que para cualquier estrategia de memoria-n existe una estrategia de memoria-1 correspondiente que da los mismos resultados estadísticos, de modo que sólo es necesario considerar las estrategias de memoria-1. [18]
Si definimos P como el vector de estrategia de 4 elementos anterior de X ycomo el vector de estrategia de 4 elementos de Y , se puede definir una matriz de transición M para X cuya ij ésima entrada es la probabilidad de que el resultado de un encuentro particular entre X e Y sea j dado que el encuentro anterior fue i , donde i y j son uno de los cuatro índices de resultado: cc , cd , dc , o dd . Por ejemplo, desde el punto de vista de X , la probabilidad de que el resultado del encuentro actual sea cd dado que el encuentro anterior fue cd es igual a. (Los índices para Q son de Y punto de vista 's: a cd resultado para X es un dc resultado para Y ). Bajo estas definiciones, califica el dilema del prisionero iterado como un proceso estocástico y M es una matriz estocástica , lo que permite todos la teoría de los procesos estocásticos que se aplicará. [18]
Un resultado de la teoría estocástica es que existe un vector estacionario v para la matriz M tal que. Sin pérdida de generalidad, se puede especificar que v está normalizado de modo que la suma de sus cuatro componentes sea la unidad. La ij th entrada endará la probabilidad de que el resultado de un encuentro entre X e Y sea j dado que el encuentro n pasos anteriores es i . En el límite cuando n se acerca al infinito, M convergerá a una matriz con valores fijos, dando las probabilidades a largo plazo de un encuentro que produzca j, que será independiente de i . En otras palabras, las filas deserá idéntico, dando las probabilidades de resultado de equilibrio a largo plazo del dilema de los prisioneros iterados sin la necesidad de evaluar explícitamente un gran número de interacciones. Puede verse que v es un vector estacionario para y particularmente , de modo que cada fila de será igual a v . Así, el vector estacionario especifica las probabilidades resultado de equilibrio para X . Definiendo y como vectores de pago a corto plazo para los resultados {cc, cd, dc, dd} (Desde el punto de vista de X ), los pagos de equilibrio para X e Y ahora se pueden especificar como y , lo que permite comparar las dos estrategias P y Q por sus beneficios a largo plazo.
Estrategias de cero determinantes
En 2012, William H. Press y Freeman Dyson publicaron una nueva clase de estrategias para el dilema del prisionero iterado estocástico llamado estrategias de "determinante cero" (ZD). [18] Los beneficios a largo plazo de los encuentros entre X e Y se pueden expresar como el determinante de una matriz que es una función de las dos estrategias y los vectores de beneficios a corto plazo: y , que no involucran al vector estacionario v . Dado que la función determinantees lineal en f , se sigue que(donde U = {1,1,1,1}). Cualquier estrategia para la cual es por definición una estrategia ZD, y los beneficios a largo plazo obedecen a la relación .
El ojo por ojo es una estrategia de ZD que es "justa" en el sentido de no obtener ventaja sobre el otro jugador. Sin embargo, el espacio ZD también contiene estrategias que, en el caso de dos jugadores, pueden permitir que un jugador establezca unilateralmente la puntuación del otro jugador o, alternativamente, obligar a un jugador evolutivo a lograr una recompensa un porcentaje menor que la suya. El jugador extorsionado podría desertar pero, por lo tanto, se lastimaría a sí mismo al obtener una recompensa menor. Por lo tanto, las soluciones de extorsión convierten el dilema del prisionero repetido en una especie de juego de ultimátum . Específicamente, X puede elegir una estrategia para la cual, estableciendo unilateralmente a un valor específico dentro de un rango particular de valores, independientemente de la estrategia de Y , ofreciendo una oportunidad para que X "extorsione" al jugador Y (y viceversa). (Resulta que si X intenta establecera un valor particular, el rango de posibilidades es mucho menor, y solo consiste en una cooperación completa o una deserción total. [18] )
Una extensión del IPD es un IPD estocástico evolutivo, en el que se permite que cambie la abundancia relativa de estrategias particulares, con estrategias más exitosas que aumentan relativamente. Este proceso puede lograrse haciendo que los jugadores menos exitosos imiten las estrategias más exitosas, o eliminando a los jugadores menos exitosos del juego, mientras se multiplican los más exitosos. Se ha demostrado que las estrategias ZD injustas no son evolutivamente estables . La intuición clave es que una estrategia evolutivamente estable no solo debe ser capaz de invadir otra población (lo que pueden hacer las estrategias extorsivas de ZD) sino que también debe funcionar bien contra otros jugadores del mismo tipo (lo que los jugadores extorsivos de ZD hacen mal, porque reducen cada excedente de otros). [19]
La teoría y las simulaciones confirman que más allá de un tamaño de población crítico, la extorsión ZD pierde en la competencia evolutiva contra estrategias más cooperativas y, como resultado, la recompensa promedio en la población aumenta cuando la población es más grande. Además, hay algunos casos en los que los extorsionadores pueden incluso catalizar la cooperación al ayudar a romper un enfrentamiento entre desertores uniformes y agentes de ganar-quedarse, perder-cambiar . [11]
Si bien las estrategias ZD extorsivas no son estables en poblaciones grandes, otra clase ZD llamada estrategias "generosas" es estable y robusta. De hecho, cuando la población no es demasiado pequeña, estas estrategias pueden suplantar cualquier otra estrategia de ZD e incluso funcionar bien contra una amplia gama de estrategias genéricas para el dilema repetido del prisionero, incluyendo ganar-quedarse, perder-cambiar. Esto fue probado específicamente para el juego de donaciones por Alexander Stewart y Joshua Plotkin en 2013. [20] Las estrategias generosas cooperarán con otros jugadores cooperativos, y ante la deserción, el jugador generoso pierde más utilidad que su rival. Las estrategias generosas son la intersección de las estrategias ZD y las llamadas estrategias "buenas", que fueron definidas por Akin (2013) [21] como aquellas para las que el jugador responde a la cooperación mutua pasada con la cooperación futura y divide los pagos esperados por igual si recibe al menos la recompensa esperada por la cooperativa. Entre las buenas estrategias, el subconjunto generoso (ZD) funciona bien cuando la población no es demasiado pequeña. Si la población es muy pequeña, las estrategias de deserción tienden a dominar. [20]
El dilema del prisionero repetido continuo
La mayor parte del trabajo sobre el dilema del prisionero iterado se ha centrado en el caso discreto, en el que los jugadores cooperan o desertan, porque este modelo es relativamente sencillo de analizar. Sin embargo, algunos investigadores han analizado modelos del dilema del prisionero iterado continuo, en el que los jugadores pueden hacer una contribución variable al otro jugador. Le y Boyd [22] encontraron que en tales situaciones, la cooperación es mucho más difícil de evolucionar que en el dilema del prisionero iterado discreto. La intuición básica para este resultado es sencilla: en el dilema de un prisionero continuo, si una población comienza en un equilibrio no cooperativo, los jugadores que son solo marginalmente más cooperativos que los no cooperadores obtienen pocos beneficios al agruparse unos con otros. Por el contrario, en el dilema de un prisionero discreto, los cooperadores de ojo por ojo obtienen un gran impulso de recompensa al agruparse entre sí en un equilibrio no cooperativo, en relación con los no cooperadores. Dado que la naturaleza posiblemente ofrece más oportunidades para la cooperación variable en lugar de una dicotomía estricta de cooperación o deserción, el dilema del prisionero continuo puede ayudar a explicar por qué los ejemplos de la vida real de cooperación de ojo por ojo son extremadamente raros en la naturaleza (ej. Hammerstein [23]). ) a pesar de que ojo por ojo parece robusto en modelos teóricos.
Aparición de estrategias estables
Los jugadores parecen no poder coordinar la cooperación mutua, por lo que a menudo quedan atrapados en la estrategia inferior pero estable de la deserción. De esta forma, las rondas iteradas facilitan la evolución de estrategias estables. [24] Las rondas iteradas a menudo producen estrategias novedosas, que tienen implicaciones para la interacción social compleja. Una de esas estrategias es ganar-permanecer perder-turno. Esta estrategia supera a una estrategia simple de ojo por ojo, es decir, si puede salirse con la suya haciendo trampa, repita ese comportamiento; sin embargo, si lo atrapan, cambie. [25]
El único problema de esta estrategia de ojo por ojo es que son vulnerables a errores de señal. El problema surge cuando un individuo hace trampa en represalia, pero el otro lo interpreta como trampa. Como resultado de esto, el segundo individuo ahora hace trampa y luego comienza un patrón de vaivén de trampa en una reacción en cadena.
Ejemplos de la vida real
El entorno del prisionero puede parecer artificial, pero de hecho hay muchos ejemplos en la interacción humana, así como interacciones en la naturaleza que tienen la misma matriz de pagos. El dilema del prisionero es, por tanto, de interés para las ciencias sociales como la economía , la política y la sociología , así como para las ciencias biológicas como la etología y la biología evolutiva . Muchos procesos naturales se han abstraído en modelos en los que los seres vivos participan en un sinfín de juegos del dilema del prisionero. Esta amplia aplicabilidad de la DP le da al juego su importancia sustancial.
Estudios ambientales
En los estudios ambientales , la DP es evidente en crisis como el cambio climático global . Se argumenta que todos los países se beneficiarán de un clima estable, pero cualquier país a menudo duda en frenar el CO2emisiones. El beneficio inmediato para cualquier país de mantener el comportamiento actual se percibe erróneamente como mayor que el supuesto beneficio eventual para ese país si se cambiara el comportamiento de todos los países, lo que explica el estancamiento del cambio climático en 2007 [26].
Una diferencia importante entre la política del cambio climático y el dilema del prisionero es la incertidumbre; Se desconoce el alcance y el ritmo al que la contaminación puede cambiar el clima. El dilema al que se enfrenta el gobierno es, por tanto, diferente del dilema del prisionero en que se desconocen los beneficios de la cooperación. Esta diferencia sugiere que los estados cooperarán mucho menos que en el dilema de un prisionero iterado real, por lo que la probabilidad de evitar una posible catástrofe climática es mucho menor que la sugerida por un análisis de la situación teórico del juego utilizando el dilema del prisionero iterado real. [27]
Osang y Nandy (2003) proporcionan una explicación teórica con pruebas de una situación de ganar-ganar impulsada por la regulación en la línea de la hipótesis de Michael Porter , en la que la regulación gubernamental de las empresas competidoras es sustancial. [28]
Animales
El comportamiento cooperativo de muchos animales puede entenderse como un ejemplo del dilema del prisionero. A menudo, los animales se involucran en asociaciones a largo plazo, que pueden modelarse más específicamente como el dilema repetido del prisionero. Por ejemplo, los guppies inspeccionan a los depredadores cooperativamente en grupos, y se cree que castigan a los inspectores que no cooperan.
Los murciélagos vampiro son animales sociales que participan en un intercambio de alimentos recíproco. Aplicar los beneficios del dilema del prisionero puede ayudar a explicar este comportamiento: [29]
- Cooperar / Cooperar: "Recompensa: obtengo sangre en mis noches de mala suerte, lo que me salva de morir de hambre. Tengo que donar sangre en mis noches de suerte, lo que no me cuesta demasiado".
- Defecto / Cooperar: "Tentación: Me salvas la vida en mi pobre noche. Pero luego obtengo el beneficio adicional de no tener que pagar el pequeño costo de alimentarte en mi buena noche".
- Cooperar / Defecto: "La recompensa del tonto: pago el costo de salvar tu vida en mi buena noche. Pero en mi mala noche no me alimentas y corro un riesgo real de morir de hambre".
- Defecto / Defecto: "Castigo: no tengo que pagar los pequeños costos de alimentarte en mis buenas noches. Pero corro un riesgo real de morir de hambre en mis malas noches".
Psicología
En la investigación de la adicción / economía del comportamiento , George Ainslie señala [30] que la adicción puede plantearse como un problema de EP intertemporal entre el yo presente y el futuro del adicto. En este caso, desertar significa recaer , y es fácil ver que no desertar tanto hoy como en el futuro es, con mucho, el mejor resultado. El caso en el que uno se abstiene hoy pero recae en el futuro es el peor resultado; en cierto sentido, la disciplina y el autosacrificio involucrados en la abstinencia hoy se han "desperdiciado" porque la recaída futura significa que el adicto está de regreso donde comenzó y volverá tener que empezar de nuevo (lo cual es bastante desmoralizador y hace que empezar de nuevo sea más difícil). Recaer hoy y mañana es un resultado ligeramente "mejor", porque aunque el adicto todavía es adicto, no se ha esforzado en intentar dejar de hacerlo. El caso final, donde uno se involucra en el comportamiento adictivo hoy mientras se abstiene "mañana" será familiar para cualquiera que haya luchado con una adicción. El problema aquí es que (como en otros PD) hay un beneficio obvio de desertar "hoy", pero mañana uno se enfrentará al mismo PD, y el mismo beneficio obvio estará presente entonces, lo que en última instancia conducirá a una serie interminable de deserciones.
John Gottman en su investigación descrita en "La ciencia de la confianza" define las buenas relaciones como aquellas en las que los socios saben que no deben ingresar a la celda (D, D) o al menos no quedarse atrapados dinámicamente allí en un bucle. En la neurociencia cognitiva , la señalización cerebral rápida asociada con el procesamiento de diferentes rondas puede indicar opciones en la siguiente ronda. Los resultados de la cooperación mutua implican cambios en la actividad cerebral que predicen la rapidez con la que una persona cooperará en especie en la próxima oportunidad; [31] esta actividad puede estar vinculada a procesos homeostáticos y motivacionales básicos, posiblemente aumentando la probabilidad de atajar a la celda (C, C) del juego.
Ciencias económicas
El dilema del prisionero se ha denominado E. coli de la psicología social y se ha utilizado ampliamente para investigar diversos temas como la competencia oligopólica y la acción colectiva para producir un bien colectivo. [32]
A veces se cita la publicidad como un ejemplo real del dilema del prisionero. Cuando la publicidad de cigarrillos era legal en los Estados Unidos, los fabricantes de cigarrillos competidores tenían que decidir cuánto dinero gastar en publicidad. La efectividad de la publicidad de la Firma A fue determinada parcialmente por la publicidad realizada por la Firma B. Asimismo, la ganancia derivada de la publicidad para la Firma B se ve afectada por la publicidad realizada por la Firma A. Si tanto la Firma A como la Firma B optaron por anunciarse durante un período, entonces la publicidad de cada empresa niega la de la otra, los ingresos permanecen constantes y los gastos aumentan debido al costo de la publicidad. Ambas empresas se beneficiarían de una reducción de la publicidad. Sin embargo, si la empresa B opta por no hacer publicidad, la empresa A podría beneficiarse enormemente de la publicidad. No obstante, la cantidad óptima de publicidad de una empresa depende de la cantidad de publicidad que realice la otra. Como la mejor estrategia depende de lo que elija la otra empresa, no existe una estrategia dominante, lo que la diferencia ligeramente del dilema del prisionero. Sin embargo, el resultado es similar en el sentido de que ambas empresas estarían mejor si anunciaran menos que en el equilibrio. A veces, los comportamientos cooperativos surgen en situaciones comerciales. Por ejemplo, los fabricantes de cigarrillos respaldaron la elaboración de leyes que prohíben la publicidad de cigarrillos, entendiendo que esto reduciría los costos y aumentaría las ganancias en toda la industria. [ cita requerida ] [b] Es probable que este análisis sea pertinente en muchas otras situaciones comerciales relacionadas con la publicidad. [ cita requerida ]
Sin acuerdos exigibles, los miembros de un cartel también están involucrados en el dilema del prisionero (multijugador). [33] "Cooperar" normalmente significa mantener los precios en un nivel mínimo previamente acordado. "Defectuoso" significa vender por debajo de este nivel mínimo, arrebatando instantáneamente negocios (y ganancias) a otros miembros del cártel. Las autoridades antimonopolio quieren que los miembros potenciales del cártel deserten mutuamente, asegurando los precios más bajos posibles para los consumidores .
Deporte
El dopaje en el deporte se ha citado como un ejemplo del dilema del prisionero. [34]
Dos atletas que compiten tienen la opción de usar una droga ilegal y / o peligrosa para mejorar su rendimiento. Si ninguno de los atletas toma la droga, ninguno obtiene ventaja. Si solo uno lo hace, entonces ese atleta obtiene una ventaja significativa sobre su competidor, reducido por los peligros legales y / o médicos de haber tomado la droga. Sin embargo, si ambos atletas toman la droga, los beneficios se anulan y solo quedan los peligros, poniéndolos a ambos en una peor posición que si ninguno hubiera usado el dopaje. [34]
Politica internacional
En la teoría política internacional , el dilema del prisionero se usa a menudo para demostrar la coherencia del realismo estratégico , que sostiene que en las relaciones internacionales, todos los estados (independientemente de sus políticas internas o ideología profesada), actuarán en su propio interés racional dada la anarquía internacional. . Un ejemplo clásico es una carrera armamentista como la Guerra Fría y conflictos similares. [35] Durante la Guerra Fría, las alianzas opuestas de la OTAN y el Pacto de Varsovia tuvieron la opción de armar o desarmar. Desde el punto de vista de cada bando, desarmar mientras su oponente continuaba armando habría llevado a la inferioridad militar y a la posible aniquilación. Por el contrario, armar mientras su oponente estaba desarmado habría llevado a la superioridad. Si ambos bandos optaban por armarse, ninguno podía permitirse el lujo de atacar al otro, pero ambos incurrían en el alto costo de desarrollar y mantener un arsenal nuclear. Si ambos bandos optaban por desarmarse, se evitaría la guerra y no habría costos.
Aunque el "mejor" resultado general es que ambas partes se desarmen, el curso racional para ambas partes es armarse, y esto es lo que sucedió. Ambas partes invirtieron enormes recursos en investigación militar y armamento en una guerra de desgaste durante los siguientes treinta años hasta que la Unión Soviética no pudo soportar el costo económico. [36] La misma lógica podría aplicarse en cualquier escenario similar, ya sea la competencia económica o tecnológica entre estados soberanos.
Dilemas multijugador
Muchos dilemas de la vida real involucran a varios jugadores. [37] Aunque metafórica, la tragedia de los bienes comunes de Hardin puede verse como un ejemplo de una generalización multijugador de la DP: cada aldeano hace una elección para beneficio personal o moderación. La recompensa colectiva por la deserción unánime (o incluso frecuente) son pagos muy bajos (que representan la destrucción de los "bienes comunes"). Un dilema común con el que la mayoría de la gente puede identificarse es lavar los platos en una casa compartida. Al no lavar los platos, un individuo puede ganar ahorrando su tiempo, pero si ese comportamiento es adoptado por todos los residentes, el costo colectivo no es platos limpios para nadie.
Los bienes comunes no siempre son explotados: William Poundstone , en un libro sobre el dilema del prisionero, describe una situación en Nueva Zelanda donde las cajas de periódicos se dejan sin llave. Es posible que la gente tome un papel sin pagar ( desertar ) pero muy pocos lo hacen, sintiendo que si no pagan, tampoco lo harán otros, destruyendo el sistema. [38] Una investigación posterior realizada por Elinor Ostrom , ganadora del Premio Nobel de Ciencias Económicas en 2009 , planteó la hipótesis de que la tragedia de los bienes comunes está muy simplificada, con el resultado negativo influenciado por influencias externas. Sin complicar las presiones, los grupos se comunican y administran los bienes comunes entre ellos para su beneficio mutuo, haciendo cumplir las normas sociales para preservar el recurso y lograr el máximo beneficio para el grupo, un ejemplo de cómo lograr el mejor resultado de caso para la EP. [39] [40]
Juegos relacionados
Cambio de bolsa cerrada
Douglas Hofstadter [41] sugirió una vez que las personas a menudo encuentran problemas como el de la EP más fáciles de entender cuando se ilustra en forma de un juego simple o de compensación. Uno de los varios ejemplos que usó fue "intercambio de bolsa cerrada":
Dos personas se encuentran e intercambian bolsas cerradas, en el entendido de que una de ellas contiene dinero y la otra contiene una compra. Cualquiera de los jugadores puede optar por respetar el trato poniendo en su bolsa lo que acordó, o puede desertar entregando una bolsa vacía.
La deserción siempre da un resultado teóricamente preferible del juego. [42]
¿Amigo o enemigo?
¿Amigo o enemigo? es un programa de juegos que se transmitió de 2002 a 2003 en Game Show Network en los EE. UU. Es un ejemplo del juego del dilema del prisionero probado en personas reales, pero en un entorno artificial. En el programa de juegos, compiten tres parejas de personas. Cuando se elimina una pareja, juegan un juego similar al dilema del prisionero para determinar cómo se dividen las ganancias. Si ambos cooperan (amigo), comparten las ganancias 50–50. Si uno coopera y el otro falla (Enemigo), el desertor obtiene todas las ganancias y el cooperador no obtiene nada. Si ambos fallan, ambos se van sin nada. Observe que la matriz de recompensas es ligeramente diferente de la estándar dada anteriormente, ya que las recompensas para los casos de "ambos defectos" y "cooperan mientras el oponente falla" son idénticas. Esto hace que el caso de "ambos defectos" sea un equilibrio débil, en comparación con un equilibrio estricto en el dilema del prisionero estándar. Si un concursante sabe que su oponente va a votar "Enemigo", entonces su propia elección no afecta sus propias ganancias. En un sentido específico, Friend or Foe tiene un modelo de recompensas entre el dilema del prisionero y el juego de Chicken .
La matriz de recompensas es
Pareja 2 Pareja 1 | "Amigo" (cooperar) | "Enemigo" (defecto) |
---|---|---|
"Amigo" (cooperar) | 1 1 | 2 0 |
"Enemigo" (defecto) | 0 2 | 0 0 |
Esta matriz de pagos también se ha utilizado en los programas de televisión británicos Trust Me , Shafted , The Bank Job y Golden Balls , y en los programas de juegos estadounidenses Take It All , así como para la pareja ganadora en los programas de telerrealidad Bachelor Pad . Los datos del juego de la serie Golden Balls han sido analizados por un equipo de economistas, quienes encontraron que la cooperación era "sorprendentemente alta" para cantidades de dinero que parecerían importantes en el mundo real, pero que eran comparativamente bajas en el contexto del juego. [43]
Ventisquero iterado
Investigadores de la Universidad de Lausana y la Universidad de Edimburgo han sugerido que el "Juego Iterado del Ventisquero" puede reflejar más de cerca situaciones sociales del mundo real. Aunque este modelo es en realidad un juego de gallinas , aquí se describirá. En este modelo, el riesgo de ser explotado a través de la deserción es menor y los individuos siempre se benefician al elegir la opción cooperativa. El juego de ventisquero imagina a dos conductores que están atrapados en lados opuestos de un ventisquero , cada uno de los cuales tiene la opción de quitar la nieve para despejar el camino o permanecer en su automóvil. La recompensa más alta de un jugador proviene de dejar que el oponente despeje toda la nieve por sí mismo, pero el oponente sigue siendo recompensado nominalmente por su trabajo.
Esto puede reflejar mejor los escenarios del mundo real, los investigadores dan el ejemplo de dos científicos que colaboran en un informe, y ambos se beneficiarían si el otro trabajara más duro. "Pero cuando su colaborador no hace ningún trabajo, probablemente sea mejor que usted mismo haga todo el trabajo. Aún así, terminará con un proyecto terminado". [44]
|
|
Juegos de coordinacion
En los juegos de coordinación, los jugadores deben coordinar sus estrategias para obtener un buen resultado. Un ejemplo son dos autos que se encuentran abruptamente en una tormenta de nieve; cada uno debe elegir si desviarse hacia la izquierda o hacia la derecha. Si ambos se desvían hacia la izquierda o hacia la derecha, los autos no chocan. La convención local de circulación por la derecha y la izquierda ayuda a coordinar sus acciones.
Los juegos de coordinación simétrica incluyen la caza del ciervo y Bach o Stravinsky .
Dilemas asimétricos del prisionero
Un conjunto de juegos más general es asimétrico. Como en el dilema del prisionero, el mejor resultado es la cooperación y existen motivos para la deserción. Sin embargo, a diferencia del dilema del prisionero simétrico, un jugador tiene más que perder y / o más que ganar que el otro. Algunos de estos juegos se han descrito como el dilema del prisionero en el que un prisionero tiene una coartada , de ahí el término "juego de coartada". [45]
En los experimentos, los jugadores que obtienen pagos desiguales en juegos repetidos pueden buscar maximizar las ganancias, pero solo bajo la condición de que ambos jugadores reciban pagos iguales; esto puede conducir a una estrategia de equilibrio estable en la que el jugador en desventaja desecha cada X juegos, mientras que el otro siempre coopera. Tal comportamiento puede depender de las normas sociales del experimento en torno a la equidad. [46]
Software
Se han creado varios paquetes de software para ejecutar simulaciones y torneos de dilemas de prisioneros, algunos de los cuales tienen código fuente disponible.
- El código fuente del segundo torneo dirigido por Robert Axelrod (escrito por Axelrod y muchos colaboradores en Fortran ) está disponible en línea.
- Prison , una biblioteca escrita en Java , actualizada por última vez en 1998
- Axelrod-Python , escrito en Python
- juega el Dilema del Prisionero Iterativo en el navegador , juega contra estrategias o deja que las estrategias jueguen contra otras estrategias
En ficción
Hannu Rajaniemi estableció la escena inicial de su trilogía The Quantum Thief en una "prisión de dilemas". El tema principal de la serie se ha descrito como la "insuficiencia de un universo binario" y el antagonista definitivo es un personaje llamado All-Defector. Rajaniemi es particularmente interesante como artista que trata este tema, ya que es un matemático formado en Cambridge y tiene un doctorado en física matemática : la intercambiabilidad de la materia y la información es una característica importante de los libros, que tienen lugar en una "post-singularidad " futuro. El primer libro de la serie se publicó en 2010, con las dos secuelas, The Fractal Prince y The Causal Angel , publicadas en 2012 y 2014, respectivamente.
Un juego inspirado en el dilema del prisionero (iterado) es un foco central del videojuego de 2012 Zero Escape: Virtue's Last Reward y una parte menor en su secuela de 2016 Zero Escape: Zero Time Dilemma .
En The Mysterious Benedict Society and the Prisoner's Dilemma de Trenton Lee Stewart , los personajes principales comienzan jugando una versión del juego y escapan de la "prisión" por completo. Más tarde se convierten en verdaderos prisioneros y escapan una vez más.
En The Adventure Zone : Balance durante el subarco de The Suffering Game , a los personajes del jugador se les presenta dos veces el dilema del prisionero durante su tiempo en el dominio de dos liches, una vez cooperando y una vez desertando.
En la octava novela del autor James SA Corey Tiamat's Wrath , Winston Duarte explica el dilema de los prisioneros a su hija de 14 años, Teresa, para entrenarla en pensamiento estratégico. [ cita requerida ]
Esto se examina literalmente en la película de 2019 La plataforma , donde los reclusos en una prisión vertical solo pueden comer lo que sobran los que están por encima de ellos. Si todos comieran su parte justa, habría suficiente comida, pero los que están en los niveles más bajos se mueren de hambre debido al consumo excesivo de los presos más altos .
Ver también
- Paradoja de Abilene
- Juego de ciempiés
- Tregua de navidad
- Exterioridad
- Teorema popular (teoría de juegos)
- Problema del polizón
- Trampa hobbesiana
- El dilema del prisionero inocente
- Juego de mentiras
- El dilema del prisionero opcional
- El dilema y la cooperación del prisionero
- Juego de bienes públicos
- Juego de intercambio de regalos
- Altruismo recíproco
- La busqueda de rentas
- Preferencias sociales
- Teoría de la confianza rápida
- El dilema del comensal sin escrúpulos
Referencias
- ^ Por ejemplo, ver el estudio de 2003 [15] para una discusión del concepto y si se puede aplicar en situaciones económicas o estratégicasreales.
- ↑ Este argumento para el desarrollo de la cooperación a través de la confianza se da en The Wisdom of Crowds , donde se argumenta que el capitalismo a distanciapudo formarse alrededor de un núcleo de cuáqueros , que siempre trataron honorablemente a sus socios comerciales. (En lugar de desertar y renegar de las promesas, un fenómeno que había desalentado los anteriores contratos internacionales inaplicables a largo plazo). Se argumenta que el trato con comerciantes confiables permitió que el meme de cooperación se extendiera a otros comerciantes, quienes lo difundieron aún más hasta que un alto grado de cooperación se convirtió en una estrategia rentable en el comercio general.
- ^ Poundstone 1993 , págs.8, 117.
- ^ Milovsky, Nicolás. "Los fundamentos de la teoría de juegos y los juegos asociados" . Consultado el 11 de febrero de 2014 .
- ^ Fehr, Ernst; Fischbacher, Urs (23 de octubre de 2003). "La naturaleza del altruismo humano" (PDF) . Naturaleza . 425 (6960): 785–91. Código Bibliográfico : 2003Natur.425..785F . doi : 10.1038 / nature02043 . PMID 14574401 . S2CID 4305295 . Consultado el 27 de febrero de 2013 .
- ^ Tversky, Amos; Shafir, Eldar (2004). Preferencia, creencia y similitud: escritos seleccionados (PDF) . Prensa del Instituto Tecnológico de Massachusetts. ISBN 9780262700931. Consultado el 27 de febrero de 2013 .
- ^ Toh-Kyeong, Ahn; Ostrom, Elinor; Walker, James (5 de septiembre de 2002). "Incorporación de la heterogeneidad motivacional en modelos teóricos de juegos de acción colectiva" (PDF) . Elección pública . 117 (3–4): 295–314. doi : 10.1023 / b: puch.0000003739.54365.fd . hdl : 10535/4697 . S2CID 153414274 . Consultado el 27 de junio de 2015 .
- ^ Oosterbeek, Hessel; Sloof, Randolph; Van de Kuilen, Gus (3 de diciembre de 2003). "Diferencias culturales en experimentos de juego de ultimátum: evidencia de un metaanálisis" (PDF) . Economía experimental . 7 (2): 171–88. doi : 10.1023 / B: EXEC.0000026978.14316.74 . S2CID 17659329 . Archivado desde el original (PDF) el 12 de mayo de 2013 . Consultado el 27 de febrero de 2013 .
- ^ Ormerod, Paul (22 de diciembre de 2010). Por qué fallan la mayoría de las cosas . ISBN 9780571266142.
- ^ Deutsch, M. (1958). Confianza y sospecha. Revista de resolución de conflictos, 2 (4), 265-279. https://doi.org/10.1177/002200275800200401
- ^ Rapoport, A. y Chammah, AM (1965). El dilema del prisionero: un estudio del conflicto y la cooperación. Ann Arbor, MI: Prensa de la Universidad de Michigan.
- ^ Kaznatcheev, Artem (2 de marzo de 2015). "Breve historia de los torneos repetidos del dilema del prisionero" . Revista de resolución de conflictos . 24 (3): 379–403. doi : 10.1177 / 002200278002400301 . Consultado el 8 de febrero de 2016 .
- ^ a b Hilbe, Christian; Martin A. Nowak; Karl Sigmund (abril de 2013). "Evolución de la extorsión en juegos Iterated Prisoner's Dilemma" . PNAS . 110 (17): 6913–18. arXiv : 1212.1067 . Código Bibliográfico : 2013PNAS..110.6913H . doi : 10.1073 / pnas.1214834110 . PMC 3637695 . PMID 23572576 .
- ^ Tímido, Oz (1995). Organización industrial: teoría y aplicaciones . Prensa del Instituto Tecnológico de Massachusetts. ISBN 978-0262193665. Consultado el 27 de febrero de 2013 .
- ^ Dal Bó, Pedro; Fréchette, Guillaume R. (2019). "Elección de estrategia en el dilema del prisionero repetido infinitamente". American Economic Review . 109 (11): 3929–3952. doi : 10.1257 / aer.20181480 . ISSN 0002-8282 .
- ^ Wedekind, C .; Milinski, M. (2 de abril de 1996). "Cooperación humana en el dilema del prisionero simultáneo y alterno: Pavlov versus generoso ojo por ojo" . Actas de la Academia Nacional de Ciencias . 93 (7): 2686–2689. Código Bibliográfico : 1996PNAS ... 93.2686W . doi : 10.1073 / pnas.93.7.2686 . PMC 39691 . PMID 11607644 .
- ^ "Equilibrio bayesiano de Nash; una prueba estadística de la hipótesis" (PDF) . Universidad de Tel Aviv . Archivado desde el original (PDF) el 2005-10-02.
- ^ Wu, Jiadong; Zhao, Chengye (2019), Sun, Xiaoming; Él, Kun; Chen, Xiaoyun (eds.), "Cooperación en la regla de Monte Carlo: El juego del dilema del prisionero en la red", Theoretical Computer Science , Springer Singapur, 1069 , págs. 3–15, doi : 10.1007 / 978-981-15-0105 -0_1 , ISBN 978-981-15-0104-3, S2CID 118687103
- ^ "El equipo de la Universidad de Southampton gana el concurso Prisoner's Dilemma" (Comunicado de prensa). Universidad de Southampton. 7 de octubre de 2004. Archivado desde el original el 21 de abril de 2014.
- ^ a b c d e Presione, WH; Dyson, FJ (26 de junio de 2012). "Iterated Prisoner's Dilemma contiene estrategias que dominan a cualquier oponente evolutivo" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 109 (26): 10409-13. Código bibliográfico : 2012PNAS..10910409P . doi : 10.1073 / pnas.1206569109 . PMC 3387070 . PMID 22615375 .
- ^ Adami, Christoph; Arend Hintze (2013). "La inestabilidad evolutiva de las estrategias Zero Determinant demuestra que ganar no lo es todo" . Comunicaciones de la naturaleza . 4 : 3. arXiv : 1208.2666 . Código Bibliográfico : 2013NatCo ... 4.2193A . doi : 10.1038 / ncomms3193 . PMC 3741637 . PMID 23903782 .
- ^ a b Stewart, Alexander J .; Joshua B. Plotkin (2013). "De la extorsión a la generosidad, evolución en el dilema del prisionero iterado" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 110 (38): 15348–53. Código Bibliográfico : 2013PNAS..11015348S . doi : 10.1073 / pnas.1306246110 . PMC 3780848 . PMID 24003115 .
- ^ Akin, Ethan (2013). "Soluciones cooperativas estables para el dilema del prisionero iterado". pag. 9. arXiv : 1211.0969 [ math.DS ]. Código bibliográfico : 2012arXiv1211.0969A
- ^ Le S, Boyd R (2007). "Dinámica evolutiva del dilema del prisionero iterado continuo". Revista de Biología Teórica . 245 (2): 258–67. doi : 10.1016 / j.jtbi.2006.09.016 . PMID 17125798 .
- ^ Hammerstein, P. (2003). ¿Por qué la reciprocidad es tan rara en los animales sociales? Un llamamiento protestante. En: P. Hammerstein, Editor, Evolución genética y cultural de la cooperación, MIT Press. págs. 83–94.
- ^ Perro de aguas, William (2011). Teoría de juegos 101: el libro de texto completo .
- ^ Nowak, Martin; Karl Sigmund (1993). "Una estrategia de ganar-quedarse, perder-turno que supera al ojo por ojo en el juego Prisoner's Dilemma". Naturaleza . 364 (6432): 56–58. Código Bibliográfico : 1993Natur.364 ... 56N . doi : 10.1038 / 364056a0 . PMID 8316296 . S2CID 4238908 .
- ^ "Mercados y datos" . The Economist . 2007-09-27.
- ^ Rehmeyer, Julie (29 de octubre de 2012). "La teoría de juegos sugiere que las negociaciones climáticas actuales no evitarán una catástrofe" . Noticias de ciencia . Sociedad para la ciencia y el público.
- ^ Osang, Thomas; Nandyyz, Arundhati (agosto de 2003). Regulación ambiental de empresas contaminantes: revisión de la hipótesis de Porter (PDF) (artículo).
- ^ Dawkins, Richard (1976). El gen egoísta . Prensa de la Universidad de Oxford.
- ^ Ainslie, George (2001). Desglose de la voluntad . ISBN 978-0-521-59694-7.
- ^ Cervantes Constantino, Garat, Nicolaisen, Paz, Martínez-Montes, Kessel, Cabana y Gradin (2020). "El procesamiento neuronal de los resultados del dilema del prisionero repetido indica la elección de la siguiente ronda y la velocidad para corresponder a la cooperación" . Neurociencia social . 16 (2): 103-120. doi : 10.1080 / 17470919.2020.1859410 . PMID 33297873 .CS1 maint: varios nombres: lista de autores ( enlace )
- ^ Axelrod, Robert (1980). "Elección eficaz en el dilema del prisionero" . La Revista de Resolución de Conflictos . 24 (1): 3–25. doi : 10.1177 / 002200278002400101 . ISSN 0022-0027 . JSTOR 173932 . S2CID 143112198 .
- ^ Nicholson, Walter (2000). Microeconomía intermedia y su aplicación (8ª ed.). Fort Worth, TX: Dryden Press: Harcourt College Publishers. ISBN 978-0-030-25916-6.
- ^ a b Schneier, Bruce (26 de octubre de 2012). "Lance Armstrong y el dilema de los prisioneros del dopaje en los deportes profesionales | Opinión cableada" . Cableado . Wired.com . Consultado el 29 de octubre de 2012 .
- ^ Stephen J. Majeski (1984). "Carreras de armas como juegos de dilema del prisionero repetidos". Ciencias Matemáticas y Sociales . 7 (3): 253–66. doi : 10.1016 / 0165-4896 (84) 90022-2 .
- ^ Kuhn, Steven (2019), "Prisoner's Dilemma" , en Zalta, Edward N. (ed.), The Stanford Encyclopedia of Philosophy (ed. De invierno de 2019), Metaphysics Research Lab, Stanford University , consultado el 12 de abril de 2020
- ^ Gokhale CS, Traulsen A. Juegos evolutivos en el multiverso. Procedimientos de la Academia Nacional de Ciencias. 23 de marzo de 2010. 107 (12): 5500–04.
- ^ Poundstone 1993 , págs. 126-127.
- ^ "El Volokh conspiración" Elinor Ostrom y la tragedia de los comunes" . Volokh.com. 2009-10-12 . Obtenido 2011-12-17 .
- ^ Ostrom, Elinor (2015) [1990]. Goberning the Commons: The Evolution of Institutions for Collective Action . Prensa de la Universidad de Cambridge. doi : 10.1017 / CBO9781316423936 . ISBN 978-1-107-56978-2.
- ^ Hofstadter, Douglas R. (1985). "Ch.29 Torneos informáticos del dilema del prisionero y la evolución de la cooperación ". Temas metamágicos: búsqueda de la esencia de la mente y el patrón . Bantam Dell Pub Group. ISBN 978-0-465-04566-2.
- ^ "Dilema del prisionero - Wikipedia, la enciclopedia libre" . users.auth.gr . Consultado el 12 de abril de 2020 .
- ^ Van den Assem, Martijn J. (enero de 2012). "¿Partir o robar? Comportamiento cooperativo cuando hay mucho en juego" . Ciencias de la gestión . 58 (1): 2-20. doi : 10.1287 / mnsc.1110.1413 . hdl : 1765/31292 . S2CID 1371739 . SSRN 1592456 .
- ^ Kümmerli, Rolf. " El juego ' Ventisquero' encabeza el 'Dilema del prisionero' al explicar la cooperación" . Consultado el 11 de abril de 2012 .
- ^ Robinson, DR; Goforth, DJ (5 de mayo de 2004). Juegos de coartada: los dilemas del prisionero asimétrico (PDF) . Reuniones de la Asociación Canadiense de Economía, Toronto, 4-6 de junio de 2004.
- ^ Beckenkamp, Martin; Hennig-Schmidt, Heike; Maier-Rigaud, Frank P. (4 de marzo de 2007). "Cooperación en juegos de dilema del prisionero simétrico y asimétrico" (PDF) . Instituto Max Planck de Investigación sobre Bienes Colectivos .
Otras lecturas
- Amadae, S. (2016). "El dilema del prisionero" , Prisioneros de la razón . Cambridge University Press , Nueva York, págs. 24–61.
- Aumann, Robert (1959). "Puntos aceptables en juegos cooperativos generales de n- personas". En Luce, RD; Tucker, AW (eds.). Contribuciones a la teoría 23 de los juegos IV . Estudio de los Anales de Matemáticas. 40 . Princeton, Nueva Jersey: Princeton University Press. págs. 287–324. Señor 0104521 .
- Axelrod, R. (1984). La evolución de la cooperación . ISBN 0-465-02121-2
- Bicchieri, Cristina (1993). Racionalidad y Coordinación. Prensa de la Universidad de Cambridge .
- Chess, David M. (diciembre de 1988). "Simulando la evolución del comportamiento: el problema del dilema de los prisioneros iterados" (PDF) . Sistemas complejos . 2 (6): 663–70.
- Dresher, M. (1961). Las matemáticas de los juegos de estrategia: teoría y aplicaciones Prentice-Hall , Englewood Cliffs, Nueva Jersey.
- Greif, A. (2006). Instituciones y el camino hacia la economía moderna: lecciones del comercio medieval. Cambridge University Press, Cambridge , Reino Unido.
- Kopelman, Shirli (febrero de 2020). "Ojo por ojo y más allá: la obra legendaria de Anatol Rapoport" . Investigación en Negociación y Manejo de Conflictos . 13 (1): 60–84. doi : 10.1111 / ncmr.12172 .
- Poundstone, William (1993). El dilema del prisionero (primera edición de Anchor Books). Nueva York: Anchor. ISBN 0-385-41580-X.
- Rapoport, Anatol y Albert M. Chammah (1965). El dilema del prisionero . Prensa de la Universidad de Michigan .
enlaces externos
- Medios relacionados con el dilema del prisionero en Wikimedia Commons
- El dilema del prisionero ( Enciclopedia de Filosofía de Stanford )
- El dilema del Bowerbird El dilema del prisionero en ornitología: caricatura matemática de Larry Gonick.
- El dilema del prisionero El dilema del prisionero con minifiguras de Lego.
- Dixit, Avinash ; Nalebuff, Barry (2008). "El dilema del prisionero" . En David R. Henderson (ed.). Enciclopedia Concisa de Economía (2ª ed.). Indianápolis: Biblioteca de Economía y Libertad . ISBN 978-0865976658. OCLC 237794267 .
- Teoría de juegos 101: El dilema del prisionero
- Dawkins: los chicos buenos terminan primero
- Biblioteca de Python del dilema del prisionero iterado de Axelrod
- Juega el dilema del prisionero iterado en gametheorygames.nl
- Juega El dilema del prisionero en oTree (N / A 11-5-17)
- Evolución de la confianza de Nicky Case , un ejemplo del juego de la donación
- Juego en línea Iterated Prisoner's Dilemma de Wayne Davis