Skip to content

囚徒困境

一、核心定义

囚徒困境(Prisoner's Dilemma)是博弈论中最著名的博弈,展示了个体理性与集体理性的冲突。在囚徒困境中,每个参与者都有占优策略,但占优策略均衡导致的结果对双方都不如合作结果。

经典故事:

两个嫌疑人被分开审讯,各有两个选择:

  • 坦白(Confess, C):背叛同伙
  • 抵赖(Deny, D):保持沉默

支付矩阵(刑期,负数表示效用):

CD
C-5,-50,-10
D-10,0-1,-1

占优策略均衡:

无论对方选择什么,坦白总是更优:

  • 对方C:自己C(-5) > D(-10)
  • 对方D:自己C(0) > D(-1)

因此 (C,C) 是唯一纳什均衡,但 (D,D) 对双方都更好(帕累托改进)。

二、理论推导 / 核心逻辑

一般形式:

支付矩阵:

合作(C)背叛(D)
合作(C)R,RS,T
背叛(D)T,SP,P

囚徒困境的条件:

T>R>P>S2R>T+S

其中:

  • T:背叛诱惑(Temptation)
  • R:合作回报(Reward)
  • P:惩罚(Punishment)
  • S:受骗支付(Sucker's payoff)

占优策略:

对于参与者1:

  • 对方C时:T>R (背叛更优)
  • 对方D时:P>S (背叛更优)

背叛是严格占优策略。

纳什均衡:

(D,D) 是唯一纳什均衡,支付 (P,P)

帕累托效率:

(C,C) 帕累托优于 (D,D),因为 R>P

但个体理性导致帕累托次优结果。

三、关键结论

  1. 囚徒困境有唯一纳什均衡(双方背叛)
  2. 纳什均衡不是帕累托最优
  3. 个体理性导致集体非理性
  4. 占优策略均衡可能导致次优结果
  5. 重复博弈可能实现合作
  6. 沟通和承诺机制可以改善结果

四、图形解释

支付矩阵图:

标准2×2矩阵,用下划线标出最优反应:

CD
C3,30,5
D5,01,1

双重下划线的格子是纳什均衡。

帕累托前沿:

在支付空间中:

  • (C,C):(3,3) 在帕累托前沿上
  • (D,D):(1,1) 在帕累托前沿内部
  • (C,D):(0,5) 在帕累托前沿上
  • (D,C):(5,0) 在帕累托前沿上

五、例子(现实或数值)

例子1:经典囚徒困境

支付(效用):

CD
C3,30,5
D5,01,1

满足 T=5>R=3>P=1>S=02R=6>T+S=5

纳什均衡:(D,D),支付 (1,1)

帕累托最优:(C,C),支付 (3,3)

例子2:军备竞赛

两国选择:军备(A)或裁军(D)

DA
D3,30,4
A4,01,1

纳什均衡:(A,A) 双方军备,支付 (1,1)

合作结果:(D,D) 双方裁军,支付 (3,3) 更优

例子3:价格战

两企业选择:高价(H)或低价(L)

HL
H100,10020,120
L120,2050,50

纳什均衡:(L,L) 价格战,利润 (50,50)

合谋结果:(H,H) 高价,利润 (100,100) 更优

但每个企业都有降价动机(背叛诱惑)。

例子4:公共物品供给

两人决定是否贡献公共物品:

贡献不贡献
贡献4,41,6
不贡献6,12,2

纳什均衡:双方都不贡献,支付 (2,2)

社会最优:双方都贡献,支付 (4,4)

这解释了公共物品供给不足的问题。

例子5:环境污染

两国选择:减排(R)或污染(P)

RP
R50,5020,60
P60,2030,30

纳什均衡:(P,P) 双方污染

合作结果:(R,R) 双方减排更优

需要国际协议和执行机制。

六、相关知识

七、现实应用

  1. 寡头竞争:企业间的价格战、产量竞争
  2. 国际关系:军备竞赛、贸易保护
  3. 环境政策:国家间的减排博弈
  4. 公共物品:搭便车问题
  5. 团队合作:偷懒与努力的选择

八、小结

囚徒困境揭示了个体理性与集体理性的冲突,占优策略均衡导致帕累托次优结果。囚徒困境广泛存在于经济、政治和社会生活中,解决方法包括重复博弈、声誉机制、惩罚机制和制度设计。理解囚徒困境对于分析合作问题和设计激励机制至关重要。

经济学知识库