囚徒困境
一、核心定义
囚徒困境(Prisoner's Dilemma)是博弈论中最著名的博弈,展示了个体理性与集体理性的冲突。在囚徒困境中,每个参与者都有占优策略,但占优策略均衡导致的结果对双方都不如合作结果。
经典故事:
两个嫌疑人被分开审讯,各有两个选择:
- 坦白(Confess, C):背叛同伙
- 抵赖(Deny, D):保持沉默
支付矩阵(刑期,负数表示效用):
| C | D | |
|---|---|---|
| C | -5,-5 | 0,-10 |
| D | -10,0 | -1,-1 |
占优策略均衡:
无论对方选择什么,坦白总是更优:
- 对方C:自己C(-5) > D(-10)
- 对方D:自己C(0) > D(-1)
因此
二、理论推导 / 核心逻辑
一般形式:
支付矩阵:
| 合作(C) | 背叛(D) | |
|---|---|---|
| 合作(C) | ||
| 背叛(D) |
囚徒困境的条件:
其中:
:背叛诱惑(Temptation) :合作回报(Reward) :惩罚(Punishment) :受骗支付(Sucker's payoff)
占优策略:
对于参与者1:
- 对方C时:
(背叛更优) - 对方D时:
(背叛更优)
背叛是严格占优策略。
纳什均衡:
帕累托效率:
但个体理性导致帕累托次优结果。
三、关键结论
- 囚徒困境有唯一纳什均衡(双方背叛)
- 纳什均衡不是帕累托最优
- 个体理性导致集体非理性
- 占优策略均衡可能导致次优结果
- 重复博弈可能实现合作
- 沟通和承诺机制可以改善结果
四、图形解释
支付矩阵图:
标准2×2矩阵,用下划线标出最优反应:
| C | D | |
|---|---|---|
| C | 3,3 | 0,5 |
| D | 5,0 | 1,1 |
双重下划线的格子是纳什均衡。
帕累托前沿:
在支付空间中:
: 在帕累托前沿上 : 在帕累托前沿内部 : 在帕累托前沿上 : 在帕累托前沿上
五、例子(现实或数值)
例子1:经典囚徒困境
支付(效用):
| C | D | |
|---|---|---|
| C | 3,3 | 0,5 |
| D | 5,0 | 1,1 |
满足
纳什均衡:
帕累托最优:
例子2:军备竞赛
两国选择:军备(A)或裁军(D)
| D | A | |
|---|---|---|
| D | 3,3 | 0,4 |
| A | 4,0 | 1,1 |
纳什均衡:
合作结果:
例子3:价格战
两企业选择:高价(H)或低价(L)
| H | L | |
|---|---|---|
| H | 100,100 | 20,120 |
| L | 120,20 | 50,50 |
纳什均衡:
合谋结果:
但每个企业都有降价动机(背叛诱惑)。
例子4:公共物品供给
两人决定是否贡献公共物品:
| 贡献 | 不贡献 | |
|---|---|---|
| 贡献 | 4,4 | 1,6 |
| 不贡献 | 6,1 | 2,2 |
纳什均衡:双方都不贡献,支付
社会最优:双方都贡献,支付
这解释了公共物品供给不足的问题。
例子5:环境污染
两国选择:减排(R)或污染(P)
| R | P | |
|---|---|---|
| R | 50,50 | 20,60 |
| P | 60,20 | 30,30 |
纳什均衡:
合作结果:
需要国际协议和执行机制。
六、相关知识
七、现实应用
- 寡头竞争:企业间的价格战、产量竞争
- 国际关系:军备竞赛、贸易保护
- 环境政策:国家间的减排博弈
- 公共物品:搭便车问题
- 团队合作:偷懒与努力的选择
八、小结
囚徒困境揭示了个体理性与集体理性的冲突,占优策略均衡导致帕累托次优结果。囚徒困境广泛存在于经济、政治和社会生活中,解决方法包括重复博弈、声誉机制、惩罚机制和制度设计。理解囚徒困境对于分析合作问题和设计激励机制至关重要。