重复博弈

一、核心定义

重复博弈(Repeated Game)是指同一个博弈被重复进行多次,参与者在每一轮都观察到之前的历史,并据此调整策略。重复博弈的核心洞见是:即使单次博弈的纳什均衡是不合作,重复博弈中合作也可能成为均衡。

分类:

有限次重复博弈:博弈重复固定次数 $T$
无限次重复博弈:博弈无限期重复

策略类型:

触发策略(Trigger Strategy):根据历史采取行动
冷酷策略(Grim Trigger):一旦对方背叛,永远报复
以牙还牙(Tit-for-Tat):模仿对方上一轮行动

贴现因子 $δ$ :

未来收益的现值权重, $0 < δ < 1$

$δ$ 越大,越重视未来,越容易合作。

二、理论推导 / 核心逻辑

无限次重复囚徒困境:

单次博弈支付矩阵:

	合作(C)	背叛(D)
合作(C)	3,3	0,5
背叛(D)	5,0	1,1

单次纳什均衡:(D, D),支付 $(1, 1)$

冷酷策略:

第一轮:合作
后续:若对方曾背叛,永远背叛;否则合作

双方都采用冷酷策略是否为均衡?

合作路径收益:

V_{c o o p} = 3 + 3 δ + 3 δ^{2} + \dots = \frac{3}{1 - δ}

背叛一次后的收益:

V_{d e v i a t e} = 5 + 1 δ + 1 δ^{2} + \dots = 5 + \frac{δ}{1 - δ}

合作条件:

V_{c o o p} \geq V_{d e v i a t e}

\frac{3}{1 - δ} \geq 5 + \frac{δ}{1 - δ}

3 \geq 5 (1 - δ) + δ

3 \geq 5 - 4 δ

δ \geq \frac{1}{2}

民间定理(Folk Theorem):

在无限次重复博弈中,任何个体理性的支付都可以通过某种策略组合实现为子博弈完美均衡,只要贴现因子足够大。

有限次重复博弈:

通过逆向归纳:

最后一轮:单次博弈纳什均衡(背叛)
倒数第二轮:知道最后一轮会背叛,所以也背叛
以此类推,所有轮都背叛

唯一子博弈完美均衡:每轮都背叛。

三、关键结论

重复博弈可以支持单次博弈中无法实现的合作
无限次重复:贴现因子足够大时,合作可持续
有限次重复:逆向归纳导致合作崩溃
触发策略通过未来惩罚威胁维持合作
民间定理:多种均衡可能存在
声誉机制在重复博弈中发挥作用

四、图形解释

支付流图:

横轴:时间 $t$
纵轴:每期支付

两条线:

合作路径:每期支付3
背叛路径:第一期5,之后每期1

贴现后总收益比较决定策略选择。

贴现因子与合作区域:

横轴:贴现因子 $δ$
纵轴:合作可持续性

$δ \geq δ^{*}$ 时,合作可持续 $δ < δ^{*}$ 时,合作不可持续

五、例子(现实或数值)

例子1:数值计算

囚徒困境,贴现因子 $δ = 0.6$ :

合作收益:

V_{c o o p} = \frac{3}{1 - 0.6} = \frac{3}{0.4} = 7.5

背叛收益:

V_{d e v i a t e} = 5 + \frac{0.6}{0.4} = 5 + 1.5 = 6.5

$7.5 > 6.5$ ,合作可持续!

若 $δ = 0.4$ :

V_{c o o p} = \frac{3}{0.6} = 5

V_{d e v i a t e} = 5 + \frac{0.4}{0.6} = 5.67

$5 < 5.67$ ,合作不可持续。

例子2:价格战

两家企业选择高价(H)或低价(L):

	H	L
H	100,100	20,120
L	120,20	50,50

单次均衡:(L, L)

重复博弈策略:

初始:高价
若对方降价,触发价格战(永远低价)

条件:

\frac{100}{1 - δ} \geq 120 + \frac{50 δ}{1 - δ}

δ \geq \frac{1}{4}

若 $δ = 0.9$ (高度重视未来):

合作收益: $1000$
背叛收益: $120 + 450 = 570$

合作可持续,避免价格战。

例子3:OPEC石油配额

OPEC成员国协议:

合作:限产,油价高,各国收益高
背叛:超产,获得短期利益

重复博弈:

若某国超产,其他国增产报复
油价暴跌,所有国家受损

历史:

1980年代:沙特增产惩罚作弊者
油价从$30跌到$10
教训:不要背叛

例子4:以牙还牙策略

阿克塞尔罗德(Axelrod)锦标赛:

策略:

第一轮:合作
之后:模仿对方上一轮行动

结果:

以牙还牙表现最好
简单、善良、可激怒、宽容

特点:

善良:不先背叛
可激怒:立即报复
宽容:对方合作后原谅

例子5:国际贸易协定

WTO贸易协定:

各国承诺降低关税
若某国违反,其他国报复

重复博弈:

长期关系
违约成本高(未来贸易受损)
合作可持续

例子6:有限次重复的失败

实验:10轮囚徒困境

理论预测:每轮都背叛

实际观察:

前几轮:多数合作
中间:合作率下降
最后几轮:背叛增加

原因:

有限理性
不确定性(不确定是否最后一轮)
社会偏好

六、相关知识

七、现实应用

寡头竞争:价格合谋的维持
国际关系:贸易协定、军备控制
组织管理:长期雇佣关系
环境保护:国际减排协议
声誉建设:重复交易中的诚信

八、小结

重复博弈通过未来互动的影子支持合作,即使单次博弈均衡是不合作。无限次重复博弈中,贴现因子足够大时,触发策略可维持合作。有限次重复博弈通过逆向归纳导致合作崩溃。理解重复博弈对于分析长期关系、合作维持和声誉机制至关重要。

重复博弈 ​

一、核心定义 ​

二、理论推导 / 核心逻辑 ​

三、关键结论 ​

四、图形解释 ​

五、例子(现实或数值) ​

六、相关知识 ​

七、现实应用 ​

八、小结 ​