Skip to content

子博弈完美均衡

一、核心定义

子博弈完美均衡(Subgame Perfect Equilibrium, SPE)是动态博弈的精炼均衡概念,要求策略组合在每个子博弈中都构成纳什均衡。SPE排除了不可信威胁,确保参与者的策略在博弈的任何阶段都是最优的。

基本概念:

  1. 子博弈(Subgame):从某个单节点信息集开始的博弈部分
  2. 策略(Strategy):完整的行动计划,规定在每个信息集的行动
  3. 可信性(Credibility):威胁或承诺在实际执行时是最优的

数学表达:

策略组合 s=(s1,...,sn) 是子博弈完美均衡,如果对于每个子博弈 Γ:

s|Γ 是 Γ 的纳什均衡

其中 s|Γ 表示 s 在子博弈 Γ 中的限制。

与纳什均衡的关系:

  • 所有SPE都是纳什均衡
  • 不是所有纳什均衡都是SPE
  • SPE排除了依赖不可信威胁的纳什均衡

二、理论推导 / 核心逻辑

逆向归纳法(Backward Induction):

求解有限完美信息博弈的SPE的标准方法:

  1. 从最后一个决策节点开始
  2. 确定该节点的最优行动
  3. 向前推进,将后续最优行动视为给定
  4. 重复直到初始节点

逆向归纳的数学表达:

对于 T 期博弈,从 t=T 开始:

si(ht)=argmaxaiui(ai,si(ht),ht)

其中 htt 期的历史。

一次性偏离原则(One-Deviation Principle):

在有限博弈中,策略组合是SPE当且仅当没有参与者能通过在任何单个信息集上偏离而获益(假设其他地方遵循原策略)。

证明思路:

假设 s 不是某个子博弈 Γ 的纳什均衡,则存在参与者 i 和策略 si 使得:

ui(si,si|Γ)>ui(s|Γ)

构造新策略:在 Γ 之外遵循 si,在 Γ 内使用 si,这构成有利可图的偏离,矛盾。

三、关键结论

  1. SPE要求策略在每个子博弈中都是最优的
  2. 逆向归纳法是求解完美信息博弈SPE的标准方法
  3. SPE排除了不可信威胁和不可信承诺
  4. 有限完美信息博弈的SPE可通过逆向归纳唯一确定
  5. SPE是纳什均衡的精炼,但不是所有纳什均衡都是SPE
  6. 一次性偏离原则简化了SPE的验证
  7. SPE广泛应用于讨价还价、市场进入、承诺等问题

四、图形解释

博弈树示例:

        参与者1
       /        \
      L          R
     /            \
  (2,1)        参与者2
              /        \
             l          r
            /            \
         (0,0)          (1,2)

纳什均衡:

  • (R,l):参与者1选R,参与者2选l
    • 如果1选L,得2;如果选R,得0(因为2选l)→ 1应选L
    • 但这依赖于2的威胁"选l"

子博弈完美均衡:

逆向归纳:

  • 参与者2的子博弈:l 得0,r 得2 → 选 r
  • 参与者1:预期2选 r,比较 L 得2 vs R 得1 → 选 L

SPE: (L,r)

(R,l) 是纳什均衡但不是SPE,因为"选 l"是不可信威胁。

五、例子(现实或数值)

例子1:市场进入博弈

设定:

  • 进入者决定进入或不进入
  • 在位企业观察后决定战斗或接纳

支付矩阵:

进入者\在位企业    战斗    接纳
进入              -1,0    1,1
不进入             0,2    0,2

纳什均衡:

  1. (进入, 接纳):进入者得1,在位企业得1
  2. (不进入, 战斗):进入者得0,在位企业得2

子博弈完美均衡:

逆向归纳:

  • 在位企业子博弈:战斗得0,接纳得1 → 选接纳
  • 进入者:预期接纳,进入得1 > 不进入得0 → 选进入

SPE: (进入, 接纳)

(不进入, 战斗)虽是纳什均衡,但"战斗"是不可信威胁!

例子2:最后通牒博弈

设定:

  • 参与者1提议分配100元:(x,100x)
  • 参与者2接受或拒绝
  • 拒绝则双方得0

逆向归纳:

参与者2的子博弈:

  • 如果 100x>0,接受
  • 如果 100x0,拒绝

参与者1:

  • 预期2接受任何 x<100
  • 最优:x=99,给2留1元

SPE: (99,1),参与者2接受

现实偏离:实验显示人们常拒绝不公平提议(如90-10),因为公平偏好。

例子3:链式商店悖论(Chainstore Paradox)

设定:

连锁店在20个城市,每个城市有潜在进入者

每个城市:

  • 进入者:进入或不进入
  • 连锁店:战斗或接纳

单个城市支付:

进入者\连锁店    战斗    接纳
进入            -1,0    1,1
不进入           0,2    0,2

逆向归纳:

第20个城市:

  • 连锁店选接纳(战斗得0 < 接纳得1)
  • 进入者预期接纳,选进入

第19个城市:

  • 连锁店在第20城市会接纳(已确定)
  • 战斗无声誉价值
  • 连锁店选接纳
  • 进入者选进入

...依此类推

SPE:所有城市都进入,连锁店都接纳

总支付:连锁店 20×1=20

悖论:直觉上连锁店应在早期战斗建立"强硬"声誉,但SPE显示这不可信!

解决:引入不完全信息(连锁店可能是"疯狂"类型)

例子4:讨价还价(Rubinstein模型)

设定:

两人分100元,交替出价,贴现因子 δ

  • 第1期:参与者1提议 (x1,100x1)
    • 2接受 → 结束
    • 2拒绝 → 第2期
  • 第2期:参与者2提议 (x2,100x2)
    • 1接受 → 结束(效用打折 δ)
    • 1拒绝 → 第3期...

逆向归纳(无限期简化为两期):

第2期:

  • 参与者2提议 (0,100)
  • 参与者1接受(0 vs 拒绝继续谈判的贴现值)

第1期:

  • 参与者2预期拒绝后第2期得100,贴现值 100δ
  • 参与者2接受当且仅当 100x1100δ
  • 参与者1最优:x1=100(1δ)

SPE:

  • 第1期:(100(1δ),100δ),立即接受
  • 第2期(离均衡路径):(0,100)

数值:δ=0.9

  • 参与者1得:100(10.9)=10
  • 参与者2得:90

先动劣势!

完整无限期SPE:

x1=100(1δ)1δ2=1001+δ

δ=0.9: x1=1001.952.6

例子5:三期投资博弈

设定:

企业决定每期投资 It{0,10}

收益:R3=50×(总投资/30) 在第3期实现

贴现因子 δ=0.9

逆向归纳:

第3期:

  • 已投资 I1+I2
  • 投资10:R=50×I1+I2+103010
  • 不投资:R=50×I1+I230
  • 投资当且仅当:50×10301016.6710

第3期:总是投资

第2期:

  • 预期第3期投资10
  • 投资10:10+δ×50×I1+2030
  • 不投资:0+δ×50×I1+1030
  • 差异:10+0.9×50×1030=10+15=5>0

第2期:投资

第1期:

  • 预期第2、3期都投资
  • 投资:10+0.9×(10)+0.81×50=109+40.5=21.5
  • 不投资:0+0.9×(10)+0.81×50×2030=9+27=18

第1期:投资

SPE:每期都投资,总收益21.5

六、相关知识

七、现实应用

  1. 市场竞争:

    • 进入威慑
    • 掠夺性定价
    • 产能扩张承诺
  2. 谈判:

    • 劳资谈判
    • 国际贸易谈判
    • 并购谈判
  3. 政治:

    • 选举承诺
    • 政策可信性
    • 国际条约
  4. 法律:

    • 诉讼威胁
    • 和解谈判
    • 惩罚可信性
  5. 组织管理:

    • 晋升承诺
    • 激励机制
    • 授权问题

八、小结

子博弈完美均衡是动态博弈的核心解概念,要求策略在每个子博弈中都是最优的,从而排除不可信威胁。逆向归纳法是求解完美信息博弈SPE的标准方法。SPE揭示了承诺问题的本质:未来的威胁只有在实际执行时是最优的才是可信的。理解SPE对于分析市场进入、讨价还价、政策承诺等动态策略互动至关重要。Reinhard Selten因引入子博弈完美均衡概念获得1994年诺贝尔经济学奖。

经济学知识库