混合策略

一、核心定义

混合策略(Mixed Strategy)是指参与者不确定地选择某个纯策略,而是按照一定的概率分布在多个纯策略之间随机选择。混合策略扩展了博弈的策略空间,使得更多博弈存在均衡。

基本概念:

纯策略(Pure Strategy):确定性的行动选择, $s_{i} \in S_{i}$
混合策略(Mixed Strategy):纯策略上的概率分布, $σ_{i} \in Δ (S_{i})$
支撑(Support):混合策略中概率大于0的纯策略集合

数学表达:

混合策略 $σ_{i}$ :

σ_{i} : S_{i} \to [0, 1], \sum_{s_{i} \in S_{i}} σ_{i} (s_{i}) = 1

期望效用:

u_{i} (σ) = \sum_{s \in S} [\prod_{j = 1}^{n} σ_{j} (s_{j})] u_{i} (s)

混合策略纳什均衡(Mixed Strategy Nash Equilibrium, MSNE):

$σ^{*} = (σ_{1}^{*}, . . ., σ_{n}^{*})$ 是MSNE,如果:

u_{i} (σ_{i}^{*}, σ_{- i}^{*}) \geq u_{i} (σ_{i}, σ_{- i}^{*}), \forall σ_{i} \in Δ (S_{i}), \forall i

二、理论推导 / 核心逻辑

无差异原则(Indifference Principle):

在混合策略均衡中,参与者对其混合策略支撑中的所有纯策略必须无差异。

证明:

假设 $σ_{i}^{*}$ 是均衡混合策略,支撑为 $supp (σ_{i}^{*}) = {s_{i}^{'}, s_{i}^{″}}$

如果 $u_{i} (s_{i}^{'}, σ_{- i}^{*}) > u_{i} (s_{i}^{″}, σ_{- i}^{*})$ ,则参与者应该只选择 $s_{i}^{'}$ ,矛盾。

因此:

u_{i} (s_{i}^{'}, σ_{- i}^{*}) = u_{i} (s_{i}^{″}, σ_{- i}^{*}) = u_{i} (σ_{i}^{*}, σ_{- i}^{*})

纳什定理:

任何有限博弈至少存在一个纳什均衡(可能是混合策略)。

求解步骤:

识别可能的混合策略均衡
使用无差异原则建立方程
求解概率分布
验证没有有利可图的偏离

2×2博弈的混合策略均衡:

参与者1选择 $U$ 概率 $p$ , $D$ 概率 $1 - p$

参与者2选择 $L$ 概率 $q$ , $R$ 概率 $1 - q$

参与者2无差异:

p \cdot u_{2} (U, L) + (1 - p) \cdot u_{2} (D, L) = p \cdot u_{2} (U, R) + (1 - p) \cdot u_{2} (D, R)

求解 $p^{*}$

参与者1无差异:

q \cdot u_{1} (U, L) + (1 - q) \cdot u_{1} (U, R) = q \cdot u_{1} (D, L) + (1 - q) \cdot u_{1} (D, R)

求解 $q^{*}$

三、关键结论

混合策略扩展了策略空间,使更多博弈存在均衡
纳什定理保证有限博弈至少存在一个均衡
混合策略均衡中,参与者对支撑中的纯策略无差异
混合策略可解释为信念或群体行为
严格劣策略不会出现在混合策略均衡的支撑中
混合策略均衡的期望效用可能低于某些纯策略
混合策略广泛应用于零和博弈、竞争策略等

四、图形解释

最佳反应函数图:

横轴:参与者2选择 $L$ 的概率 $q$
纵轴:参与者1选择 $U$ 的概率 $p$

最佳反应:

参与者1: $B R_{1} (q)$ ,可能是阶跃函数
参与者2: $B R_{2} (p)$ ,可能是阶跃函数

混合策略均衡:两条最佳反应函数的交点

支付矩阵示例(匹配硬币):

        参与者2
         正面(H)  反面(T)
参与者1
正面(H)   1,-1    -1,1
反面(T)  -1,1     1,-1

没有纯策略纳什均衡,但存在混合策略均衡:两人都以50%概率选择正面/反面。

五、例子(现实或数值)

例子1:匹配硬币(Matching Pennies)

支付矩阵:

        参与者2
         H      T
参与者1
H       1,-1   -1,1
T      -1,1    1,-1

纯策略:无纳什均衡

混合策略:

参与者1选择 $H$ 概率 $p$

参与者2无差异:

p \cdot (- 1) + (1 - p) \cdot 1 = p \cdot 1 + (1 - p) \cdot (- 1)

- p + 1 - p = p - 1 + p

1 - 2 p = 2 p - 1

p^{*} = 0.5

对称性: $q^{*} = 0.5$

混合策略纳什均衡: $(p^{*}, q^{*}) = (0.5, 0.5)$

期望效用:

u_{1} = 0.5 \times 0.5 \times 1 + 0.5 \times 0.5 \times (- 1) + 0.5 \times 0.5 \times (- 1) + 0.5 \times 0.5 \times 1 = 0

例子2:性别战(Battle of the Sexes)

夫妻选择活动:

        妻子
         歌剧(O)  足球(F)
丈夫
歌剧(O)   2,1     0,0
足球(F)   0,0     1,2

纯策略均衡: $(O, O)$ 和 $(F, F)$

混合策略均衡:

丈夫选择 $O$ 概率 $p$

妻子无差异:

p \cdot 1 + (1 - p) \cdot 0 = p \cdot 0 + (1 - p) \cdot 2

p = 2 - 2 p

p^{*} = \frac{2}{3}

妻子选择 $O$ 概率 $q$

丈夫无差异:

q \cdot 2 + (1 - q) \cdot 0 = q \cdot 0 + (1 - q) \cdot 1

2 q = 1 - q

q^{*} = \frac{1}{3}

混合策略均衡: $p^{*} = \frac{2}{3}, q^{*} = \frac{1}{3}$

期望效用:

u_{1} = \frac{2}{3} \times \frac{1}{3} \times 2 + \frac{1}{3} \times \frac{2}{3} \times 1 = \frac{4}{9} + \frac{2}{9} = \frac{2}{3}

注意:混合策略期望效用 $\frac{2}{3}$ 低于纯策略均衡 $(O, O)$ 的效用2!

例子3:点球大战

守门员:左扑或右扑

射手:左射或右射

支付矩阵(进球概率):

        守门员
         左      右
射手
左      0.5     0.9
右      0.8     0.4

混合策略均衡:

射手选择左射概率 $p$

守门员无差异:

p \cdot 0.5 + (1 - p) \cdot 0.8 = p \cdot 0.9 + (1 - p) \cdot 0.4

0.5 p + 0.8 - 0.8 p = 0.9 p + 0.4 - 0.4 p

0.8 - 0.3 p = 0.4 + 0.5 p

p^{*} = 0.5

守门员选择左扑概率 $q$

射手无差异:

q \cdot 0.5 + (1 - q) \cdot 0.9 = q \cdot 0.8 + (1 - q) \cdot 0.4

0.5 q + 0.9 - 0.9 q = 0.8 q + 0.4 - 0.4 q

0.9 - 0.4 q = 0.4 + 0.4 q

q^{*} = \frac{5}{8} = 0.625

均衡:射手50%左射,守门员62.5%左扑

进球率: $0.5 \times 0.625 \times 0.5 + 0.5 \times 0.375 \times 0.9 + 0.5 \times 0.625 \times 0.8 + 0.5 \times 0.375 \times 0.4 = 0.65$

例子4:警察巡逻

小偷选择偷A区或B区

警察选择巡逻A区或B区

支付矩阵(小偷收益):

        警察
         A区    B区
小偷
A区     -10     5
B区      3     -8

混合策略均衡:

小偷选择A区概率 $p$

警察无差异(最小化小偷收益):

p \cdot (- 10) + (1 - p) \cdot 3 = p \cdot 5 + (1 - p) \cdot (- 8)

- 10 p + 3 - 3 p = 5 p - 8 + 8 p

3 - 13 p = 13 p - 8

p^{*} = \frac{11}{26} \approx 0.42

警察选择A区概率 $q$

小偷无差异:

q \cdot (- 10) + (1 - q) \cdot 5 = q \cdot 3 + (1 - q) \cdot (- 8)

- 10 q + 5 - 5 q = 3 q - 8 + 8 q

5 - 15 q = 11 q - 8

q^{*} = \frac{13}{26} = 0.5

均衡:小偷42%偷A区,警察50%巡逻A区

例子5:产品定价(伯特兰悖论扩展)

两企业同时定价,低价者获得市场

成本: $c = 10$

需求: $P = 100 - Q$

纯策略:伯特兰悖论,价格降到边际成本 $p = 10$

产能约束下的混合策略:

假设产能限制,不能满足全部需求

企业在 $[10, 100]$ 上混合定价

均衡:累积分布函数 $F (p)$

无差异条件:

π (p) = (p - 10) \cdot D (p, F) = 常数

求解得到混合策略均衡分布。

六、相关知识

七、现实应用

体育竞技:
- 点球大战
- 网球发球
- 篮球罚球假动作
军事策略:
- 巡逻路线
- 攻击时机
- 资源部署
商业竞争:
- 促销时机
- 新品发布
- 价格战
安全检查:
- 机场安检
- 海关检查
- 税务稽查
生物进化:
- 性别比例
- 觅食策略
- 领地争夺

八、小结

混合策略是博弈论的核心概念,通过引入随机化扩展了策略空间,使得所有有限博弈都存在均衡。混合策略均衡中,参与者对其支撑中的纯策略无差异,这是求解混合策略均衡的关键。混合策略可解释为参与者的随机化行为,也可解释为对手对参与者类型的信念。混合策略广泛应用于体育、军事、商业和生物学等领域。理解混合策略对于分析竞争环境下的不确定性和随机化策略至关重要。

混合策略 ​

一、核心定义 ​

二、理论推导 / 核心逻辑 ​

三、关键结论 ​

四、图形解释 ​

五、例子(现实或数值) ​

六、相关知识 ​

七、现实应用 ​

八、小结 ​

混合策略

一、核心定义

二、理论推导 / 核心逻辑

三、关键结论

四、图形解释

五、例子(现实或数值)

六、相关知识

七、现实应用

八、小结