欢迎来到博弈论的世界!

在决策数学 (Decision Mathematics) 2 的这一章中,我们将探讨当你与他人处于“冲突”或竞争状态时,如何做出最佳决策。无论是棋盘游戏、商业谈判,还是两支体育队伍的对抗,博弈论 (Game Theory) 都为寻找“最佳”策略提供了一套数学方法。

如果起初觉得有些抽象,不必担心。我们会将其拆解为简单的步骤,运用大量的比喻,并精确演示如何处理考试中的各类题目。让我们开始吧!


1. 基础:二人零和博弈

在 Edexcel 的课程大纲中,我们专注于二人零和博弈 (Two-person zero-sum games)
这是什么意思?
1. 二人 (Two-person): 只有两名玩家(通常称为玩家 A 和玩家 B)。
2. 零和 (Zero-sum): 一方的得益即是另一方的损失。如果我赢了 £10,你就输了 £10。我们得失的“总和”为零:\( +10 + (-10) = 0 \)。

收益矩阵 (Pay-off Matrix)

游戏的结果会显示在一张称为收益矩阵的表格中。
重要规则: 预设情况下,矩阵中的数字代表行玩家(玩家 A)的收益
例子: 如果表中的值为 5,则玩家 A 赢得 5 分,玩家 B 输掉 5 分。如果值为 -3,则玩家 A 输掉 3 分(意味着玩家 B 赢得 3 分)。

重点复习:
- 正数 = 行玩家赢 / 列玩家输。
- 负数 = 行玩家输 / 列玩家赢。

关键点: 永远先站在“行玩家”的角度看游戏。如果你是“列玩家”,你希望矩阵中的数字越小(越负)越好!


2. 保守策略与稳定解

想象你正在与一个非常聪明的对手博弈。你预设他们总会试图破坏你的计划。为了保护自己,你会使用保守策略 (Play-safe strategy)

逐步教学:寻找保守策略

对于玩家 A(行):
1. 查看每一行并找出最小值(该策略下的最坏情况)。
2. 在这些最小值中,选出最大值。这称为行最大最小策略 (Row Maximin)
比喻:玩家 A 是在“最大化其最差情况”。

对于玩家 B(列):
1. 查看每一列并找出最大值(玩家 B 可能损失的最大值)。
2. 在这些最大值中,选出最小值。这称为列最小最大策略 (Column Minimax)
比喻:玩家 B 是在“最小化其最大损失”。

稳定解(鞍点 Saddle Points)

如果 行最大最小值 = 列最小最大值,那么该游戏就有一个稳定解
它们交汇的值称为鞍点 (Saddle point)。在一个稳定的游戏中,任何一方单方面改变策略都无法提升自己的结果。
冷知识: 之所以称为鞍点,是因为它是某个方向(行)的最小值,同时又是另一个方向(列)的最大值,形状就像马鞍一样!

常见错误: 学生常忘记玩家 B 希望矩阵中的数值越小越好。请务必再次检查你计算列最小最大值时的过程。

关键点: 若行最大最小值 = 列最小最大值,则游戏稳定。如果两者不相等,则游戏不稳定,我们需要“混合策略”(请继续往下看!)。


3. 化简矩阵:优势原则 (Dominance)

在求解复杂游戏前,我们通常可以透过删除较差的选项来“瘦身”。这就是优势原则 (Dominance)

行规则(玩家 A):
如果第 1 行的每个值都小于或等于第 2 行的对应值,则第 1 行被第 2 行支配 (Dominated)。玩家 A 永远不会选择第 1 行,因为第 2 行总是更好或相同。删除第 1 行。

列规则(玩家 B):
如果第 1 列的每个值都大于或等于第 2 列的对应值,则第 1 列被第 2 列支配。记住,玩家 B 希望数值越小越好。因此,第 1 列对玩家 B 来说更糟。删除第 1 列。

记忆小撇步:
- 行:数值越大越好(保留大的,删除小的)。
- 列:数值越小越好(保留小的,删除大的)。

关键点: 先检查有没有优势原则!这能将一个复杂的 \( 3 \times 3 \) 矩阵简化为更易处理的 \( 2 \times 2 \) 矩阵。


4. 最优混合策略:图解法

如果一个游戏没有鞍点,玩家就不应固守单一动作,而应使用混合策略 (Mixed strategy)——即以特定概率执行不同动作(例如:“我有 30% 的概率出剪刀,70% 的概率出布”)。

在考试中,你可能需要使用图表来解决 \( 2 \times n \) 或 \( n \times 2 \) 的博弈问题。

\( 2 \times n \) 游戏的步骤:

1. 设玩家 A 以概率 \( p \) 执行策略 1,以 \( (1-p) \) 的概率执行策略 2。
2. 针对玩家 B 的每个选项,写出预期收益方程。
例子: 若第 1 行为 (2, 6),第 2 行为 (5, 1),则方程为:
- 针对第 1 列: \( V = 2p + 5(1-p) = 5 - 3p \)
- 针对第 2 列: \( V = 6p + 1(1-p) = 1 + 5p \)
3. 在图表上绘制这些直线,其中 x 轴为 \( p \)(从 0 到 1),y 轴为 \( V \)(预期价值)。
4. 找出所有线条的下边界 (Lower boundary)
5. 找出该下边界的最高点。这就是 \( p \) 的最优值。
6. 解开交汇于该点的两个方程,即可算出 \( p \) 以及游戏价值 \( V \)。

为什么要找“下边界的最高点”?
因为玩家 A 正在尝试最大化(最高点)其最小预期收益(下边界)。这其实就是 Maximin,只不过加上了概率!

关键点: 对于 \( 2 \times n \) 游戏,寻找底部的最高点。对于 \( n \times 2 \) 游戏(此时绘制的是玩家 B 的概率 \( q \),寻找顶部的最低点)。


5. 最优混合策略:线性规划

当矩阵过大而无法使用简单图表(例如 \( 3 \times 3 \) 且无优势)时,我们使用线性规划 (Linear Programming)单纯形法 (Simplex Algorithm)

建立问题:

1. 将所有值转为正数: 如果矩阵中有负数,在每个格子中加上一个常数 \( k \),使所有数值 \( > 0 \)。 (别忘了在最后得出游戏价值后减回 \( k \)!)。
2. 设玩家 A 的概率为 \( p_1, p_2, p_3 \)。
3. 我们希望最大化价值 \( V \),条件如下:
\( V \le \) (针对第 1 列的预期收益)
\( V \le \) (针对第 2 列的预期收益)
\( V \le \) (针对第 3 列的预期收益)
\( p_1 + p_2 + p_3 = 1 \)
4. 为便于单纯形法计算,我们常将所有式子除以 \( V \),并令 \( x_i = \frac{p_i}{V} \)。此时我们的目标变为最小化 \( \frac{1}{V} = x_1 + x_2 + x_3 \)。

如果觉得难也不必担心: 考试中最常见的题目是要求你建立模型(写出方程),而非要求完成整个单纯形表格,但两者都要做好准备!

重点复习盒:
- 鞍点: 行最大最小值 = 列最小最大值。
- 优势原则: 删除总是较小的行;删除总是较大的列。
- 图解法: 用于 \( 2 \times n \) 或 \( n \times 2 \) 游戏。
- 线性规划: 用于更大、不稳定的游戏。

关键点: 线性规划是博弈论中的“重型工具”。它将游戏视为资源分配问题,以找出策略间的完美平衡。