Game theory

欢迎来到博弈论的世界！

在决策数学 (Decision Mathematics) 2 的这一章中，我们将探讨当你与他人处于“冲突”或竞争状态时，如何做出最佳决策。无论是棋盘游戏、商业谈判，还是两支体育队伍的对抗，博弈论 (Game Theory) 都为寻找“最佳”策略提供了一套数学方法。

如果起初觉得有些抽象，不必担心。我们会将其拆解为简单的步骤，运用大量的比喻，并精确演示如何处理考试中的各类题目。让我们开始吧！

1. 基础：二人零和博弈

在 Edexcel 的课程大纲中，我们专注于二人零和博弈 (Two-person zero-sum games)。
这是什么意思？
1. 二人 (Two-person)： 只有两名玩家（通常称为玩家 A 和玩家 B）。
2. 零和 (Zero-sum)： 一方的得益即是另一方的损失。如果我赢了 £10，你就输了 £10。我们得失的“总和”为零：\( +10 + (-10) = 0 \)。

收益矩阵 (Pay-off Matrix)

游戏的结果会显示在一张称为收益矩阵的表格中。
重要规则： 预设情况下，矩阵中的数字代表行玩家（玩家 A）的收益。
例子： 如果表中的值为 5，则玩家 A 赢得 5 分，玩家 B 输掉 5 分。如果值为 -3，则玩家 A 输掉 3 分（意味着玩家 B 赢得 3 分）。

重点复习：
- 正数 = 行玩家赢 / 列玩家输。
- 负数 = 行玩家输 / 列玩家赢。

关键点： 永远先站在“行玩家”的角度看游戏。如果你是“列玩家”，你希望矩阵中的数字越小（越负）越好！

2. 保守策略与稳定解

想象你正在与一个非常聪明的对手博弈。你预设他们总会试图破坏你的计划。为了保护自己，你会使用保守策略 (Play-safe strategy)。

逐步教学：寻找保守策略

对于玩家 A（行）：
1. 查看每一行并找出最小值（该策略下的最坏情况）。
2. 在这些最小值中，选出最大值。这称为行最大最小策略 (Row Maximin)。
比喻：玩家 A 是在“最大化其最差情况”。

对于玩家 B（列）：
1. 查看每一列并找出最大值（玩家 B 可能损失的最大值）。
2. 在这些最大值中，选出最小值。这称为列最小最大策略 (Column Minimax)。
比喻：玩家 B 是在“最小化其最大损失”。

稳定解（鞍点 Saddle Points）

如果 行最大最小值 = 列最小最大值，那么该游戏就有一个稳定解。
它们交汇的值称为鞍点 (Saddle point)。在一个稳定的游戏中，任何一方单方面改变策略都无法提升自己的结果。
冷知识： 之所以称为鞍点，是因为它是某个方向（行）的最小值，同时又是另一个方向（列）的最大值，形状就像马鞍一样！

常见错误： 学生常忘记玩家 B 希望矩阵中的数值越小越好。请务必再次检查你计算列最小最大值时的过程。

关键点： 若行最大最小值 = 列最小最大值，则游戏稳定。如果两者不相等，则游戏不稳定，我们需要“混合策略”（请继续往下看！）。

3. 化简矩阵：优势原则 (Dominance)

在求解复杂游戏前，我们通常可以透过删除较差的选项来“瘦身”。这就是优势原则 (Dominance)。

行规则（玩家 A）：
如果第 1 行的每个值都小于或等于第 2 行的对应值，则第 1 行被第 2 行支配 (Dominated)。玩家 A 永远不会选择第 1 行，因为第 2 行总是更好或相同。删除第 1 行。

列规则（玩家 B）：
如果第 1 列的每个值都大于或等于第 2 列的对应值，则第 1 列被第 2 列支配。记住，玩家 B 希望数值越小越好。因此，第 1 列对玩家 B 来说更糟。删除第 1 列。

记忆小撇步：
- 行：数值越大越好（保留大的，删除小的）。
- 列：数值越小越好（保留小的，删除大的）。

关键点： 先检查有没有优势原则！这能将一个复杂的 \( 3 \times 3 \) 矩阵简化为更易处理的 \( 2 \times 2 \) 矩阵。

4. 最优混合策略：图解法

如果一个游戏没有鞍点，玩家就不应固守单一动作，而应使用混合策略 (Mixed strategy)——即以特定概率执行不同动作（例如：“我有 30% 的概率出剪刀，70% 的概率出布”）。

在考试中，你可能需要使用图表来解决 \( 2 \times n \) 或 \( n \times 2 \) 的博弈问题。

\( 2 \times n \) 游戏的步骤：

1. 设玩家 A 以概率 \( p \) 执行策略 1，以 \( (1-p) \) 的概率执行策略 2。
2. 针对玩家 B 的每个选项，写出预期收益方程。
例子： 若第 1 行为 (2, 6)，第 2 行为 (5, 1)，则方程为：
- 针对第 1 列： \( V = 2p + 5(1-p) = 5 - 3p \)
- 针对第 2 列： \( V = 6p + 1(1-p) = 1 + 5p \)
3. 在图表上绘制这些直线，其中 x 轴为 \( p \)（从 0 到 1），y 轴为 \( V \)（预期价值）。
4. 找出所有线条的下边界 (Lower boundary)。
5. 找出该下边界的最高点。这就是 \( p \) 的最优值。
6. 解开交汇于该点的两个方程，即可算出 \( p \) 以及游戏价值 \( V \)。

为什么要找“下边界的最高点”？
因为玩家 A 正在尝试最大化（最高点）其最小预期收益（下边界）。这其实就是 Maximin，只不过加上了概率！

关键点： 对于 \( 2 \times n \) 游戏，寻找底部的最高点。对于 \( n \times 2 \) 游戏（此时绘制的是玩家 B 的概率 \( q \)，寻找顶部的最低点）。

5. 最优混合策略：线性规划

当矩阵过大而无法使用简单图表（例如 \( 3 \times 3 \) 且无优势）时，我们使用线性规划 (Linear Programming) 和单纯形法 (Simplex Algorithm)。

建立问题：

1. 将所有值转为正数： 如果矩阵中有负数，在每个格子中加上一个常数 \( k \)，使所有数值 \( > 0 \)。（别忘了在最后得出游戏价值后减回 \( k \)！）。
2. 设玩家 A 的概率为 \( p_1, p_2, p_3 \)。
3. 我们希望最大化价值 \( V \)，条件如下：
\( V \le \) (针对第 1 列的预期收益)
\( V \le \) (针对第 2 列的预期收益)
\( V \le \) (针对第 3 列的预期收益)
\( p_1 + p_2 + p_3 = 1 \)
4. 为便于单纯形法计算，我们常将所有式子除以 \( V \)，并令 \( x_i = \frac{p_i}{V} \)。此时我们的目标变为最小化 \( \frac{1}{V} = x_1 + x_2 + x_3 \)。

如果觉得难也不必担心： 考试中最常见的题目是要求你建立模型（写出方程），而非要求完成整个单纯形表格，但两者都要做好准备！

重点复习盒：
- 鞍点： 行最大最小值 = 列最小最大值。
- 优势原则： 删除总是较小的行；删除总是较大的列。
- 图解法： 用于 \( 2 \times n \) 或 \( n \times 2 \) 游戏。
- 线性规划： 用于更大、不稳定的游戏。

关键点： 线性规划是博弈论中的“重型工具”。它将游戏视为资源分配问题，以找出策略间的完美平衡。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。