Game theory for zero-sum games

欢迎来到博弈论的世界！

你好！今天我们要深入探讨离散数学中最迷人的领域之一：博弈论 (Game Theory)。虽然它听起来像是关于桌游或电子游戏，但实际上，它是一套强大的工具，被经济学家、军事规划师，甚至生物学家广泛使用，用来预测当各方的利益发生冲突时，人（或动物）会如何做出决策。

在本章中，我们将重点关注零和博弈 (zero-sum games)。这简单来说就是一种情况：一方的所得正好等于另一方的损失。想象一下分披萨：你吃掉的每一片，都是你朋友吃不到的那一片。总体的“利益”是恒定的，因此收益与损失的总和为零。

如果刚开始觉得有点抽象，别担心——我们将一步步为你拆解！

1. 理解并构建收益矩阵 (DF1)

要分析一场博弈，我们需要整理相关资讯。我们使用收益矩阵 (pay-off matrix)，这是一张显示所有可能行动组合下结果的表格。

基本概念：

通常有两名玩家：玩家 A（“行”玩家）和 玩家 B（“列”玩家）。
矩阵中的数字代表玩家 A 的收益。
如果数字是正数，代表玩家 A 赢得该金额，而玩家 B 输掉该金额。
如果数字是负数，代表玩家 A 输掉该金额，而玩家 B 赢得该金额。

例子： 想象一个简单的游戏，玩家 A 选择第 1 行或第 2 行，玩家 B 选择第 1 列或第 2 列。

\( \begin{pmatrix} 3 & -2 \\ -1 & 4 \end{pmatrix} \)

在这个矩阵中，如果 A 选择第 1 行，B 选择第 2 列，收益为 -2。这意味着玩家 A 输了 2 分，而玩家 B 赢了 2 分。

快速回顾： 矩阵总是从玩家 A 的角度来展示博弈。玩家 A 希望数值越大越好，而玩家 B 则希望数值越小越好（因为对 A 来说的损失就是对 B 的获利）。

2. “保守”策略 (DF2)

在博弈论中，我们假设两位玩家都很聪明，并试图保护自己。这引出了保守策略 (play-safe strategy)。与其赌一把大的胜利，玩家会查看每种选择的最坏情况，并选出其中“损害最小”的一个。

玩家 A 如何保守（最大最小原则 Maximin）：

针对每一行，找出最小值（即该行 A 可能得到的最差结果）。
从这些最小值中，选出最大值。
这被称为最大最小 (Maximin) 值。

玩家 B 如何保守（最小最大原则 Minimax）：

针对每一列，找出最大值（即该列 B 可能得到的最差结果，因为数字越大对 B 越不利）。
从这些最大值中，选出最小值。
这被称为最小最大 (Minimax) 值。

记忆小撇步： 玩家 A 是 Maximin 者（想在最差的情况下求最好）。玩家 B 是 Minimax 者（想在最高的情况下求最低）。

博弈的值 (Value of the Game)： 如果玩家都采取这些保守策略，最终的结果称为博弈的值。

3. 稳定解与鞍点 (DF3)

有时，两位玩家都会意识到某个特定的行动组合是双方能期望的最佳结果。当 Maximin 等于 Minimax 时，就会发生这种情况。

关键术语：鞍点 (Saddle Point)
如果 Maximin = Minimax，博弈就有一个稳定解。此处的数值称为鞍点。在一个稳定的博弈中，如果再玩一次，任何一方都没有理由改变策略。

类比： 想象一个山脊通道（马鞍）。如果你沿着山脊走（玩家 B 试图保持低值），它是最低点；但如果你从山谷往上爬（玩家 A 试图保持高值），它就是最高点。

结论： 如果 Maximin \( \neq \) Minimax，则没有稳定解，玩家可能需要“混合”他们的策略以保持不可预测性。

4. 被支配策略 (DF4)

在解决复杂的博弈之前，通常可以通过删除被支配策略 (dominated strategies) 来简化矩阵。被支配策略是一种非常糟糕的行动，聪明的玩家永远不会选择它。

如何识别：

针对行（玩家 A）： 如果第 1 行中的每个数字都小于或等于对应的第 2 行数字，那么第 1 行就是被支配的。玩家 A 总是会偏好第 2 行。删除第 1 行！
针对列（玩家 B）： 记住，B 希望数值越小越好。如果第 1 列中的每个数字都大于或等于对应的第 2 列数字，那么第 1 列就是被支配的。玩家 B 总是会偏好第 2 列。删除第 1 列！

常见错误： 学生常忘记对玩家 B 来说，“越大越糟”。删除列时请务必再次检查！

5. 混合策略与图解法 (DF5)

如果博弈没有鞍点，玩家就不应该每次都只选同一个动作，否则对手就会识破！相反，他们会使用混合策略 (mixed strategy)——以一定的机率来执行不同的行动。

对于 AQA 课程，你需要掌握如何通过图解法来解决 \( 2 \times n \) 或 \( n \times 2 \) 的博弈问题。

玩家 A（2 行）的步骤：

设玩家 A 选择第 1 行的机率为 \( p \)。
因此，选择第 2 行的机率为 \( (1 - p) \)。
对于玩家 B 的每个选项（列），写出一个表示期望收益 (expected gain) 的算式。
例子： 如果第 1 列的值为 3 和 1，算式即为 \( 3p + 1(1-p) \)。
简化这些算式（例如：\( 2p + 1 \)）。
在以 \( p \)（从 0 到 1）为 x 轴、期望收益为 y 轴的图表上，将这些算式画成直线。
找出所有线条的下边界 (lower boundary)（即“底线”）。
该下边界上的最高点即为最佳策略！

你知道吗？ 这种图解法本质上是在所有可能的机率中寻找“最差结果中的最好结果”。它确保了无论玩家 B 怎么做，玩家 A 的平均胜算至少能达到某个特定水准。

快速复习箱：
1. 稳定博弈： Maximin = Minimax。使用纯策略（单一动作）。
2. 不稳定博弈： Maximin \( \neq \) Minimax。使用混合策略（机率分配）。
3. 行：数值越大越好。若整行皆小于另一行，则删除该行。
4. 列：数值越小越好。若整列皆大于另一列，则删除该列。

如果刚开始画图觉得很慢，请别灰心。只要多画几次，你就会清楚地看出“V”形或“山”形的图案。练习识别下边界——这是整个过程的关键！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。