欢迎来到博弈论的世界!

你好!今天我们要深入探讨离散数学中最迷人的领域之一:博弈论 (Game Theory)。虽然它听起来像是关于桌游或电子游戏,但实际上,它是一套强大的工具,被经济学家、军事规划师,甚至生物学家广泛使用,用来预测当各方的利益发生冲突时,人(或动物)会如何做出决策。

在本章中,我们将重点关注零和博弈 (zero-sum games)。这简单来说就是一种情况:一方的所得正好等于另一方的损失。想象一下分披萨:你吃掉的每一片,都是你朋友吃不到的那一片。总体的“利益”是恒定的,因此收益与损失的总和为零。

如果刚开始觉得有点抽象,别担心——我们将一步步为你拆解!

1. 理解并构建收益矩阵 (DF1)

要分析一场博弈,我们需要整理相关资讯。我们使用收益矩阵 (pay-off matrix),这是一张显示所有可能行动组合下结果的表格。

基本概念:

  • 通常有两名玩家:玩家 A(“行”玩家)和 玩家 B(“列”玩家)。
  • 矩阵中的数字代表玩家 A 的收益
  • 如果数字是正数,代表玩家 A 赢得该金额,而玩家 B 输掉该金额。
  • 如果数字是负数,代表玩家 A 输掉该金额,而玩家 B 赢得该金额。

例子: 想象一个简单的游戏,玩家 A 选择第 1 行或第 2 行,玩家 B 选择第 1 列或第 2 列。

\( \begin{pmatrix} 3 & -2 \\ -1 & 4 \end{pmatrix} \)

在这个矩阵中,如果 A 选择第 1 行,B 选择第 2 列,收益为 -2。这意味着玩家 A 输了 2 分,而玩家 B 赢了 2 分。

快速回顾: 矩阵总是从玩家 A 的角度来展示博弈。玩家 A 希望数值越大越好,而玩家 B 则希望数值越小越好(因为对 A 来说的损失就是对 B 的获利)。

2. “保守”策略 (DF2)

在博弈论中,我们假设两位玩家都很聪明,并试图保护自己。这引出了保守策略 (play-safe strategy)。与其赌一把大的胜利,玩家会查看每种选择的最坏情况,并选出其中“损害最小”的一个。

玩家 A 如何保守(最大最小原则 Maximin):

  1. 针对每一行,找出最小值(即该行 A 可能得到的最差结果)。
  2. 从这些最小值中,选出最大值
  3. 这被称为最大最小 (Maximin) 值。

玩家 B 如何保守(最小最大原则 Minimax):

  1. 针对每一列,找出最大值(即该列 B 可能得到的最差结果,因为数字越大对 B 越不利)。
  2. 从这些最大值中,选出最小值
  3. 这被称为最小最大 (Minimax) 值。

记忆小撇步: 玩家 A 是 Maximin 者(想在最差的情况下求最好)。玩家 B 是 Minimax 者(想在最高的情况下求最低)。

博弈的值 (Value of the Game): 如果玩家都采取这些保守策略,最终的结果称为博弈的

3. 稳定解与鞍点 (DF3)

有时,两位玩家都会意识到某个特定的行动组合是双方能期望的最佳结果。当 Maximin 等于 Minimax 时,就会发生这种情况。

关键术语:鞍点 (Saddle Point)
如果 Maximin = Minimax,博弈就有一个稳定解。此处的数值称为鞍点。在一个稳定的博弈中,如果再玩一次,任何一方都没有理由改变策略。

类比: 想象一个山脊通道(马鞍)。如果你沿着山脊走(玩家 B 试图保持低值),它是最低点;但如果你从山谷往上爬(玩家 A 试图保持高值),它就是最高点。

结论: 如果 Maximin \( \neq \) Minimax,则没有稳定解,玩家可能需要“混合”他们的策略以保持不可预测性。

4. 被支配策略 (DF4)

在解决复杂的博弈之前,通常可以通过删除被支配策略 (dominated strategies) 来简化矩阵。被支配策略是一种非常糟糕的行动,聪明的玩家永远不会选择它。

如何识别:

  • 针对行(玩家 A): 如果第 1 行中的每个数字都小于或等于对应的第 2 行数字,那么第 1 行就是被支配的。玩家 A 总是会偏好第 2 行。删除第 1 行!
  • 针对列(玩家 B): 记住,B 希望数值越小越好。如果第 1 列中的每个数字都大于或等于对应的第 2 列数字,那么第 1 列就是被支配的。玩家 B 总是会偏好第 2 列。删除第 1 列!

常见错误: 学生常忘记对玩家 B 来说,“越大越糟”。删除列时请务必再次检查!

5. 混合策略与图解法 (DF5)

如果博弈没有鞍点,玩家就不应该每次都只选同一个动作,否则对手就会识破!相反,他们会使用混合策略 (mixed strategy)——以一定的机率来执行不同的行动。

对于 AQA 课程,你需要掌握如何通过图解法来解决 \( 2 \times n \) 或 \( n \times 2 \) 的博弈问题。

玩家 A(2 行)的步骤:

  1. 设玩家 A 选择第 1 行的机率为 \( p \)。
  2. 因此,选择第 2 行的机率为 \( (1 - p) \)。
  3. 对于玩家 B 的每个选项(列),写出一个表示期望收益 (expected gain) 的算式。
    例子: 如果第 1 列的值为 3 和 1,算式即为 \( 3p + 1(1-p) \)。
  4. 简化这些算式(例如:\( 2p + 1 \))。
  5. 在以 \( p \)(从 0 到 1)为 x 轴、期望收益为 y 轴的图表上,将这些算式画成直线。
  6. 找出所有线条的下边界 (lower boundary)(即“底线”)。
  7. 该下边界上的最高点即为最佳策略!

你知道吗? 这种图解法本质上是在所有可能的机率中寻找“最差结果中的最好结果”。它确保了无论玩家 B 怎么做,玩家 A 的平均胜算至少能达到某个特定水准。

快速复习箱:
1. 稳定博弈: Maximin = Minimax。使用纯策略(单一动作)。
2. 不稳定博弈: Maximin \( \neq \) Minimax。使用混合策略(机率分配)。
3. 行: 数值越大越好。若整行皆小于另一行,则删除该行。
4. 列: 数值越小越好。若整列皆大于另一列,则删除该列。

如果刚开始画图觉得很慢,请别灰心。只要多画几次,你就会清楚地看出“V”形或“山”形的图案。练习识别下边界——这是整个过程的关键!