Game Theory - Further Mathematics A - H235 - Cambridge OCR AS Level

欢迎来到博弈论的世界！

在本章中，我们将探索博弈论 (Game Theory)，这是离散数学 (Discrete Mathematics) 中一个非常迷人的领域。别被它的名字骗了——虽然它可以用于棋盘游戏，但实际上，它是经济学家、军事领袖和科学家用来理解人们如何在面对对手时做出决策的强大工具。

在读完这些笔记后，你将能够分析一个“博弈”，找出最佳策略，甚至预测该博弈是否“公平”。让我们开始吧！

1. 零和博弈与收益矩阵

在进阶数学 (Further Maths) 中，我们主要关注涉及两名玩家的零和博弈 (zero-sum games)。所谓零和博弈，是指一方的收益等于另一方的损失。把它想象成一块蛋糕：如果我拿走更大的一块，你的那一份就恰好减少了相同的量。我们收益与损失的“总和”永远为零。

什么是收益矩阵 (Pay-off Matrix)？

为了分析一个博弈，我们会将结果放入一个称为收益矩阵的网格中。通常我们有两名玩家：列玩家 (Row Player)（我们称她为 Rose）和行玩家 (Column Player)（我们称他为 Colin）。

矩阵中的数字代表列玩家的收益：

正数表示列玩家从行玩家那里赢得了积分或金钱。
负数表示列玩家输了（意味着行玩家赢了！）。

例子：如果矩阵中的数值为 \(3\)，则 Rose 赢得 3，Colin 输掉 3。如果数值为 \(-5\)，则 Rose 输掉 5，Colin 赢得 5。

你知道吗？

即使一个博弈起初看起来并非零和，我们通常也可以通过从每个条目中减去一个常数值来进行转换 (convert)，直到“赢”与“输”相对于起点达到平衡。

快速复习：在收益矩阵中，列玩家 (Row) 希望数值越大越好，而行玩家 (Column) 则希望数值越小（或越负）越好。

2. 优势策略的艺术 (The Art of Dominance)

有时候，某位玩家会有一个非常糟糕的选择，他绝对不会去选。我们使用“优势论证 (dominance argument)”通过删除这些劣势选项来简化博弈。

如何找出优势：

对于列玩家 (Row Player)： 寻找其中一行，该行中的每一个数字都小于或等于另一行中对应的数字。为什么要走那个“较差”的行呢？删掉它！
对于行玩家 (Column Player)： 寻找其中一行，该行中的每一个数字都大于或等于另一行中对应的数字。请记住，行玩家希望数值越小越好。如果某一行数值较大，对他来说就更不利。删掉它！

逐步指南：
1. 比较行与行。如果 Row A \(\le\) Row B，删除 Row A。
2. 比较列与列。如果 Col X \(\ge\) Col Y，删除 Col X。
3. 持续重复上述步骤，直到无法再删除为止。

关键要点：通过优势策略简化矩阵，可以让后续的计算轻松得多！

3. 保险策略与稳定解

如果你不知道对手会做什么，你可能想采取“保险策略 (play safe)”，以确保无论发生什么情况，你都能获得一个最低限度的保证结果。这就是我们找出最大最小策略 (Maximin) 和最小最大策略 (Minimax) 的地方。

列玩家的策略 (Maximin)

Rose 查看每一行，找出她能赢得的最小值。然后，她选择这些最小值中的最大值。这就是她的 Maximin（即“最坏情况下的最好结果”）。

行玩家的策略 (Minimax)

Colin 查看每一列，找出他可能输掉的最大值。然后，他选择这些最大值中的最小值。这就是他的 Minimax（即“坏结果中的最小损失”）。

稳定解（鞍点 Saddle Points）

如果 Maximin = Minimax，则该博弈有一个稳定解，也称为鞍点 (Saddle Point)。
在稳定博弈中，任何单方面改变策略的玩家都无法提升自己的收益。他们都找到了“最佳”的纯策略。

常见错误：学生经常会混淆列与行的逻辑。请记住：列玩家希望将最小值最大化；行玩家希望将最大值最小化。

快速复习：如果 Maximin \(=\) Minimax，博弈就是稳定的。如果不是，玩家就需要使用“混合策略 (mixed strategy)”。

4. 混合策略：保持不可预测性

如果没有鞍点怎么办？如果你总是采取相同的行动，对手很快就会发现！在这种情况下，你应该以一定的概率来选择不同的行动。这就是混合策略 (mixed strategy)。

解 2x2 博弈

如果你面对的是一个 \(2 \times 2\) 矩阵（在使用优势策略简化后），你可以计算出每种行动的最佳概率。

假设列玩家以概率 \(p\) 选择第 1 行，以概率 \((1-p)\) 选择第 2 行。
我们计算列玩家针对行玩家每种可能行动的期望值 (Expected Value, E)。

处理流程：
1. 写出针对行玩家行动 1 的期望收益方程式。
2. 写出针对行玩家行动 2 的期望收益方程式。
3. 将它们设为相等，从而求出 \(p\) 的值，这能让你无论行玩家怎么做，都处于“不败之地”。

图解法

有时候你可能会遇到 \(2 \times n\) 矩阵。你可以将期望值绘制成图表上的直线，其中 x 轴为 \(p\)（从 \(0\) 到 \(1\)）。
1. 为 Colin 的每个选项画出直线。
2. 由于 Rose 想要的是最小值的最大化，请在所有直线的下方边界找出最高点。
3. 在那个“峰值”相交的直线，就告诉你 Colin 应该集中考虑哪两个行动。

如果起初觉得棘手也别担心！只要记得 \(p\) 只是个百分比。如果 \(p = 0.7\)，意思是你有 \(70\%\) 的概率执行该行动。如果某个行动明显更好，最佳解甚至会出现在极端情况（\(p=0\) 或 \(p=1\)）。

关键要点：混合策略利用概率，即使对手知道你的整体计划，也能确保在长期内获得特定的“博弈价值”。

最终总结清单

你能识别零和博弈吗？
你能利用优势策略删除无用的行或列吗？
你能找出 Maximin 和 Minimax 来检查是否存在鞍点吗？
对于没有鞍点的博弈，你能建立联立方程式或图表来找出最佳概率 (\(p\)) 吗？

掌握这四个步骤，你就会成为博弈论专家！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。