欢迎来到博弈论的世界!
你有没有玩过“剪刀、石头、布”,并试图预测朋友下一步会出什么?又或是好奇企业在竞争对手虎视眈眈的情况下,是如何制定价格的?这就是博弈论(Game Theory)的应用!在“决策数学 2”(Decision Mathematics 2)这一章中,我们将探讨当两个“玩家”的成功取决于对方的选择时,他们该如何做出最佳决策。这本质上就是策略的数学。
1. 基本概念:二人零和博弈
在深入计算之前,我们需要先了解在 8FM0 中所研究博弈的“规则”。
关键术语:
- 二人博弈(Two-person game): 简单来说,就是正好有两名玩家参与的游戏。
- 零和博弈(Zero-sum game): 指一方的收益正好等于另一方的损失。如果我赢了 £5,你就输了 £5。我们双方分数的“总和”永远为零。
- 收益矩阵(Pay-off Matrix): 一张显示游戏结果的表格。在考试中,此矩阵几乎总是从行玩家(Row Player)的角度编写的。
例子: 想象一个数值为 \( 4 \) 的矩阵。这意味着行玩家赢得 4 分,而列玩家(Column Player)输掉 4 分。如果数值为 \( -3 \),则行玩家输掉 3 分,列玩家赢得 3 分。
快速回顾:
正数 = 行玩家赢 / 列玩家输。
负数 = 行玩家输 / 列玩家赢。
重点总结
在零和博弈中,玩家之间存在完全的冲突。行玩家希望矩阵中的数值越大越好,而列玩家则希望数值越小(或负数越多)越好。
2. 保守策略与稳定解
大多数玩家都是“悲观主义者”——他们会假设对方正以完美的策略试图击败自己。正因如此,他们会采用保守策略(play-safe strategy),以确保无论对手做什么,自己都能保证获得一个最低限度的结果。
步骤拆解:如何找出保守策略
对于行玩家(“最大值最小值”Maximin 策略):
1. 查看每一行,找出其中的最小值(即该选项最坏的情况)。
2. 从这些最小值中,选出最大的一个。这就是行最大最小值(Row Maximin)。
记忆法:“行玩家想要‘最坏情况中的最好结果’。”
对于列玩家(“最小值最大值”Minimax 策略):
1. 查看每一列,找出其中的最大值(这对列玩家来说是最坏的情况,因为行玩家赢得越多)。
2. 从这些最大值中,选出最小的一个。这就是列最小值最大值(Column Minimax)。
记忆法:“列玩家想要‘将最大损失最小化’。”
稳定解(鞍点)
有时候,行最大最小值与列最小值最大值是同一个数字。当这种情况发生时,我们就得到了稳定解(Stable Solution),也称为鞍点(Saddle Point)。
你知道吗? 在稳定解中,任何一方都无法通过单方面改变策略来改善自己的结果。如果他们改变策略,结果只会更糟!
重点提示: 一个博弈是“稳定”的,当且仅当:
\( \text{Row Maximin} = \text{Column Minimax} \)
重点总结
永远记得先检查是否有鞍点!如果最大最小值等于最小值最大值,博弈问题就已经解决了,你不需要进行任何复杂的图表绘制。
3. 最优混合策略(图解法)
如果没有鞍点怎么办?如果你一直选择同一个“安全”行,对手最终会识破你的规律并击败你。为了保持不可预测性,你必须使用混合策略(Mixed Strategy)。
在混合策略中,你以一定的概率执行不同的选项。对于 AS Level 8FM0,你只需要学会如何通过图解法解决 \( 2 \times n \) 或 \( n \times 2 \) 的博弈(即其中一名玩家只有 2 个选项的情况)。
如何解决 \( 2 \times n \) 博弈(行玩家有 2 个选项)
别担心,这看起来可能有点复杂,但图表会帮你完成大部分工作!
1. 定义概率: 假设行玩家以概率 \( p \) 选择策略 1。因此,他们必须以概率 \( (1 - p) \) 选择策略 2。
2. 写出期望收益: 对于列玩家的每个选择,写出一个关于期望收益的方程式。
例子: 如果列玩家选择某种策略,使得行玩家在选项 1 中赢得 3 分,在选项 2 中赢得 5 分,则方程式为: \( V = 3p + 5(1-p) \)。
3. 绘制图表: 绘制一个图表,横轴为 \( p \)(从 0 到 1),纵轴为期望收益 \( V \)。
4. 画出直线: 列玩家的每一个策略在你的图表上都会变成一条直线。
5. 找出“下边界上的最高点”: 由于行玩家想要最大化他们的最小收益,请观察所有直线的最底层“边缘”(下包络线)。找出该边界上的最高点。
6. 计算: 这一点通常是两条直线的交点。将这两个方程式联立求解,即可找出 \( p \) 的最优值。
避免常见错误
当解决 \( n \times 2 \) 博弈(即列玩家有 2 个选项)时,过程类似,但你要寻找的是上边界上的最低点。这是因为列玩家想要最小化行玩家能获得的最大收益。
重点总结
图解法将策略问题转化为视觉问题。行玩家寻找“最高的地板”(下边界),而列玩家寻找“最低的天花板”(上边界)。
复习小结
1. 收益矩阵: 永远从行玩家的角度阅读。
2. 保守策略: 找出行最大最小值(Row Maximin)和列最小值最大值(Column Minimax)。
3. 鞍点: 如果 Maximin = Minimax,则博弈是稳定的。
4. 混合策略: 当没有鞍点时使用。利用 \( p \) 和 \( (1-p) \) 建立线性方程式,并通过图表求解。
5. 博弈价值(Value of the Game): 这是双方都采取最优策略时的预期收益。
你一定做得到!练习时仔细绘制图表,并记得标注坐标轴。博弈论其实就是如何在竞争环境中找到最佳路径的艺术。