欢迎来到模拟的世界!
你有没有想过公司是如何预测队伍的长度?数学家又是如何在不进行数百万次实战的情况下,计算出赢得复杂游戏的机率?答案就是模拟 (Simulation)。在统计学主修 (Statistics Major) 的这一章中,我们将不再仅仅依靠公式,而是利用科技来“复制”现实生活中的事件。这就像是数学界的飞行模拟器一样!
模拟是一个强大的工具,因为它让我们能够解决那些因为过于“混乱”或技术上过于复杂,而难以用标准理论方程式处理的问题。让我们开始吧!
1. 什么是模拟?为什么要使用它?
模拟的核心是利用模型来模仿现实世界系统随时间推移的行为。当理论数学变得不可能计算,或者实在太过于困难时,我们就会用到它。
类比: 想象你想知道某个纸飞机设计能否飞出 10 米。你可以运用复杂的物理方程式(理论),或者你也可以直接试飞 500 次并记录结果(模拟)。在本课程中,我们利用电子表格 (spreadsheets) 让我们在瞬间完成这“500 次试飞”!
必须掌握的关键术语:
- 试验 (Trial): 模拟的一次“运行”(就像掷一次硬币)。
- 相对频率 (Relative Frequency): 事件在模拟过程中发生的比例。随着试验次数增加,这个数值会越来越接近理论机率 (theoretical probability)。
- 变异 (Variation): 指每次运行模拟时,由于随机性,结果总会略有不同的现象。
快速复习: 模拟不像公式那样给出“精确”答案;它给出的是一个估计值 (estimate),且试验次数越多,估计就越精确。
2. 使用电子表格模拟分布 (SZ1)
课程大纲要求你学会如何使用 Excel 或 Google Sheets 等软件来模拟三种主要的分布类型。
A. 离散均匀分布 (Discrete Uniform Distribution)
这适用于一组固定数量的结果,且每个结果发生的机率均等(如公正的骰子)。在电子表格中,我们使用:
=RANDBETWEEN(lower, upper)
例子: 若要模拟一颗 6 面骰子,你可以输入 \( =RANDBETWEEN(1, 6) \)。
B. 连续均匀分布 (Continuous Uniform Distribution)
这适用于两个数值之间的随机数,其中任何小数都有可能出现。通常,我们使用以下指令产生 0 到 1 之间的数字:
=RAND()
你知道吗? 电脑产生的“随机性”大多数被称为伪随机性 (pseudo-randomness),因为它是透过精妙的算法生成的,但对于我们的统计作业来说,它已经足够随机了!
C. 常态分布 (Normal Distribution)
模拟常态分布稍微复杂一些,但在考试中非常常见。我们使用一个公式,将一个随机机率(0 到 1 之间)转换为常态曲线上的数值:
=NORM.INV(RAND(), \(\mu\), \(\sigma\))
注意: 有些软件会要求输入标准差 \( \sigma \),有些则要求变异数 \( \sigma^2 \)。务必仔细阅读题目!对于 MEI 课程而言,通常是指标准差。
重点提示: 电子表格几乎所有模拟都以 RAND() 作为引擎。如果你的数字跟朋友的不一样,别担心——那正是变异 (variation) 在发挥作用!
3. 使用模拟解决难题 (Z2)
有时“理论”太难了。例如,如果你想找出三个不同分布之和的机率,数学计算可能会非常复杂,但模拟可以让它变得简单。
“火车等待时间”例子
想象你每天通勤上班。火车每 15 分钟一班。你在随机时间到达车站。请问你早晚两班火车的等待时间总和超过 20 分钟的机率是多少?
理论方法: 这涉及到在二维平面上积分函数。天啊,太复杂了!
模拟方法:
- 设 \( X \) 为早晨等待时间:\( =15 \times RAND() \)
- 设 \( Y \) 为晚间等待时间:\( =15 \times RAND() \)
- 计算总和:\( T = X + Y \)
- 重复此步骤 1,000 列。
- 计算有多少列满足 \( T > 20 \),然后除以 1,000。
研究中央极限定理 (CLT)
CLT 指出,如果你取足够大样本的平均值,该平均值将遵循常态分布,即使原始数据不是常态分布。你可以透过以下方式模拟:
- 从均匀分布 (Uniform distribution) 中产生 10 个随机数。
- 计算它们的平均值 (average)。
- 重复此步骤 500 次。
- 绘制这 500 个平均值的直方图。你会看到一个漂亮的钟形曲线!
4. 解读电子表格输出
在考试中,你可能不需要亲自操作电子表格,但你必须学会解读它。你可能会看到一张数值表或结果摘要。
常见错误: 认为 10 次试验的模拟结果就是机率的“证明”。10 次试验实在太少了!你需要进行数百次或数千次试验,才能减少随机变异 (random variation) 的影响。
考试题目范例:
“针对两颗骰子点数之和进行 1,000 次试验的模拟,结果显示『7』出现了 162 次。请将此与理论机率进行比较。”
回答方式:
1. 点数为 7 的理论机率是 \( \frac{6}{36} = 0.1667 \)。
2. 模拟的相对频率是 \( \frac{162}{1000} = 0.162 \)。
3. 结论:模拟结果与理论值非常接近,但由于随机变异,两者略有差异。
5. 总结与关键重点
目标: 在公式过于困难时,估算机率并模拟行为。
工具:
- RAND() 用于连续均匀分布 \([0, 1]\)。
- RANDBETWEEN() 用于离散均匀分布。
- NORM.INV() 用于常态分布。
心态:
- 试验次数越多 = 估计越精确。
- 模拟是一种近似值 (approximation),而非完美的“真理”。
- 变异 (Variation) 是预期之内的——如果你重新整理电子表格,数字应该会改变!
如果这看起来有点抽象,别担心!请记住:模拟只不过是在电脑上将某件事重复进行数千次,看看会发生什么。如果你能描述模拟某个场景的步骤,你就已经掌握了这一章最核心的部分!