Effect size

欢迎来到效应量 (Effect Size) 的世界！

在学习统计推论 (Statistical Inference) 的过程中，你花了很多时间研究 p值 (p-values) 并决定是否拒绝零假设。但你有没有停下来想过：“即使这个结果在统计上显著，它在现实世界中真的有意义吗？”

这正是效应量 (Effect Size) 要告诉你的！显著性检验 (p值) 告诉我们结果是否可能由随机产生，而效应量则告诉我们这个结果实际上有多大、有多显著。如果这听起来有点抽象，别担心——我们将一步步为你拆解。

1. 什么是效应量？

效应量是一种量化两组之间差异大小的方法。它是标准显著性检验的补充方法。这意味着你应该将两者结合使用，才能完整解读数据背后的含义。

日常生活中的类比：
想像你发现了一种“神奇”植物营养剂。假设检验可能会证明它确实能让向日葵长得更高（统计显著性）。然而，效应量会告诉你到底高出多少。如果植物只长高了 1 毫米，那效应量就很微小，即使结果是“显著”的，这种营养剂可能也不值得花钱买！

要记住的关键差异：

显著性检验 (p值)： 问的是“真的有影响存在吗？”
效应量： 问的是“影响有多大？”

2. p值、样本大小与效应量之间的关系

这对你的考试来说非常关键。一个常见的错误是认为极小的 p值（例如 0.0001）意味着现实世界中有巨大的影响。事实并非总是如此！

假设检验中的 p值取决于两个主要因素：
1. 效应量（实际差异有多大）。
2. 样本大小（你收集了多少数据）。

“样本大小陷阱”：
如果你拥有巨大的样本（数千人），即使是微小、不重要的差异也会变得“统计显著”。相反地，如果你的样本非常小，你可能会错过一个巨大且重要的影响，因为检验没有足够的检验力 (power) 去“看见”它。

快速复习： 效应量与样本大小是独立的。无论你调查了多少人，它都能告诉你变量之间关系的“真实”强度。

3. 衡量效应量：Cohen’s \( d \)

在 Pearson Edexcel 课程中，你需要掌握的主要衡量指标是 Cohen’s \( d \)。当我们比较两组的平均值 (means) 时，就会用到它。

本质上，Cohen's \( d \) 衡量的是两组平均值之间相隔了多少个标准差。简单情况下的公式为：

\( d = \frac{\bar{x}_1 - \bar{x}_2}{s} \)

其中：
- \( \bar{x}_1 \) 和 \( \bar{x}_2 \) 是两组的平均值。
- \( s \) 是标准差（通常是两组的“合并”标准差）。

解释边界

统计学家 Jacob Cohen 在提出这个概念时，建议了一些“经验法则”来帮助我们理解这些数值的意义。你应该为考试背下这些边界值：

\( 0.2 \le d < 0.5 \)：小效应量（差异确实存在，但肉眼很难看出来）。
\( 0.5 \le d < 0.8 \)：中效应量（差异足以被观察者看见）。
\( 0.8 \le d \)：大效应量（差异非常明显且显著）。

你知道吗？ 0.8 的“大”效应量意味着实验组的平均人表现比对照组中 79% 的人都好！

4. 环境决定一切！

虽然上述边界很有用，但课程提醒我们，效应量的解释取决于具体环境。

例子：
如果一种新的心脏药物的效应量为 \( d = 0.1 \)，按 Cohen 的标准这是“小”的。然而，如果这种药物每年能拯救 1,000 人的生命，那么在医疗环境下，这个“小”影响就极其重要！在否定一个小数值之前，一定要先看它衡量的是什么。

5. 要避免的常见错误

错误： 认为显著的 p值意味着巨大的影响。
修正： 一定要检查效应量；显著性只告诉你结果不太可能是偶然发生的。
错误： 将 Cohen's \( d \) 的边界视为“绝对法律”。
修正： 将它们作为指导方针，并务必提及问题的背景（例如医学、教育或体育）。
错误： 忘记了即使结果不显著，也可以计算 \( d \)。
修正： 效应量是对你手上数据的描述，无论假设检验的结果如何，都可以计算。

总结检查清单

- 你能解释为什么效应量是假设检验的“补充”吗？（它在“是否有影响？”之外，补充了“影响有多大？”）。
- 你知道 Cohen’s \( d \) 的边界值吗？（0.2 = 小，0.5 = 中，0.8 = 大）。
- 你理解 p值受样本大小影响，但效应量不受影响吗？
- 你能在现实环境中解释效应量吗？

如果起初觉得这些很棘手，别担心！只要记住：显著性检验是“是否（Yes/No）”开关，而效应量是“调光器”，它能告诉你灯光到底有多亮。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。