Sampling and estimation

抽样与估计 (P3 统计学 2 - 试卷 6)

你好！欢迎来到“抽样与估计”的学习。这一章非常实用，因为它处理的是如何利用小部分信息（*样本*）来对庞大的群体（*总体*）进行科学的推测。如果一开始觉得公式有些复杂，请不要担心，它们背后的概念其实非常直观。本质上，我们要学习的是如何在进行预测时保持统计学上的严谨性。

1. 总体与样本：全局视角 vs. 局部快照

1.1 核心定义

总体 (Population)：你所研究的整个目标群体。例如，全国所有的学生、工厂生产的所有汽车，或一次收获季所有的苹果。
样本 (Sample)：从总体中选取的一小部分子集。我们研究样本是因为研究整个总体通常成本过高、耗时太长，甚至是不可能的。
普查 (Census)：试图收集总体中每一个成员的数据的调查（在实际操作中很少见）。

比喻：想象一大锅汤（总体）。你舀出一勺（样本）来尝味道，从而判断这锅汤是否需要加盐（估计总体均值）。

1.2 随机性的必要性

为了使样本的结果具有意义且在数学上有效，样本必须是随机选取的。

随机样本 (Random Sample)：总体中的每个成员被抽中的机会必须是均等的。
随机性的关键作用：它能确保样本具有总体的代表性，并避免偏差 (bias)（即对某些结果的系统性偏袒）。

1.3 不理想的抽样方法

你需要能够用简单的语言解释为什么非随机抽样方法通常是不理想的。

示例：如果你想估计某所大学学生的平均身高，只询问篮球队的队员是不理想的（存在偏差），因为他们通常比一般人更高，这会导致估计值过高。

快速回顾：总体 vs. 样本

我们使用随机样本来获得总体特征的无偏估计。如果抽样不随机，结果将极其不可靠。

2. 作为随机变量的样本均值 (\(\bar{X}\))

当你取一个容量为 \(n\) 的样本时，你会计算出它的均值 \(\bar{x}\)。如果你再取另一个容量为 \(n\) 的随机样本，你会得到一个略有不同的均值，以此类推。这意味着样本均值本身就是一个随机变量，记作 \(\bar{X}\)。

2.1 样本均值的期望

如果我们取无数个样本并对它们的均值求平均，会得到什么？

\(E(\bar{X}) = \mu\)

这是一个非常有力的结论！它意味着样本均值是总体均值 \(\mu\) 的无偏估计量 (unbiased estimator)。通俗地说：平均而言，你的样本均值会命中目标（真实的总体均值）。

2.2 样本均值的方差

方差告诉我们样本均值的离散程度。

\(Var(\bar{X}) = \frac{\sigma^2}{n}\)

\(\sigma^2\) 是总体方差。
\(n\) 是样本容量。

重要洞察：请注意方差除以了 \(n\)。这意味着样本容量 (\(n\)) 越大，样本均值的方差就越小。更大的样本能为你提供更精确、更接近真实均值的估计。

样本均值的标准差，被称为标准误 (Standard Error, SE)，其公式为：

\(SE = \sqrt{Var(\bar{X})} = \frac{\sigma}{\sqrt{n}}\)

2.3 \(\bar{X}\) 的分布（正态分布情况）

如果总体 \(X\) 本身服从正态分布 \(X \sim N(\mu, \sigma^2)\)，那么样本均值 \(\bar{X}\) 的分布也严格服从正态分布：

\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)

3. 中心极限定理 (CLT)

这可能是统计学中最重要的概念。

如果总体 \(X\) 不服从正态分布怎么办？

中心极限定理 (Central Limit Theorem, CLT) 指出，只要样本容量足够大（通常 \(n > 30\) 被认为是“大样本”），样本均值 \(\bar{X}\) 的分布将近似服从正态分布，而与原始总体 \(X\) 的分布无关。

若 \(n\) 很大，则 \(\bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right)\)

比喻：CLT 就像是一个统计学魔法。无论原始总体的分布看起来多么奇怪或不均匀（偏态、均匀分布等），当你将许多独立的数值平均在一起时，最终的平均值分布会变得平滑，趋向于可预测的钟形正态曲线。

核心要点 (CLT)：

每当我们处理大样本时，都会依赖 CLT，因为它允许我们在不知道总体具体形状的情况下，对样本均值使用正态分布。

4. 无偏估计

当我们收集样本时，我们使用样本数据来估计未知的总体参数（\(\mu\) 和 \(\sigma^2\)）。

4.1 估计总体均值 (\(\mu\))

总体均值 \(\mu\) 的无偏估计就是样本均值 \(\bar{x}\)：

\(\hat{\mu} = \bar{x}\)

（符号 \(\hat{\mu}\) 表示“\(\mu\) 的估计量”）

4.2 估计总体方差 (\(\sigma^2\))

为了获得总体方差的无偏估计，我们需要使用一个特殊的公式，即无偏样本方差 \(s^2\)：

\(\hat{\sigma}^2 = s^2 = \frac{1}{n-1}\left(\sum x^2 - \frac{(\sum x)^2}{n}\right)\)

你知道吗？除以 \(n-1\) 而不是 \(n\) 被称为贝塞尔校正 (Bessel's correction)。之所以使用 \(n-1\)，是因为在计算中用到了样本均值 \(\bar{x}\)，这在一定程度上限制了样本的变异性，因此除以 \(n-1\) 可以纠正这种轻微的低估。

如果题目提供的是原始数据或汇总总量（\(\sum x\) 和 \(\sum x^2\)），你必须使用上述公式来计算 \(s^2\)。
在涉及大样本的考试题目中，有时会直接给定 \(s^2\) 或 \(s\)（样本方差或样本标准差），并要求你将其视为真实的总体方差 \(\sigma^2\) 或标准差 \(\sigma\)。

5. 总体均值 (\(\mu\)) 的置信区间

置信区间 (Confidence Interval, CI) 不是只给出一个点估计值 (\(\bar{x}\))，而是给出一个范围，真实的总体参数很可能落在这个范围内。

5.1 置信度的概念

95% 置信区间意味着，如果我们重复抽样过程多次，我们计算出的区间中有 95% 会包含真实的总体均值 \(\mu\)。

5.2 使用 Z-区间的条件

如果满足以下两个条件之一，我们可以使用标准正态 (Z) 分布来确定 \(\mu\) 的置信区间：

总体服从正态分布且总体方差 \(\sigma^2\) 已知。
样本容量 \(n\) 很大（基于中心极限定理）。如果 \(n\) 很大，我们通常可以使用无偏样本方差 \(s^2\) 作为 \(\sigma^2\) 的估计值。

5.3 计算 \(\mu\) 的置信区间

置信区间的通用公式为：

\(\bar{x} \pm z \times \frac{\sigma}{\sqrt{n}}\)

\(\bar{x}\) 是计算出的样本均值。
\(z\) 是临界 z 值（根据要求的置信水平从正态分布表中查得）。
\(\frac{\sigma}{\sqrt{n}}\) 是标准误 (SE)。

常见的临界 Z 值 (Z-Scores)

要找到正确的 \(z\) 值，请查阅正态分布表（或使用 \(\Phi(z)\)）。

90% 置信区间：双尾共计 10%（每侧 5%）。查表 \(\Phi(z) = 0.95\)，\(z \approx 1.645\)。
95% 置信区间：双尾共计 5%（每侧 2.5%）。查表 \(\Phi(z) = 0.975\)，\(z \approx 1.960\)。
99% 置信区间：双尾共计 1%（每侧 0.5%）。查表 \(\Phi(z) = 0.995\)，\(z \approx 2.576\)。

置信区间计算步骤

确定已知值：样本容量 \(n\)，样本均值 \(\bar{x}\)，以及总体标准差 \(\sigma\)（或其估计值 \(s\)）。
确定临界 \(z\) 值：查找对应于置信水平的 \(z\) 值（例如，95% 置信水平下 \(z=1.96\)）。
计算标准误 (SE)：\(SE = \frac{\sigma}{\sqrt{n}}\)。
计算误差范围 (ME)：\(ME = z \times SE\)。
构造区间：\(\bar{x} - ME < \mu < \bar{x} + ME\)。

示例解读：如果某学生学习时间的 95% 置信区间为 (10.5 小时, 14.5 小时)，你可以解读为：“我们有 95% 的把握认为，所有学生真实的平均学习时间在 10.5 小时到 14.5 小时之间。”

6. 总体比例 (\(p\)) 的置信区间

有时我们要估计总体中具有某种特征的比例（*例如，支持候选人 A 的选民比例*）。

6.1 条件与分布

此方法仅适用于大样本。

回想一下，对于二项分布 \(B(n, p)\)，如果 \(n\) 很大，可以用正态分布来近似。样本比例 \(\hat{p}\)（成功次数与 \(n\) 的比值）可以近似为：

\(\hat{P} \sim N\left(p, \frac{p(1-p)}{n}\right)\)

由于我们不知道真实的总体比例 \(p\)，在计算方差时我们使用样本比例 \(\hat{p}\)。

6.2 计算 \(p\) 的置信区间

总体比例 \(p\) 的近似置信区间为：

\(\hat{p} \pm z \times \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)

其中：

\(\hat{p}\) 是样本比例（由样本数据计算得出）。
\(n\) 是样本容量。
\(z\) 是对应于置信水平的临界 z 值。
\(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\) 是比例的估计标准误。

关于连续性校正的说明

当使用正态分布近似二项分布或泊松分布时（你在其他章节中已经见过），我们会使用连续性校正。但是，在计算总体均值或比例的置信区间时，我们不使用连续性校正。

快速回顾：置信区间

计算依赖于标准误（均值为 \(\frac{\sigma}{\sqrt{n}}\)，比例为 \(\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\)）以及临界 Z 值。请记住 \(\sigma\)（总体标准差）与 \(s\)（无偏样本标准差，当 \(\sigma\) 未知但 \(n\) 较大时使用）之间的区别。

你现在已经掌握了使用样本估计总体参数的核心内容。熟练掌握这些步骤对于在试卷 6 中取得好成绩至关重要！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。