Estimation - Further Mathematics (9665) - Oxford AQA International A-level

學習筆記：估計 (Estimation, FS2.3)

你好！歡迎來到「估計」這一章！FS2 統計學中的這一部分非常重要，因為它讓我們不再局限於計算樣本統計量，而是進一步幫助我們對整個母體做出有根據的推斷。

在現實世界中，我們很少有時間或資源去測量每一個人或每一件物品（即整個母體）。因此，我們通常會選取一個樣本。估計就是一種技術，讓我們利用樣本資訊（例如樣本平均值 \(\bar{x}\)）來有信心地預測真實且未知的母體參數（例如母體平均值 \(\mu\)）。

如果這些概念聽起來很抽象，不用擔心！我們將使用熟悉的統計概念（如常態分佈和 \(t\)-分佈），將這個過程拆解為清晰且易於掌握的步驟。

什麼是估計？點估計與區間估計

1. 點估計（複習）

在 FS2.2 中，我們學過點估計。點估計是指用一個單一數值來估計母體參數。

母體平均值 (\(\mu\)) 的最佳點估計是樣本平均值 (\(\bar{x}\))。
母體變異數 (\(\sigma^2\)) 的最佳點估計是不偏樣本變異數 (\(s^2\))。

例子：如果你測量了大學裡 50 名學生的身高，算出的平均值為 170 cm，那麼 170 cm 就是該大學所有學生平均身高的點估計值。

2. 區間估計（FS2.3 的重點）

點估計幾乎肯定是不準確的！真實的母體平均值可能是 170.1 cm 或 169.9 cm，但幾乎不可能是精確的 170.0 cm。

區間估計（或稱置信區間）為我們提供了一個數值範圍，真實的母體參數很可能落在此範圍內。

重點總結：與其說「我認為平均值剛好是 170 cm」，我們改說「我有 95% 的把握，真實的平均值位於 168 cm 到 172 cm 之間」。

置信區間 (CI) 的概念

1. 定義置信區間

置信區間 (Confidence Interval, CI) 是根據樣本數據計算得出的一個區間，該區間有特定的置信水平，能涵蓋真實的母體參數。

本課程大綱僅著重於關於平均值對稱的置信區間。這意味著你的最佳估計值（\(\bar{x}\)）剛好位於區間的正中央。

其結構永遠是：

置信區間 = 點估計 \(\pm\) 誤差範圍 (E)

誤差範圍 (E) 捕捉了因使用樣本而非整個母體而產生的不確定性。

2. 理解置信水平

置信水平（例如 90%, 95%, 99%）告訴你對於該區間包含真實平均值有多大的把握。

類比：捕魚網
想像真實的母體平均值 (\(\mu\)) 是海裡的一條魚。你的樣本平均值 (\(\bar{x}\)) 是你船所在的位置。而置信區間就是你的漁網。

如果你使用 90% CI（較窄的網），你可能更容易漏掉那條魚（有 10% 的機率漏掉）。
如果你使用 99% CI（非常寬的網），你幾乎肯定能抓到魚（只有 1% 的漏網機率）。

區間越寬，置信度越高，但資訊的精確度就越低！

3. 標準誤與臨界值

要計算誤差範圍 \(E\)，我們需要兩個要素：

標準誤 (\(\sigma_{\bar{X}}\))

這是平均值抽樣分佈的標準差。它衡量樣本平均值預期會偏離母體平均值的程度。

\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]

其中 \(\sigma\) 是母體標準差，\(n\) 是樣本大小。

臨界值 (z 或 t)

這個值根據你選擇的置信水平決定了區間的寬度。

對於 95% 的 CI，我們在分佈的上尾留出 2.5%，下尾留出 2.5%。
臨界值就是對應於該尾部面積的 \(z\) 分數或 \(t\) 分數。

在 95% 置信水平下，臨界 Z-值 為 1.96。（從 FS1 開始你應該對這個值非常熟悉！）

快速複習：誤差範圍公式

\[ E = \text{臨界值} \times \text{標準誤} \]

計算置信區間：三種主要情境

我們所使用的分佈（進而決定臨界值）完全取決於兩件事：母體變異數 (\(\sigma^2\)) 是否已知？以及樣本大小 (\(n\)) 是多少？

情境 1：已知變異數 (\(\sigma^2\)) 的常態分佈

如果我們已知母體變異數 \(\sigma^2\)（或標準差 \(\sigma\)），無論樣本大小 \(n\) 為何，我們始終使用 Z-分佈（常態分佈）。

公式 (Z-區間)：

\[ \bar{x} \pm z \times \frac{\sigma}{\sqrt{n}} \]

情境 2：大樣本 (\(n \geq 30\))

如果樣本很大（通常 \(n \geq 30\)），中央極限定理 (CLT) 保證了平均值的抽樣分佈近似為常態分佈。

即使 \(\sigma\) 未知，對於大樣本，我們可以用樣本標準差 (\(s\)) 代替 \(\sigma\)。我們依然使用 Z-分佈。

公式 (大樣本的 Z-區間)：

\[ \bar{x} \pm z \times \frac{s}{\sqrt{n}} \]

（記得：課程大綱確認在大樣本下，無論變異數已知或未知，我們都使用常態近似。）

情境 3：小樣本 (\(n < 30\)) 且未知變異數 (\(\sigma^2\))

這是最棘手的情況。如果樣本很小且母體變異數 \(\sigma^2\) 未知，使用常態分佈會低估不確定性。

因此，我們使用 \(t\)-分佈 (Student's \(t\)-distribution)。

\(t\)-分佈比 Z-分佈更寬、更扁平，這能提供更大的誤差範圍，以彌補因使用 \(s\) 來估計 \(\sigma\) 所產生的額外不確定性。
它需要計算自由度 (\(\nu\))：\(\nu = n - 1\)。
我們使用 \(\nu\) 和置信水平在 \(t\)-分佈表中查出臨界 \(t\)-值。

公式 (t-區間)：

\[ \bar{x} \pm t_{\nu} \times \frac{s}{\sqrt{n}} \]

⚠ 常見錯誤警示：Z 與 t 的選擇 ⚠

在選擇臨界值之前，請務必確認這兩個事實：

\(\sigma\) 是否已知？ 是 -> 使用 Z。
\(\sigma\) 是否未知？ 檢查 \(n\)。若 \(n \geq 30\) -> 使用 Z (CLT 適用)。若 \(n < 30\) -> 使用 t (需考慮額外的不確定性)。

推論與樣本大小估計

1. 從置信區間進行推論

置信區間提供了一種對母體平均值 (\(\mu\)) 進行假設檢定的簡便方法。這有時被稱為「觀察法檢定」。

假設我們為 \(\mu\) 構建了一個 95% 的置信區間。我們隨後可以使用該區間來檢定虛無假設 \(H_0: \mu = \mu_0\)。

規則：

如果假設的平均值 (\(\mu_0\)) 落在置信區間內，則在相應的顯著性水平下，沒有理由拒絕 \(H_0\)。
如果假設的平均值 (\(\mu_0\)) 落在置信區間外，則在相應的顯著性水平下，我們拒絕 \(H_0\)。

例子：如果 95% CI 是 [168, 172]，而有人聲稱 \(\mu_0 = 175\)，由於 175 在區間之外，我們在 5% 的顯著性水平下拒絕該聲稱。

2. 估計樣本大小 (\(n\))

在規劃研究時，我們通常需要知道要取得特定的誤差範圍 (\(E\)) 和給定的置信水平，需要多大的樣本。

由於誤差範圍為 \(E = z \times \frac{\sigma}{\sqrt{n}}\)，我們可以重新排列公式來求出 \(n\)：

\[ \sqrt{n} = \frac{z\sigma}{E} \]

\[ n = \left(\frac{z\sigma}{E}\right)^2 \]

在這種情況下，我們必須使用 Z-臨界值，因為我們假設樣本收集後將適用 CLT。此外，我們必須有一個 \(\sigma\) 的估計值（來自過往的研究或先導樣本）。

關鍵步驟：向上取整
由於樣本大小 \(n\) 必須是整數，計算結果務必向上取整。如果 \(n = 100.1\)，你需要 101 個樣本。如果向下取整至 100，將無法達到預期的精確度。

✓ 本章重點總結

目標：利用樣本平均值 (\(\bar{x}\)) 為真實母體平均值 (\(\mu\)) 建立一個區間 (CI)。
公式結構： \(\bar{x} \pm (\text{臨界值} \times \frac{\text{標準差}}{\sqrt{n}})\)。
Z-檢定條件：當 \(\sigma\) 已知或 \(n \geq 30\) 時使用。
T-檢定條件：當 \(\sigma\) 未知且 \(n < 30\) 時使用。自由度 \(\nu = n-1\)。
推論：若假設的平均值 \(\mu_0\) 在 CI 之外，則拒絕 \(H_0\)。
樣本大小：計算 \(n = \left(\frac{z\sigma}{E}\right)^2\)，並務必向上取整至下一個整數。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。