Hypothesis testing, significance testing, confidence intervals and power - Statistics (9ST0) - Pearson Edexcel A Level

歡迎來到統計推論 (Statistical Inference)！

在本章中，我們將從單純的數據描述，邁向基於數據作出重大決策的階段。你可以把這視為統計學中的「偵探工作」。我們會利用樣本來對整個母體做出「最佳猜測」，並計算出這些猜測的可信度。無論你是要測試一種新藥，還是檢查機器填充麥片盒是否準確，這些工具都會是你最好的助手。如果一開始覺得理論有點深奧，別擔心——我們會帶你一步步拆解！

1. 置信區間 (Confidence Intervals)：你的「安全網」

置信區間 (Confidence Interval, CI) 是一個數值範圍，我們有相當的把握認為真實的母體平均值就在這個範圍內。比起只給出一個數字（點估計），我們提供的是一個區間。

比喻： 想像你在黑暗的池塘裡抓魚。扔出一支魚叉就像是「點估計」——你很可能會射偏。而撒下一張大漁網則像是「置信區間」——你更有可能將魚網羅在範圍之內！

選擇 \(z\) 分佈還是 \(t\) 分佈

為了建立我們的「網」，我們需要選擇正確的分佈：

使用 \(z\)-分佈： 如果已知母體標準差 \(\sigma\)，或者樣本量夠大 (\(n \geq 30\))。
使用 \(t\)-分佈： 如果樣本量較小 (\(n < 30\)) 且不知道母體標準差 \(\sigma\)。

計算公式

平均值置信區間的一般公式為：
\(\bar{x} \pm (z \text{ 或 } t) \times (\text{標準誤})\)

其中標準誤 (Standard Error) 是 \(\frac{s}{\sqrt{n}}\)。記得在計算 \(s^2\)（樣本變異數）時，計算機必須使用 \((n-1)\) 作為除數！

小複習：區間的寬度

你的「網」有多寬取決於兩件事：

置信水平 (Confidence Level)： 置信水平越高（例如 99% 對比 95%），區間會變得越寬。
樣本量 (\(n\))： 樣本越大，區間會變得越窄，精確度也越高。

常見錯誤： 同學常以為 99% 的置信區間比較「好」，因為它更確定。然而，它的範圍也更寬，精確度較低。這是一種權衡！

重點總結： 置信區間為我們提供母體平均值的範圍。當樣本較小且不知道母體真實分佈時，請使用 \(t\)-分佈。

2. 第一型與第二型錯誤：當我們判斷錯誤時

即使統計方法再完美，我們仍可能做出錯誤的判斷。在假設檢定中，有兩種常見的錯誤方式。

第一型錯誤 (Type I Error)：即「偽陽性」

當虛無假設 (\(H_0\)) 實際上是正確的，但我們卻錯誤地拒絕了它。

例子：火警鐘在沒有火災時響起。它「宣稱」發生了變動，但事實上並沒有。

你知道嗎？ 第一型錯誤的機率等於檢定的顯著性水平 (\(\alpha\))（通常為 5% 或 0.05）。

第二型錯誤 (Type II Error)：即「偽陰性」

當虛無假設 (\(H_0\)) 實際上是錯誤的，但我們卻未能拒絕它（我們「接受」了它）。

例子：火災正在燃燒，但火警鐘卻保持沉默。它未能偵測到變動。

記憶小撇步：真相法則

第一型 (Type I)： 拒絕了真相 (The Null was True)。
第二型 (Type II)： 接受了謊言 (The Null was False/a Lie)。

重點總結： 第一型錯誤是「狼來了」卻沒狼；第二型錯誤是狼就在眼前卻沒發現！

3. 檢定力 (Power of a Test)

假設檢定的檢定力 (Power) 是指正確拒絕一個錯誤的虛無假設的能力。簡單來說，就是當效果確實存在時，檢定能夠成功偵測出該效果的機率。

公式

檢定力 = \(1 - P(\text{第二型錯誤})\)

如果發生第二型錯誤的風險很高，檢定力就低。我們總是追求高檢定力！

如何提高檢定力：

增加樣本量 (\(n\))： 這是最常見的方法。更多數據會使檢定更敏感。
提高顯著性水平 (\(\alpha\))： 如果從 1% 提高到 5%，你更有可能拒絕 \(H_0\)，這會增加檢定力（但同時也會增加第一型錯誤的風險！）。
選擇較大的效果量 (Effect size)： 偵測巨大的變化比微小的變化容易得多。

小複習： 檢定力就像顯微鏡的「放大倍率」。強大的檢定可以看見微弱的細節（效果），而弱的檢定則會錯過它們。

4. 顯著性檢定：臨界區域 vs. p-值

進行檢定時，你有兩種方法來決定是否拒絕 \(H_0\)。兩者最終得到的結論是一樣的！

臨界區域法 (Critical Region Method)

找到一個「截止值」（即臨界值 Critical Value）。如果你的檢定統計量 (Test Statistic) 落入「臨界區域」（分佈的尾端），你就拒絕 \(H_0\)。

p-值法 (p-value Method)

p-值 是指假設 \(H_0\) 為真時，得到目前結果（或更極端結果）的機率。

如果 p-值 \(\leq\) 顯著性水平 (\(\alpha\))：拒絕 \(H_0\)（結果顯著）。
如果 p-值 \(>\) 顯著性水平 (\(\alpha\))：不拒絕 \(H_0\)（結果不顯著）。

鼓勵一下： 如果覺得 p-值很難理解，別擔心！只要記住："If the p is low, the Null must go!"（p值若低，虛無假設必走！）

考試重要提醒： 在關於母體相關係數的假設檢定中，通常會直接使用表格中的臨界值，而不是 p-值。

重點總結： 無論你是用臨界區域還是 p-值，目的都是檢查你的樣本結果是否「古怪」到足以證明虛無假設很可能是錯的。

5. 實際重要性與樣本量

在現實世界中，不能只看數字，還必須觀察背景因素 (Context)。

樣本量很重要： 如果樣本量極大，即使是微小且毫無意義的差異，也可能呈現出「統計顯著性」。
證據強度： 永遠要評估你的結論有多強。如果你的 p-值是 0.049，而截止值是 0.05，雖然顯著，但也只是「勉強」顯著！
改變 \(n\)： 如果檢定結果不明確，統計學家可能會增加樣本量，以取得更好的證據並提高檢定力。

常見錯誤： 以為「統計顯著」就等於「重要」。如果一種新藥只能降低 0.1% 的血壓，它可能是統計上顯著的（不是隨機造成的），但對醫生來說並沒有臨床上的實用價值！

重點總結： 務必在問題的情境下解釋你的結果。大樣本確實能更容易找到證據，但請確保這些證據在現實生活中是有意義的。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。