歡迎來到平均數假設檢定!
你有沒有想過手機包裝上標示的「平均電池壽命」是否真的準確?又或者一種新出的減肥餐單是否真的能改變某一群人的平均體重?在這一章,我們將學習如何使用常態分佈 (Normal Distribution) 來判斷關於母體平均數的說法是否可信,還是該拆穿它!別擔心,一開始看起來步驟好像很多,我們會把它拆解成容易消化的小單元。
1. 邏輯:為什麼要用樣本平均數?
如果我們想檢定一個關於整個母體的說法(例如「成年人的平均身高是 170cm」),我們通常不可能測量每一個人。因此,我們會抽取一個樣本 (sample)。
要記住的關鍵是:樣本平均數 (\( \bar{x} \)) 比單一數據點可靠得多。你可以這樣想:如果你只測量一個人,他可能剛好特別高,這純屬巧合。但如果你測量 100 個人,他們的平均身高就更有可能接近真實的母體平均數。
樣本平均數的分佈
根據課程綱要 (Ref: MH7),如果我們從母體 \( X \sim N(\mu, \sigma^2) \) 中抽取一個大小為 \( n \) 的樣本,樣本平均數 \( \bar{X} \) 本身也會服從一個常態分佈:
\( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)
請留意,變異數 (variance) 被 \( n \) 除過了。這意味著當你的樣本數越大,樣本平均數的「離散程度」就會越小。你的估計也會變得越精準!
快速回顧框:
母體平均數 = \( \mu \)
母體變異數 = \( \sigma^2 \)
樣本大小 = \( n \)
標準誤 (Standard Error) (即平均數的標準差) = \( \frac{\sigma}{\sqrt{n}} \)
重點提示:進行平均數檢定時,請務必使用變異數 \( \frac{\sigma^2}{n} \),而不只是 \( \sigma^2 \)!
2. 設定你的假設
每個檢定都始於兩個互相競爭的聲明 (Ref: H4):
1. 虛無假設 (Null Hypothesis, \( H_0 \)): 這代表「現狀」。我們假設沒有任何改變。它永遠長這樣:\( H_0 : \mu = \text{某個數值} \)。
2. 對立假設 (Alternative Hypothesis, \( H_1 \)): 這是你試圖證明的目標。它可以是:
- 單尾 (大於): \( H_1 : \mu > \text{數值} \)
- 單尾 (小於): \( H_1 : \mu < \text{數值} \)
- 雙尾 (不等於): \( H_1 : \mu \neq \text{數值} \)
例子:一家工廠聲稱他們的麥片盒重 500g。你認為他們包裝不足。
\( H_0 : \mu = 500 \)
\( H_1 : \mu < 500 \) (這是一個單尾檢定)。
重點提示: \( H_0 \) 永遠是「等於」。\( H_1 \) 則取決於題目中的描述(「增加」、「減少」或「改變」)。
3. 執行檢定:兩種方法
你的課程綱要 (Ref: H8) 要求你能夠使用 p-值 (p-value) 或 臨界區間 (critical regions) 進行計算。
方法 A:p-值法
p-值 是指在 \( H_0 \) 為真的情況下,得到一個跟你目前結果一樣極端(或更極端)的結果的機率。
- 如果 p-值 < 顯著水準 (Significance Level):拒絕 \( H_0 \)。(結果太罕見,不太可能是隨機誤差)。
- 如果 p-值 > 顯著水準:不拒絕 \( H_0 \)。
方法 B:臨界區間法
臨界區間 (Critical Region)(或稱拒絕區間)是一組數值範圍,若我們的檢定統計量落入其中,我們就會拒絕 \( H_0 \)。這個區間的邊界就是 臨界值 (Critical Value)。
你知道嗎?
顯著水準(通常為 5% 或 1%)實際上就是指當事件並未發生時,我們卻「錯誤地發現結果」的機率。這是我們在拒絕虛無假設時所承擔的犯錯風險!
重點提示: p-值越小,反對虛無假設的證據就越強。記住口訣:「若 p 值低,Null 就得去!」(If the p is low, the Null must go!)
4. 計算步驟指南
跟隨這些步驟來解決任何相關的考試題目:
步驟 1:寫出假設。 使用符號 \( \mu \) 清晰地列出 \( H_0 \) 和 \( H_1 \)。
步驟 2:寫出分佈。 寫下 \( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)。
步驟 3:計算檢定統計量。 找出 \( z \)-分數(你的樣本平均數與聲稱的平均數之間相差多少個標準誤):
\( z = \frac{\bar{x} - \mu}{\frac{\sigma}{\sqrt{n}}} \)
步驟 4:找出 p-值或臨界值。 使用計算機的常態分佈功能。
步驟 5:比較並作決定。 看看你的統計量是否落入拒絕區間。
步驟 6:寫出結論 (結合題目背景)。 (Ref: MH10) 千萬不要只寫「拒絕 \( H_0 \)」。你必須寫:「在 5% 的顯著水準下,有足夠證據顯示麥片盒的平均重量已經減少。」
常見錯誤: 很多同學會忘記除以 \( \sqrt{n} \)。如果你只用 \( \sigma \) 而不是 \( \frac{\sigma}{\sqrt{n}} \),你的 \( z \)-分數會比應有的數值小得多,這樣你很可能會錯過顯著的結果!
5. 當變異數未知時
在現實生活中,我們很少知道母體變異數 (\( \sigma^2 \))。你的課程綱要 (Ref: H8b) 指出,如果 樣本數 \( n \) 很大,我們可以使用 樣本變異數 (\( s^2 \)) 來代替 \( \sigma^2 \)。
如果這看起來有點複雜,不用擔心! 只要看題目:如果題目給了你樣本的變異數,並說明樣本很大(通常 \( n > 30 \)),直接把那個數值代入原本該放 \( \sigma^2 \) 的位置即可。
重點提示: 大樣本讓我們在處理變異數時更有彈性。
最終檢核清單
- 我是否使用了樣本平均數的分佈 \( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)?
- 我的 \( H_1 \) 是單尾還是雙尾?
- 我的結論是否以通順的文字寫成,並回扣到題目中的背景故事?
- 如果是雙尾檢定,我是否記得在尋找臨界值時將顯著水準減半?
成功小貼士: 永遠要畫一張常態曲線的草圖。將代表顯著水準的「尾部」塗黑。這樣做可以大大降低你搞錯不等號方向的機率!