歡迎來到皮爾遜相關係數假設檢定!
你好!在本章中,我們將學習如何判斷兩者之間的關係(例如你花在複習的時間與獲得的分數)到底是「真實存在」的,還是僅僅由隨機機會造成的。我們使用一種稱為皮爾遜積動差相關係數 (Pearson’s Product-Moment Correlation Coefficient, PMCC) 的工具來協助我們作出判斷。別擔心,名字聽起來很複雜,我們會一步步為你拆解!
第一節:什麼是 PMCC?
在進行任何檢定之前,我們需要了解我們在看什麼。皮爾遜積動差相關係數(樣本通常記作 \( r \))是一個數字,它告訴我們關於兩個變數之間關係的兩件事:
- 數據點與直線的貼合程度。
- 這種關係是正相關(兩者同時上升)還是負相關(一個上升,另一個下降)。
數值範圍快速回顧:
\( r \) 的值永遠在 -1 到 1 之間。
- \( r = 1 \):完美的正線性相關。
- \( r = -1 \):完美的負線性相關。
- \( r = 0 \):完全沒有線性相關。
你知道嗎?
PMCC 只測量線性(直線)關係。如果你的數據點形成一個完美的「U」形,即使關係非常明顯,PMCC 也有可能為 0!
重點總結: PMCC (\( r \)) 告訴我們線性關係的強弱以及方向。
第二節:建立假設檢定
當我們進行假設檢定時,我們是在試圖了解我們在小樣本中發現的相關性,是否強到足以證明在整個母體 (population) 中也存在這種相關性。
1. 母體參數 (\( \rho \))
在統計學中,我們使用希臘字母 \( \rho \)(讀作 "rho")來表示整個母體的相關係數。這才是我們實際要檢定的對象。
2. 設定假設
每個檢定都始於兩個陳述:
- 虛無假設 (Null Hypothesis, \( H_0 \)):這是「無趣」的版本。我們假設母體中沒有相關性。它永遠是 \( H_0: \rho = 0 \)。
- 對立假設 (Alternative Hypothesis, \( H_1 \)):這是我們懷疑可能成立的情況。這取決於我們要檢定的是任何相關性、僅正相關還是僅負相關。
單尾檢定 vs. 雙尾檢定:
- 雙尾: 你只想知道是否「存在」相關性。(\( H_1: \rho \neq 0 \))
- 單尾(正向): 你認為一個變數增加會導致另一個變數增加。(\( H_1: \rho > 0 \))
- 單尾(負向): 你認為一個變數增加會導致另一個變數減少。(\( H_1: \rho < 0 \))
記憶小撇步:
把 \( \rho \) 想成一條「路」。
\( H_0 \) 說這條路是平坦的(斜率為零/沒有連結)。
\( H_1 \) 說這條路有去向(向上、向下,或者總之不是平的)!
重點總結: 永遠要先定義 \( \rho \),並寫出你的 \( H_0 \) 和 \( H_1 \)。
第三節:遊戲規則(假設條件)
為了使這項檢定符合 OCR A Level 的課程要求,我們對數據做了一個主要假設:數據必須來自一個雙變數常態分佈 (bivariate normal distribution)。
這代表什麼?
簡單來說,如果你觀察母體的散點圖,這些點會形成一種「橢圓形」或蛋形的雲團。你在考試中不需要證明這一點,但如果題目要求,你必須將其作為假設條件列出來。
鼓勵一下: 如果「雙變數常態分佈」聽起來很嚇人,別擔心。在考試中,你通常只需要假設它成立,即可繼續進行檢定!
第四節:如何進行檢定(逐步說明)
課程大綱指出,你不需要從頭計算 \( r \)(你的計算機或試卷會提供給你)。你的工作是解讀它!
步驟 1:列出你的假設
寫下 \( H_0: \rho = 0 \) 和你選定的 \( H_1 \)。
步驟 2:選定顯著水準 (\( \alpha \))
通常是 5% (0.05) 或 1% (0.01)。這是數據必須跨越的「門檻」,才能被視為「顯著」。
步驟 3:找出臨界值 (Critical Value)
你會獲得一份臨界值表。使用它時,你需要知道:
1. 樣本大小 (\( n \))。
2. 檢定是單尾還是雙尾。
3. 顯著水準。
表格會給你一個「臨界」數字。
步驟 4:將你的 \( r \) 與臨界值進行比較
如果你的樣本相關係數 \( r \) 比臨界值更偏離零,那就代表顯著!我們拒絕 \( H_0 \)。
例如:如果臨界值是 0.5 而你的 \( r \) 是 0.7,這就代表你有足夠的證據!
步驟 5:寫出你的結論
結論應包含兩個部分:
1. 統計評論:「拒絕 \( H_0 \)」 或 「未能拒絕 \( H_0 \)」。
2. 現實世界的評論:「有證據顯示複習時間與考試成績之間存在正相關。」
快速回顧框:
- \( |r| > \text{臨界值} \implies \) 拒絕 \( H_0 \)(結果顯著)。
- \( |r| < \text{臨界值} \implies \) 接納 \( H_0 \)(證據不足)。
第五節:使用 p 值 (p-values)
有時,你拿到的不是表格,而是 p 值。這甚至更容易!
p 值是指我們觀察到的相關性純屬偶然發生的機率。
- 如果 p 值 < 顯著水準:結果顯著。拒絕 \( H_0 \)。
- 如果 p 值 > 顯著水準:結果不顯著。未能拒絕 \( H_0 \)。
避免常見錯誤:
學生常忘記,如果是雙尾檢定,在使用表格時,必須確保在正確的顯著水準下查看「雙尾」那一欄!
第六節:相關性與因果關係
這是考試中最愛出的題目!僅僅因為假設檢定顯示出顯著的相關性,並不代表一件事導致了另一件事。
例如:冰淇淋銷量與鯊魚襲擊次數高度相關(因為兩者在夏天都更頻繁發生)。但吃冰淇淋並不會導致鯊魚襲擊!
重點總結: 相關性顯示的是一種數學聯繫,而非必然的因果關係。
摘要清單
在參加考試前,請確保你能夠:
- 使用 \( \rho \) 正確列出假設。
- 解釋 \( r \) 測量的是線性相關性。
- 使用表格根據 \( n \) 和顯著水準找出臨界值。
- 將 p 值與顯著水準進行比較。
- 說明雙變數常態分佈的假設前提。
- 寫出與題目背景**相關的結論。