歡迎來到皮爾遜相關係數假設檢定!

你好!在本章中,我們將學習如何判斷兩者之間的關係(例如你花在複習的時間與獲得的分數)到底是「真實存在」的,還是僅僅由隨機機會造成的。我們使用一種稱為皮爾遜積動差相關係數 (Pearson’s Product-Moment Correlation Coefficient, PMCC) 的工具來協助我們作出判斷。別擔心,名字聽起來很複雜,我們會一步步為你拆解!

第一節:什麼是 PMCC?

在進行任何檢定之前,我們需要了解我們在看什麼。皮爾遜積動差相關係數(樣本通常記作 \( r \))是一個數字,它告訴我們關於兩個變數之間關係的兩件事:

  1. 數據點與直線貼合程度
  2. 這種關係是正相關(兩者同時上升)還是負相關(一個上升,另一個下降)。

數值範圍快速回顧:
\( r \) 的值永遠在 -11 之間。
- \( r = 1 \):完美的正線性相關。
- \( r = -1 \):完美的負線性相關。
- \( r = 0 \):完全沒有線性相關。

你知道嗎?
PMCC 只測量線性(直線)關係。如果你的數據點形成一個完美的「U」形,即使關係非常明顯,PMCC 也有可能為 0!

重點總結: PMCC (\( r \)) 告訴我們線性關係的強弱以及方向。


第二節:建立假設檢定

當我們進行假設檢定時,我們是在試圖了解我們在小樣本中發現的相關性,是否強到足以證明在整個母體 (population) 中也存在這種相關性。

1. 母體參數 (\( \rho \))

在統計學中,我們使用希臘字母 \( \rho \)(讀作 "rho")來表示整個母體的相關係數。這才是我們實際要檢定的對象。

2. 設定假設

每個檢定都始於兩個陳述:
- 虛無假設 (Null Hypothesis, \( H_0 \)):這是「無趣」的版本。我們假設母體中沒有相關性。它永遠是 \( H_0: \rho = 0 \)
- 對立假設 (Alternative Hypothesis, \( H_1 \)):這是我們懷疑可能成立的情況。這取決於我們要檢定的是任何相關性、僅正相關還是僅負相關。

單尾檢定 vs. 雙尾檢定:
- 雙尾: 你只想知道是否「存在」相關性。(\( H_1: \rho \neq 0 \)
- 單尾(正向): 你認為一個變數增加會導致另一個變數增加。(\( H_1: \rho > 0 \)
- 單尾(負向): 你認為一個變數增加會導致另一個變數減少。(\( H_1: \rho < 0 \)

記憶小撇步:
\( \rho \) 想成一條「路」。
\( H_0 \) 說這條路是平坦的(斜率為零/沒有連結)。
\( H_1 \) 說這條路有去向(向上、向下,或者總之不是平的)!

重點總結: 永遠要先定義 \( \rho \),並寫出你的 \( H_0 \) 和 \( H_1 \)。


第三節:遊戲規則(假設條件)

為了使這項檢定符合 OCR A Level 的課程要求,我們對數據做了一個主要假設:數據必須來自一個雙變數常態分佈 (bivariate normal distribution)

這代表什麼?
簡單來說,如果你觀察母體的散點圖,這些點會形成一種「橢圓形」或蛋形的雲團。你在考試中不需要證明這一點,但如果題目要求,你必須將其作為假設條件列出來。

鼓勵一下: 如果「雙變數常態分佈」聽起來很嚇人,別擔心。在考試中,你通常只需要假設它成立,即可繼續進行檢定!


第四節:如何進行檢定(逐步說明)

課程大綱指出,你不需要從頭計算 \( r \)(你的計算機或試卷會提供給你)。你的工作是解讀它!

步驟 1:列出你的假設

寫下 \( H_0: \rho = 0 \) 和你選定的 \( H_1 \)。

步驟 2:選定顯著水準 (\( \alpha \))

通常是 5% (0.05) 或 1% (0.01)。這是數據必須跨越的「門檻」,才能被視為「顯著」。

步驟 3:找出臨界值 (Critical Value)

你會獲得一份臨界值表。使用它時,你需要知道:
1. 樣本大小 (\( n \))
2. 檢定是單尾還是雙尾
3. 顯著水準
表格會給你一個「臨界」數字。

步驟 4:將你的 \( r \) 與臨界值進行比較

如果你的樣本相關係數 \( r \) 比臨界值更偏離零,那就代表顯著!我們拒絕 \( H_0 \)
例如:如果臨界值是 0.5 而你的 \( r \) 是 0.7,這就代表你有足夠的證據!

步驟 5:寫出你的結論

結論應包含兩個部分:
1. 統計評論:「拒絕 \( H_0 \)」「未能拒絕 \( H_0 \)」
2. 現實世界的評論:「有證據顯示複習時間與考試成績之間存在正相關。」

快速回顧框:
- \( |r| > \text{臨界值} \implies \) 拒絕 \( H_0 \)(結果顯著)。
- \( |r| < \text{臨界值} \implies \) 接納 \( H_0 \)(證據不足)。


第五節:使用 p 值 (p-values)

有時,你拿到的不是表格,而是 p 值。這甚至更容易!
p 值是指我們觀察到的相關性純屬偶然發生的機率。

  • 如果 p 值 < 顯著水準:結果顯著。拒絕 \( H_0 \)。
  • 如果 p 值 > 顯著水準:結果不顯著。未能拒絕 \( H_0 \)。

避免常見錯誤:
學生常忘記,如果是雙尾檢定,在使用表格時,必須確保在正確的顯著水準下查看「雙尾」那一欄!


第六節:相關性與因果關係

這是考試中最愛出的題目!僅僅因為假設檢定顯示出顯著的相關性,並不代表一件事導致了另一件事。

例如:冰淇淋銷量與鯊魚襲擊次數高度相關(因為兩者在夏天都更頻繁發生)。但吃冰淇淋並不會導致鯊魚襲擊!

重點總結: 相關性顯示的是一種數學聯繫,而非必然的因果關係


摘要清單

在參加考試前,請確保你能夠:
- 使用 \( \rho \) 正確列出假設。
- 解釋 \( r \) 測量的是線性相關性。
- 使用表格根據 \( n \) 和顯著水準找出臨界值
- 將 p 值與顯著水準進行比較。
- 說明雙變數常態分佈的假設前提。
- 寫出與題目背景**相關的結論。