歡迎來到相關係數的非正式假設檢定!

在本章中,我們將探討如何判斷兩件事物之間是否存在關聯。例如,你投入複習的時間是否真的與你的考試分數有關?或者一個人的身高是否與其鞋碼有關?我們使用非正式假設檢定(Informal Hypothesis Testing)來觀察我們在小群體(樣本)中看到的模式,是否足夠強大以至於能推論該模式同樣適用於所有人(總體)。

如果剛開始覺得這些術語有點「深奧」,不用擔心——其核心其實非常簡單,我們只是在尋找證據,判斷這種關係是真實存在的,還是純屬巧合!

基本概念:雙變數數據與關係

在進行任何檢定之前,我們需要先理解我們正在處理的對象。在本節中,我們處理的是雙變數數據(Bivariate data)。這意味著我們對每一個體都有兩個測量值(例如「身高」和「體重」)。

1. 相關性 (Correlation) 與關聯性 (Association)

這兩個術語經常被交替使用,但它們之間有細微的差別:

  • 相關性 (Correlation): 這特別指線性關係。換句話說,如果你將數據繪製在散點圖上,這些點是否看起來傾向於形成一條直線?
  • 關聯性 (Association): 這是一個更廣泛的術語。它意味著變數之間存在某種關係,即使它不是一條直線(例如,它可能是一條曲線)。

2. 相關係數 \(r\)

我們使用一個稱為相關係數的數值,以字母 \(r\) 表示,來衡量線性關係的強度。

  • 若 \(r = 1\),則為完美的正線性相關(一條完美的向上直線)。
  • 若 \(r = -1\),則為完美的負線性相關(一條完美的向下直線)。
  • 若 \(r = 0\),則完全沒有線性相關。

快速回顧: \(r\) 越接近 \(1\) 或 \(-1\),關係越強;越接近 \(0\),關係就越弱。

等級相關 (Rank Correlation):當關係非直線時

有時數據並不會形成直線,但它們仍朝著一致的方向移動(例如,隨著 \(x\) 增加,\(y\) 也總是增加,只是速度不同)。在這種情況下,我們使用等級相關

我們不再使用實際數值(如 \(152cm\)、\(180cm\)),而是將它們排序(第 1 高、第 2 高等)。這衡量的是等級之間的關聯性,而非實際數值。當你有離群值或非線性關係時,這是一個非常有用的工具!

你知道嗎? 在這個特定單元中,你不需要知道各種係數的複雜名稱(如 Pearson 或 Spearman),你只需要知道如何運用題目給你的 \(r\) 值即可!

假設檢定流程

這是我們決定樣本的相關性是否具有「統計顯著性」的過程。我們需要遵循特定的步驟。

步驟 1:建立你的假設

我們總是從兩個陳述開始:

  • 虛無假設 \(H_0\): 這是「平淡」的假設。它總是聲稱在總體中沒有相關性/關聯性
  • 對立假設 \(H_1\): 我們懷疑實際發生的情況。
    • 單尾檢定 (1-tailed test): 我們預測了方向(例如:「存在正相關」)。
    • 雙尾檢定 (2-tailed test): 我們認為存在某種關係,但不確定方向(例如:「存在相關性」)。

步驟 2:查看 \(p\)-值或臨界值

在考試中,你通常會得到相關係數的 \(p\)-值臨界值 (Critical value)。這些數值來自統計軟體或統計表。

  • \(p\)-值: 這是我們觀察到的相關性純屬巧合(偶然)發生的機率。
  • 顯著水準 (Significance Level): 這是由研究者設定的「門檻」(通常為 \(5\%\) 或 \(0.05\))。

步驟 3:做出決定

比較你的 \(p\)-值與顯著水準。記住這個簡單的口訣:

「若 \(p\) 值低,虛無假設必離去!」(If the p is low, the null must go!)

  • \(p < \text{顯著水準}\):我們拒絕 \(H_0\)。有足夠的證據顯示存在相關性。
  • \(p > \text{顯著水準}\):我們無法拒絕 \(H_0\)。沒有足夠的證據證明該相關性真實存在。

重點提示: 小的 \(p\)-值意味著該結果極不可能僅是運氣好!

得出結論(「非武斷」的方式)

在 Mathematics B (MEI) 中,考官很看重非武斷 (non-assertive) 的語言。我們永遠不會說我們「證明了」什麼。相反地,我們會說「有足夠的證據顯示……」

範例:「在 \(5\%\) 的顯著水準下,有足夠的證據顯示複習時間與考試成績之間存在正相關。」

現實生活範例:冰淇淋與曬傷

想像一下,你發現冰淇淋銷售量與曬傷案例之間存在高度相關(\(r = 0.9\))。假設檢定很可能會顯示這是一個「顯著」的相關性。

這是否意味著吃冰淇淋會導致曬傷? 不!這是一個經典範例,說明為什麼相關性不代表因果關係 (Correlation does not imply Causation)。兩者都是由第三個因素引起的:炎熱的天氣。在解釋結果時,請務必記住這一點!

常見錯誤需避免

  • 搞混 \(r\) 與 \(p\)-值: \(r\) 告訴你線性的強度;\(p\)-值告訴你該強度是否具有統計顯著性。
  • 武斷的語言: 避免說「這證明了 \(x\) 導致 \(y\)」。請堅持使用「有證據顯示……」。
  • 離群值 (Outliers): 要小心!單一離群值可能讓微弱的相關性看起來很強,或讓強相關看起來很弱。如果題目有提供散點圖,請務必觀察它。
  • 時間序列: 相關係數僅適用於隨機變數。它們不適合用於時間序列等情況,因為其中一個變數(時間)是在固定間隔下設定的。

快速回顧區

\(H_0\): 無相關性。
\(H_1\): 有相關性(正相關/負相關/任意)。
決定: 若 \(p \leq \text{顯著水準}\),拒絕 \(H_0\)。
情境: 最終結論必須總是根據原始變數(例如「身高」和「體重」)來陳述。

總結重點

相關係數的非正式假設檢定讓我們能利用樣本的相關係數 (\(r\)) 和 \(p\)-值,來判斷總體中是否存在關係。只要遵循「若 \(p\) 值低,虛無假設必離去」的法則,並使用謹慎、非武斷的語言,你一定能掌握統計學課程中的這一部分!