雙變量數據簡介

歡迎來到雙變量數據的世界!雖然「單變量」數據只關注單一事物(例如學生的身高),但雙變量數據會同時觀察兩件不同的事物,以找出它們之間是否存在關聯。例如:你花在溫習的時間與你取得的成績有關嗎?又或者樹木的高度與其年齡有關嗎?

在這個章節中,我們不僅是在看數字,更是在尋找它們之間的聯繫。理解這些聯繫能幫助我們做出預測,並更清晰地認識周遭的世界。如果一開始覺得術語很多也不用擔心——我們會一步一步為你拆解!

1. 散點圖與回歸直線

「觀察」雙變量數據的最佳方式是使用散點圖。圖表上的每一個點代表一個個體或項目,其位置由兩個變量決定(一個在 \(x\) 軸上,另一個在 \(y\) 軸上)。

解讀數據「雲團」

當你觀察散點圖時,你需要尋找其中的規律:

  • 正相關:當 \(x\) 增加時,\(y\) 也增加(點的走勢通常是「上揚」的)。例子:氣溫升高時,雪糕的銷量會增加。
  • 負相關:當 \(x\) 增加時,\(y\) 減少(點的走勢通常是「下行」的)。例子:汽車的車齡越久,其價值越低。
  • 無相關:點散佈在各處,像是一團混亂的雲。沒有明顯的線性聯繫。

回歸直線

回歸直線(或稱「最佳擬合線」)是一條最能代表散點圖中數據趨勢的直線。在考試中,你不需要計算這條直線的方程式,但你必須知道如何詮釋它。

快速複習:我們使用回歸直線來進行預測。
1. 內插法 (Interpolation):預測數據範圍以內的數值。這通常相當可靠!
2. 外推法 (Extrapolation):預測數據範圍以外的數值。這是有風險的,因為趨勢可能不會延續下去!

群體中的不同區分

有時,散點圖可能會顯示出兩個截然不同的「群集」或組別。
類比:想像繪製 100 隻狗的身高與體重。你可能會看到兩個明顯的分組——一組是「小型犬」,另一組是「大型犬」。
重要的是要識別數據是否來自群體中的不同區分,因為單一的回歸直線可能不適合用於整個群體。

核心重點:散點圖能幫助我們視覺化兩個變量之間的關係,但在預測已知數據範圍以外的數值時,我們必須謹慎。

2. 相關性 vs. 因果關係

這是考試中的熱門題目!僅僅因為兩件事物相關(它們一同變動),並不代表其中一件事導致了另一件事。

經典例子:雪糕銷量與鯊魚襲擊事件之間存在高度正相關。吃雪糕會導致鯊魚咬人嗎?當然不會!兩者都是由隱藏的第三個變量引起的:溫暖的天氣。天氣熱時,人們會吃更多雪糕,同時也有更多人去海裡游泳。

避免常見錯誤:在描述關係時,永遠不要使用「證明」(proves) 這個詞。相反,應該說「有證據顯示存在線性關係」。

你知道嗎?這個隱藏的第三個因素通常被稱為混淆變量 (confounding variable)

3. 皮爾遜積矩相關係數 (PMCC)

PMCC(以字母 \(r\) 表示)是一種數值化方法,用來衡量散點圖上的點與直線的貼近程度。

\(r\) 值的含義:

  • \(r = 1\):完全正線性相關(所有點完全落在「上揚」的直線上)。
  • \(r = -1\):完全負線性相關(所有點完全落在「下行」的直線上)。
  • \(r = 0\):完全沒有線性相關。

\(r\) 越接近 1 或 -1,關係越強。如果 \(r\) 接近 0,關係就非常弱。

重要提示:PMCC 只衡量線性(直線)關係。如果數據呈現曲線(如「U」形),即使明顯有規律,PMCC 也可能是 0!

核心重點:\(r\) 告訴我們線性關係的強度方向,其數值始終介於 -1 到 1 之間。

4. 相關性的假設檢定

我們如何知道在小樣本中看到的相關性,對於整個群體而言是真實的,還是僅僅是巧合?這時候就要用到假設檢定

設定

在這些檢定中,我們使用希臘字母 **rho** (\(\rho\)) 來代表整個群體中的相關係數。

  • 虛無假設 (Null Hypothesis, \(H_0\)):\(\rho = 0\)(群體中沒有相關性)。
  • 對立假設 (Alternative Hypothesis, \(H_1\)):
    \(\rho > 0\)(正相關 - 單尾檢定)
    \(\rho < 0\)(負相關 - 單尾檢定)
    \(\rho \neq 0\)(存在相關性 - 雙尾檢定)

如何執行檢定:

1. 明確列出假設
2. 識別顯著性水平(通常為 5% 或 1%)。
3. 從公式冊提供的表中找出臨界值 (Critical Value)。你需要樣本大小 (\(n\)) 和顯著性水平。
4. 將你計算出的 \(r\) 與臨界值進行比較
5. 結論:如果你的 \(r\) 值比臨界值更偏離零,它就落入「拒絕域」。此時你應拒絕 \(H_0\),並聲明有證據顯示存在相關性。

例子:如果你的臨界值是 0.45,而樣本 \(r = 0.52\):
由於 \(0.52 > 0.45\),我們拒絕 \(H_0\)。這代表有顯著證據顯示存在正相關。

鼓勵一下:PMCC 的假設檢定過程非常規律——只要你掌握了一個題目的步驟,就等於掌握了所有這類題目!

快速複習箱:
- 單尾檢定:尋找特定的方向(正相關 或 負相關)。
- 雙尾檢定:尋找任何相關性(正相關 或 負相關)。記憶小撇步:在雙尾檢定中,如果查閱的表是針對單尾的,記得要將顯著性水平減半!

最終核心重點:在 OCR A Level 考試中,你不需要從原始數據計算 \(r\),但你必須能夠利用給定的 \(r\) 值執行假設檢定,並解釋其在現實情境中的意義。