歡迎來到相關性與線性回歸的世界!

你有沒有想過,你花在社交媒體上的時間和你的考試分數之間是否存在真正的聯繫?或者個子較高的人腳真的比較大嗎?在本章中,我們將探討雙變量數據(bivariate data)——這只是一個用來描述我們正在研究兩個不同變量之間關係的高級說法。看完這些筆記後,你將學會如何識別規律、衡量它們的強弱,甚至(當然是從數學角度上)預測未來!

1. 散點圖:觀察規律

在我們接觸任何公式之前,我們總是先觀察數據。散點圖(scatter diagram)是一種將數據點對 \((x, y)\) 繪製在坐標平面上的圖表。

為什麼要使用它?

我們使用散點圖來判斷是否存在合理的線性關係(plausible linear relationship)。簡單來說:這些點看起來是否像是在嘗試組成一條直線?

  • 正線性相關(Positive Linear Correlation): 當 \(x\) 增加時,\(y\) 也趨向於增加(點呈「上坡」趨勢)。
  • 負線性相關(Negative Linear Correlation): 當 \(x\) 增加時,\(y\) 趨向於減少(點呈「下坡」趨勢)。
  • 非線性關係(Non-linear Relationship): 點形成了一條曲線(例如「U」型)。
  • 無相關性(No Correlation): 點像撒落的胡椒粉一樣散亂分佈;沒有明確的方向。

類比:將散點圖想像成一個「連點成線」的拼圖,只是點沒有完全排成一條直線。你的工作是觀察一把直線尺是否能大致覆蓋其中的大部分點。

關鍵要點:

一定要先繪製散點圖!這能防止你試圖將直線強加在實際上是曲線的數據上。


2. 積差相關係數 (\(r\))

現在我們已經看到了規律,我們需要一種方法來衡量它。這就是 \(r\) 的用處。它告訴我們兩件事:線性關係的強度方向

\(r\) 的數值範圍

\(r\) 的值總是在 \(-1\)\(1\) 之間。

  • \(r = 1\): 完全正線性相關(一條完美的向上直線)。
  • \(r = -1\): 完全負線性相關(一條完美的向下直線)。
  • \(r = 0\): 完全沒有線性關係。
  • \(r \approx 0.9\): 很強的正相關。
  • \(r \approx -0.3\): 微弱的負相關。

避免常見錯誤!

相關性並不代表因果關係(Correlation does NOT mean Causation)。 僅僅因為兩件事相關(例如雪糕銷量和鯊魚襲擊事件),並不代表其中一件事導致了另一件事!(在這個例子中,「原因」其實是炎熱的夏天天氣)。

快速回顧:

接近 1 或 -1: 強線性關係。
接近 0: 微弱或無線性關係。


3. 線性回歸:尋找最佳擬合線

如果散點圖看起來是線性的,我們就使用最小二乘法(Method of Least Squares)來求出「最佳」直線的方程。這條線稱為回歸線(Regression Line)

應該使用哪條線?

在 H2 數學中,我們通常處理兩個變量:自變量(Independent Variable, \(x\))因變量(Dependent Variable, \(y\))

  • \(y\) 對 \(x\) 的回歸線: 當你想要在給定 \(x\) 的值下預測 \(y\) 時使用。這是你最常使用的線,其形式為 \(y = a + bx\)。
  • \(x\) 對 \(y\) 的回歸線: 當你想要在給定 \(y\) 的值下預測 \(x\) 時使用。其形式為 \(x = c + dy\)。

不用擔心這看起來很棘手:你的圖形計算機(GC)會幫你完成計算 \(a\) 和 \(b\) 值的繁重工作!只需確保你將數據正確輸入列表即可。


4. 進行預測:內插法與外推法

一旦你有了回歸方程,就可以代入數值進行估算。但要小心!

內插法(安全地帶)

這是指對原始數據範圍之內的數值進行預測。
例子:如果你的數據是關於 13 到 18 歲學生的,預測 15 歲學生的結果就是內插法(interpolation)。這通常是可靠的。

外推法(危險地帶)

這是指對數據範圍之外的數值進行預測。
例子:根據幼兒的數據預測 40 歲成年人的身高。這通常是不可靠的,因為線性趨勢可能不會永遠持續下去!

關鍵要點:

當相關性很強(\(r\) 接近 1 或 -1)且你正在進行內插法時,預測結果最為可靠。


5. 數據轉換:處理曲線

如果散點圖顯示出曲線怎麼辦?我們可以使用變換(transformations)來將其「拉直」。課程要求你掌握如何使用平方、倒數或對數變換。

它是如何運作的:

與其繪製 \(y\) 對 \(x\),我們可能會繪製:

  • \(y\) 對 \(x^2\)
  • \(y\) 對 \(\frac{1}{x}\)
  • \(y\) 對 \(\ln x\)
  • \(\ln y\) 對 \(x\)

如何選擇最佳模型?

當你在 GC 上嘗試不同的變換時,最佳模型是那個 \(r\) 的絕對值最接近 1 的模型。這意味著該特定的變換使數據看起來最像一條直線。

逐步提示:
1. 觀察散點圖的形狀。
2. 應用題目建議的變換。
3. 檢查新的 \(r\) 值。
4. 使用新方程(例如 \(y = a + b(\ln x)\))進行預測。


考試總結清單

1. 散點圖: 我有標記坐標軸嗎?我有描述關係嗎(線性/非線性,正相關/負相關)?
2. 相關係數 (\(r\)): 它是強還是弱?它是否支持使用線性模型?
3. 回歸線: 我用對線了嗎(用 \(y\) 對 \(x\) 來預測 \(y\))?
\n4. 可靠性: 預測是否屬於內插?\(r\) 值是否足夠高?(務必提到這兩點!)
5. 變換: 我有記得將數值代入變換後的變量嗎(例如 \(\ln x\) 而不是僅僅代入 \(x\))?

你一定沒問題的! 相關性與回歸是 H2 數學中較為「直觀」的章節之一。熟練使用你的圖形計算機,你會發現這些題目其實很容易應付。