歡迎來到回歸分析與相關係數的世界!
各位未來的統計學家大家好!本章屬於單元 S3,內容至關重要,因為它教會我們如何找出並量度兩個變數之間的關係。試想一下,日照時間如何影響植物生長,或是溫習時間如何影響考試分數,這些都是本章探討的課題。
學完這些筆記後,你將能夠:
- 利用散點圖 (scatter diagram) 直觀地呈現數據之間的關係。
- 利用積動差相關係數 (Product Moment Correlation Coefficient, PMCC) 計算並解讀這些關係的強弱。
- 利用最小二乘法 (Least Squares Regression method) 找出「最適合直線 (line of best fit)」,從而進行預測。
如果起初覺得這些概念有點抽象,別擔心,我們會將公式和理論拆解成簡單易懂的步驟。讓我們馬上開始吧!
1. 視覺化關係:散點圖
分析任何雙變量數據(涉及兩個變數的數據)的第一步,就是將它們繪製在散點圖上。
1.1 自變數與應變數
當你繪製兩個變數時,你需要決定哪一個變數會影響另一個:
- 自變數 (Independent Variable, \(x\)): 這是你所控制,或導致變化的變數。它位於橫軸上。
- 應變數 (Dependent Variable, \(y\)): 這是隨自變數變化而改變的變數。它位於縱軸上。
例子:如果我們研究氣溫 (x) 如何影響雪糕銷量 (y),氣溫就是自變數。
1.2 線性相關的類型
當我們觀察散點圖時,我們主要看的是關係(相關性)的方向和強度。
- 正相關: 當 \(x\) 增加時,\(y\) 通常也會增加。數據點從左至右呈上升趨勢。
- 負相關: 當 \(x\) 增加時,\(y\) 通常會減少。數據點從左至右呈下降趨勢。
- 無相關: 數據點隨機散佈,顯示 \(x\) 與 \(y\) 之間沒有明顯的關係。
快速複習:相關性 vs. 因果關係
相關性 (Correlation) 意味著兩個變數共同變化;而因果關係 (Causation) 則意味著一個變數直接導致了另一個變數的改變。僅僅因為兩件事物相關,並不代表其中一個是另一個的原因!
你知道嗎?在夏天,雪糕銷量和犯罪率都會上升。它們雖然相關,但雪糕並不會導致犯罪(潛在原因其實是炎熱的天氣!)。
2. 量度相關性:PMCC (\(r\))
雖然散點圖能讓我們直觀地看到關係,但我們需要精確的數學量度。這就是積動差相關係數 (Product Moment Correlation Coefficient, PMCC) 的任務,以 \(r\) 表示。
2.1 什麼是 PMCC?
PMCC 量度的是兩個變數之間線性關係的強度與方向。
2.2 解讀 \(r\) 的數值
\(r\) 的值始終介於 -1 到 1 之間:
$$ -1 \le r \le 1 $$| PMCC (\(r\)) 數值 | 解讀 |
|---|---|
| \(r = 1\) | 完全正相關(所有點精確地落在向上的直線上。) |
| \(r\) 接近 +1(例如 0.8 至 0.99) | 強正相關 |
| \(r\) 接近 0.5 | 中度正相關 |
| \(r \approx 0\) | 無線性相關 |
| \(r\) 接近 -0.5 | 中度負相關 |
| \(r = -1\) | 完全負相關 |
2.3 計算 \(r\)(公式組成部分)
雖然你經常會用計算機找出 \(r\),但理解計算過程的基石至關重要,這些基石就是平方和與積和:
- \(S_{xx}\)(\(x\) 的平方和): 量度 \(x\) 數據的散佈程度。
- \(S_{yy}\)(\(y\) 的平方和): 量度 \(y\) 數據的散佈程度。
- \(S_{xy}\)(積和): 量度 \(x\) 與 \(y\) 如何共同變化。這是決定相關係數正負號的核心部分。
PMCC 的公式為:
$$ r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} $$別擔心需要頻繁手算 \(S_{xx}, S_{yy}\) 和 \(S_{xy}\)—你的 Edexcel 公式手冊提供了基於總和的定義,且計算機可以處理大部分繁重工作。但你必須能夠使用這三個數值來計算 \(r\)。
PMCC 的重點提示
PMCC (\(r\)) 只量度線性關係。如果數據呈現完美的曲線(非線性關係),\(r\) 可能接近 0,這會誤導你認為兩者沒有關係,而事實上它們之間存在強烈的非線性關係!
3. 找出最適合直線:線性回歸
如果我們確定存在線性關係(即 \(r\) 接近 1 或 -1),我們就可以找出回歸直線。這條直線用於建立模型並進行預測。
3.1 最小二乘法原理
繪製最適合直線時,我們希望這條線能將實際數據點與直線之間的總誤差降至最低。在 S3 中,這條直線稱為最小二乘法回歸直線 (Least Squares Regression Line)。它將點到直線的垂直距離(殘差)的平方和降至最低。
3.2 回歸方程
\(y\) 對 \(x\) 的回歸直線標準方程為:
$$ y = a + bx $$其中:
- \(y\) 是應變數(即你打算預測的變數)。
- \(x\) 是自變數(即你用來進行預測的變數)。
- \(b\) 是直線的斜率 (gradient)。
- \(a\) 是 \(y\) 軸截距 (y-intercept)。
3.3 計算係數 (\(a\) 與 \(b\))
為了找出這條直線,我們需要用到 \(S_{xx}, S_{xy}\) 以及數據的平均值(\(\bar{x}\) 和 \(\bar{y}\))。
步驟 1:計算 \(b\)(斜率)
斜率 \(b\) 告訴我們 \(x\) 每增加一個單位,預期 \(y\) 會改變多少。
$$ b = \frac{S_{xy}}{S_{xx}} $$記憶小貼士:斜率 \(b\) 取決於 \(x\) 與 \(y\) 的共同變異 (\(S_{xy}\)) 相對於 \(x\) 的散佈程度 (\(S_{xx}\))。
步驟 2:計算 \(a\)(\(y\) 軸截距)
最小二乘法回歸直線始終通過平均點 \((\bar{x}, \bar{y})\)。我們利用這個事實以及已計算出的 \(b\) 來求 \(a\)。
$$ a = \bar{y} - b\bar{x} $$逐步範例流程:
- 計算平均值 \(\bar{x}\) 和 \(\bar{y}\)。(題目通常會給出,或可用計算機輕鬆求得)。
- 計算 \(S_{xx}\) 和 \(S_{xy}\)。(通常題目會提供)。
- 使用步驟 1 的公式計算 \(b\)。
- 使用步驟 2 的公式計算 \(a\)。
- 寫出最終方程 \(y = a + bx\)。
3.4 區分 \(y\) 對 \(x\) 與 \(x\) 對 \(y\) 的重要性
在進階數學 (Further Maths) 中一個常見的陷阱是搞錯哪個變數預測哪個變數。\(y\) 對 \(x\) 的回歸直線與 \(x\) 對 \(y\) 的回歸直線是不同的。
- \(y\) 對 \(x\) 的回歸: \(y = a + bx\)。當 \(x\) 是自變數且我們想預測 \(y\) 時使用。(將垂直誤差降至最低)。
- \(x\) 對 \(y\) 的回歸: \(x = c + dy\)。當 \(y\) 是自變數且我們想預測 \(x\) 時使用。(將水平誤差降至最低)。
如果題目要求你根據所獲得的分數 (\(y\)) 來預測溫習時間 (\(x\)),你必須使用 \(x\) 對 \(y\) 的直線。
給同學的關鍵提示
請務必先識別應變數!如果你要根據年齡 (AGE) 預測身高 (HEIGHT),那麼身高就是 \(y\),年齡就是 \(x\)。請使用 \(y = a + bx\)。當你用 \(x\) 預測 \(y\) 時,\(b\) 的公式中,分母永遠是 \(S_{xx}\)。
4. 使用回歸直線:預測與局限
一旦你有了方程 \(y = a + bx\),你就可以用它來估算數值。
4.1 內插法 (Interpolation, 可靠的預測)
內插法是指根據落在原始數據範圍內的自變數 \(x\),對應變數 \(y\) 進行預測。
例子:如果原始數據使用 5 至 15 歲,預測 10 歲兒童的身高就是內插法。這種方法通常比較可靠。
4.2 外推法 (Extrapolation, 不可靠的預測)
外推法是指根據落在原始數據範圍外的 \(x\) 值,對 \(y\) 進行預測。
例子:使用 5-15 歲的數據來預測 40 歲成年人的身高。
警告! 外推法很危險,因為你假設線性趨勢會無限期地持續下去,而這在現實生活中往往是錯誤的。在觀察範圍之外,關係經常會中斷或改變形式。
4.3 可靠性與適用性
任何預測的可靠性取決於兩點:
- 相關係數的強度 (\(|r|\)): \(|r|\) 越接近 1,數據對直線的擬合度就越好,預測就越可靠。
- 數據範圍(內插法 vs. 外推法): 內插法通常可靠;外推法通常不可靠。
類比:想像一下預測你在一場 10 公里旅程中的速度。如果你使用前 5 公里的數據(內插法),你的預測很可能是準確的。但如果你用這些數據去預測在全國 300 公里旅程中的速度(外推法),你的預測很可能會出錯,因為路況會改變!
章節總結檢核表
- 我能從強度和方向解讀 PMCC (\(r\)) 嗎?
- 我是否知道相關性並不代表因果關係?
- 給定 \(S_{xx}\) 和 \(S_{xy}\),我能計算係數 \(a\) 和 \(b\) 嗎?
- 我能分辨 \(y\) 對 \(x\) 的直線和 \(x\) 對 \(y\) 的直線嗎?
- 我能判斷一個預測是屬於內插法還是外推法嗎?
如果你的回答都是肯定的,那麼你已經準備好挑戰考題了!
祝你溫習順利!你已經成功掌握了統計關係的核心概念。