歡迎來到相關係數與回歸分析!
在本章中,我們將探討兩組不同的數據之間可能存在怎樣的關聯。例如,花更多時間溫習是否會帶來更高的考試成績?或者室外溫度是否會影響雪糕的銷量?相關係數 (Correlation) 幫助我們衡量這些關係的強弱,而回歸分析 (Regression) 則讓我們在已知一個數值的情況下預測另一個數值。別擔心這些術語聽起來很深奧——讀完這些筆記後,你就能像專家一樣運用自如了!
1. 散點圖與變量
在進行任何數學運算之前,我們通常會先把數據畫成圖表,這稱為散點圖 (Scatter Diagram)。它能幫助我們觀察數據之間是否有規律。
解釋變量與響應變量
要繪製散點圖,我們需要決定哪個變量放在哪個軸上:
- 解釋變量 (Explanatory Variable)(自變量 Independent): 這是「解釋」變化的變量。我們將其繪製在 \(x\) 軸上。你可以把它想像成「輸入 (input)」。
- 響應變量 (Response Variable)(應變量 Dependent): 這是「回應」變化的變量。我們將其繪製在 \(y\) 軸上。你可以把它想像成「輸出 (output)」或結果。
例子:如果你正在調查「日照時數」如何影響「雪糕銷量」,那麼日照時數就是解釋變量 (\(x\)),而銷量就是響應變量 (\(y\))。
快速複習:記住這句口訣:「\(x\) 解釋 \(y\)」,這樣就能輕鬆記住變量該放在哪裡了!
2. 相關係數:衡量關係
相關係數告訴我們兩個變量之間線性關係的兩件事:方向 (direction) 和 強度 (strength)。
積動差相關係數 (PMCC)
PMCC 是一個數值,用字母 \(r\) 表示,它能精確告訴我們相關性有多強。考試中不需要你推導公式,但你需要知道如何解讀結果。
- \(r = +1\): 完全正相關(所有點都在一條向上的直線上)。
- \(r = -1\): 完全負相關(所有點都在一條向下的直線上)。
- \(r = 0\): 完全沒有線性相關(點看起來像一團隨機的雲)。
你知道嗎? PMCC 只衡量線性(直線)關係。如果你的數據呈現「U」型曲線,即便數據之間有明顯的規律,PMCC 也可能接近 0!
解讀強度
在考試中,你經常需要描述相關性。請使用這些「強度」詞彙:
- 0.7 到 1.0: 強正相關。
- 0.3 到 0.7: 中等/弱正相關。
- -0.3 到 -0.7: 中等/弱負相關。
- -0.7 到 -1.0: 強負相關。
避免常見錯誤: 相關性不等於因果關係 (Correlation is NOT Causation)! 僅僅因為兩件事相關,並不代表其中一件事導致了另一件事。例如,雪糕銷量與鯊魚襲擊事件是相關的(因為兩者在夏天都會增加),但吃雪糕並不會導致鯊魚襲擊!
3. 線性回歸:最佳擬合線
如果存在線性相關,我們可以畫出一條回歸線 (Regression Line)。在統計學 1 (Statistics 1) 中,我們使用最小二乘回歸線 (Least Squares Regression Line)。這條線能使所有數據點與線之間的總距離達到最小。
回歸方程
方程寫作:\(y = a + bx\)
- \(b\): 斜率 (gradient)(表示 \(x\) 每增加 1 個單位時,\(y\) 的變化量)。
- \(a\): 截距 (intercept)(線與 \(y\) 軸的交點)。
如何計算 \(a\) 和 \(b\)
你會用到公式手冊中提供的總結統計量,如 \(S_{xx}\) 和 \(S_{xy}\)。計算步驟通常如下:
- 計算斜率:\(b = \frac{S_{xy}}{S_{xx}}\)
- 計算截距:\(a = \bar{y} - b\bar{x}\)(其中 \(\bar{x}\) 和 \(\bar{y}\) 分別是數據的平均值)。
關鍵點:回歸線一定會通過平均點 \((\bar{x}, \bar{y})\)。這是一個檢查你在散點圖上畫的線是否正確的好方法!
4. 使用回歸線進行預測
得出方程 \(y = a + bx\) 的主要目的,是為了讓我們在已知 \(x\) 的情況下預測 \(y\) 的值。
內插法與外推法
這是非常熱門的考試題目!你需要知道你的預測是否可靠。
- 內插法 (Interpolation): 在已有數據的範圍之內進行預測。這通常是可靠的。
- 外推法 (Extrapolation): 在原始數據範圍之外進行預測(例如,如果你的數據溫度介於 10°C 到 20°C 之間,預測 40°C 的情況就是外推)。這通常是不可靠的,因為我們不知道趨勢是否會持續。
比喻:想像你正在觀察一株幼苗,它一週內每天長高 1 厘米。內插法是猜測它在第 4 天有多高(安全)。外推法是猜測它在 10 年後有多高(危險——它最終會停止生長!)。
5. 編碼(變量轉換)
有時候,數據會經過「編碼」處理(例如減去一個常數或除以一個數)以方便運算。你需要知道這對結果有什麼影響。
- PMCC (\(r\)): 編碼不會改變 PMCC。如果關係很強,無論單位如何,它依然很強!
- 回歸線: 編碼確實會改變方程。如果你使用編碼後的數據計算回歸線,你必須將編碼公式帶回,才能得到原變量的最終關係。
總結摘要
1. 解釋變量 (\(x\)) 是輸入;響應變量 (\(y\)) 是輸出。
2. PMCC (\(r\)) 衡量從 -1 到 +1 的線性關係強度。
3. 相關性不能證明一件事導致另一件事。
4. 回歸線 \(y = a + bx\) 始終通過平均點 \((\bar{x}, \bar{y})\)。
5. 避免外推法 (Extrapolation)——在數據範圍之外進行預測是危險且不可靠的!
如果 \(S_{xx}\) 和 \(S_{xy}\) 的計算看起來很嚇人,別擔心。大多數情況下,考試會提供這些數值,你只需要把它們代入 \(a\) 和 \(b\) 的公式即可!