相關與迴歸:學習筆記 (單元 S1:統計學 1)
你好!歡迎來到令人興奮的相關與迴歸世界。這一章的主旨是理解兩個不同測量值之間的關係,例如你投入的溫習時間如何影響你的考試成績。別擔心,如果你覺得統計學有時會讓人感到不知所措,我們將會逐步拆解這些概念!
我們將學到什麼? 我們會學習如何使用圖表直觀地呈現變量間的關係,如何利用一個稱為 PMCC 的特殊數字來衡量這些關係的強度,最後,如何建立一條數學直線來進行預測。這項技能對於構建現實世界數據模型至關重要!
1. 雙變量數據與散點圖簡介
什麼是雙變量數據?
雙變量數據 (Bivariate Data) 簡單來說就是涉及兩個變量的數據。我們研究的是相同對象的成對觀察值。
- 例子: 測量一組學生的高度(變量 1)和體重(變量 2)。
解釋變量與反應變量
當我們分析關係時,通常會假設一個變量可能會影響另一個變量。
1. 解釋變量 (Explanatory Variable,自變量,\(x\)): 這是我們認為可能解釋或導致另一個變量發生變化的變量。它位於橫軸(x 軸)。
2. 反應變量 (Response Variable,應變量,\(y\)): 這是我們正在測量或試圖預測的變量。它的值取決於解釋變量。它位於縱軸(y 軸)。
散點圖
散點圖 (Scatter Diagram) 是分析雙變量數據的第一步。它將成對的數據點 \((x, y)\) 繪製在圖表上。
關鍵點: 透過觀察點的分佈模式,我們可以立即估計關係的類型和強度。
解讀散點圖中的模式
我們尋找三個主要特徵:方向、形式和強度。在 S1 中,我們主要關注線性關係。
1. 正相關 (Positive Correlation): 當 \(x\) 增加時,\(y\) 往往會增加。點向右上方延伸。
2. 負相關 (Negative Correlation): 當 \(x\) 增加時,\(y\) 往往會減少。點向右下方延伸。
3. 無相關 (No Correlation): 沒有明顯的規律;點是隨機散落的。
快速回顧: 模式告訴我們相關性的情況。如果點形成一條緊密的直線,則相關性很強。
2. 衡量相關性:積動差相關係數 (\(r\))
什麼是相關性?
相關性衡量兩個變量之間線性關係的強度和方向。
積動差相關係數 (PMCC)
為了獲得準確的數值衡量,我們使用 PMCC,通常以字母 \(r\) 表示。你的計算機通常會為你計算出這個值,但你必須理解它代表什麼!
\(r\) 的性質
PMCC (\(r\)) 總是在 \(-1\) 到 \(+1\) 的範圍內:
$$ -1 \le r \le 1 $$
1. 若 \(r = +1\): 完全正線性相關。所有點都精確地位於一條向上傾斜的直線上。
2. 若 \(r = -1\): 完全負線性相關。所有點都精確地位於一條向下傾斜的直線上。
3. 若 \(r = 0\): 無線性相關。
解讀 \(r\) 的數值
\(|r|\)(忽略正負號)越接近 1,關係越強。
- 強正相關: \(r\) 接近 +1(例如 \(r = 0.9\))
- 中度正相關: \(r\) 約在 0.5 到 0.8 之間
- 弱正相關: \(r\) 接近 0 但為正值(例如 \(r = 0.2\))
- 強負相關: \(r\) 接近 -1(例如 \(r = -0.9\))
記憶小撇步: 把 \(r\) 想成是關係的「速度計」。1 代表全速前進(完美匹配);0 代表停滯(沒有匹配)。正負號只是告訴你關係的方向(向上還是向下)。
你知道嗎? 相關性與因果關係
統計學中一個非常重要的概念是相關性與因果關係的區別。
相關性 (Correlation) 指的是兩個變量同時變動。
因果關係 (Causation) 指的是一個變量導致了另一個變量的變化。
例子: 雪糕銷量與犯罪率可能呈現強正相關(\(r\) 接近 1)。吃雪糕會導致犯罪嗎?當然不會!這是一個潛在變量(高溫/夏季)同時導致兩者上升。
關鍵規則:相關性並不代表因果關係。
3. 線性迴歸:尋找最佳擬合線
迴歸的目的
如果我們建立了強大的線性相關性,我們會想建立一個方程式來總結這種關係。這個方程式稱為線性迴歸線 (Linear Regression Line),或稱最佳擬合線。我們用它來進行預測。
在 S1 中,我們專注於 \(y\) 對 \(x\) 的迴歸線。這條線用於在給定解釋變量 \(x\) 的特定值時,預測反應變量 \(y\) 的值。
最小二乘法迴歸線
我們使用一種稱為最小二乘法 (Least Squares) 的方法。該方法旨在找到一條直線,使得從每個數據點到直線的垂直距離(稱為殘差 residuals)的平方和最小化。這給了我們「最好」的擬合效果。
直線方程式為:
$$ \hat{y} = a + bx $$
其中:
- \(\hat{y}\)(讀作 "y-hat")是 \(y\) 的預測值。
- \(a\) 是 y 軸截距 (y-intercept)。
- \(b\) 是直線的斜率 (gradient)。
計算 \(a\) 和 \(b\) 的步驟
為了計算 \(a\) 和 \(b\),我們首先需要找到三個關鍵的匯總統計量,通常表示為 \(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\)。這些是變異數和共變異數的衡量指標。
步驟 1:計算 S 值(匯總統計量)
這些 S 值的公式會在你的公式手冊中提供(或者通常由計算機計算)。我們根據 \(x\)、\(y\)、\(x^2\)、\(y^2\) 和 \(xy\) 的總和來使用它們。
$$ S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} $$ $$ S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n} $$ (注意:\(n\) 是數據對的總數。)
步驟 2:計算斜率 (\(b\))
斜率 \(b\) 取決於 \(x\) 和 \(y\) 如何隨之變動,以及 \(x\) 本身如何變動:
$$ b = \frac{S_{xy}}{S_{xx}} $$步驟 3:計算 y 軸截距 (\(a\))
迴歸線總是通過平均點 \((\bar{x}, \bar{y})\)。我們利用這個事實來找到 \(a\)。(請記住:\(\bar{x} = \frac{\sum x}{n}\) 及 \(\bar{y} = \frac{\sum y}{n}\))。
$$ a = \bar{y} - b\bar{x} $$常見錯誤警示! 計算 \(b\) 時,分母永遠使用 \(S_{xx}\)。如果你不小心使用了 \(S_{yy}\),你計算出來的是 \(x\) 對 \(y\) 的迴歸線斜率,這對於題目要求預測的 S1 題目來說通常是不正確的!
4. 解讀與局限性
解讀斜率 (\(b\))
斜率 \(b\) 告訴我們:當解釋變量 \(x\) 每增加一個單位,反應變量 \(y\) 的預測變動量。
例子: 如果 \(x\) 是「溫習時數」,\(y\) 是「考試成績」,而 \(b = 4.5\),那麼解釋為:「每多溫習一小時,預期的考試成績會增加 4.5 分。」
解讀 y 軸截距 (\(a\))
y 軸截距 \(a\) 是當 \(x=0\) 時,\(y\) 的預測值。
謹慎: 只有在現實背景下 \(x=0\) 是合理的時候,這種解釋才有意義。如果 \(x\) 是「成人高度」,且數據集中最小的高度是 150 cm,那麼說高度為 0 cm 時 \(y\)(體重)為 \(a\) 是毫無意義的!請務必檢查 \(x=0\) 是否在數據範圍內。
使用直線:內插法與外推法
一旦你有了方程式 \(\hat{y} = a + bx\),你就可以用它來進行預測。
1. 內插法 (Interpolation,安全預測): 這是針對處於原始數據範圍內的 \(x\) 值進行預測。這些預測通常是可靠的。
2. 外推法 (Extrapolation,危險預測): 這是針對處於原始數據範圍外的 \(x\) 值進行預測。
為什麼外推法很危險? 我們假設線性關係永遠持續下去,但實際上,一旦超出了數據邊界,關係可能會彎曲、趨於平緩或完全改變。在考試中,你必須始終警惕不要進行外推!
關鍵點: 迴歸是一個強大的預測工具,但其準確性高度依賴於相關性 (\(r\)) 的強度以及是否避免了外推。
單元 S1 總結清單:相關與迴歸
- 我會繪製並解讀散點圖嗎?
- 我能說明並解讀 PMCC (\(r\)) 的性質嗎?(範圍 \(-1\) 到 \(+1\))
- 我了解相關性與因果關係之間的區別嗎?(它們是不一樣的!)
- 我會定義並計算 \(S_{xx}\) 和 \(S_{xy}\) 嗎?
- 我會計算 \(y\) 對 \(x\) 的迴歸線嗎:\(\hat{y} = a + bx\)?
- 我能結合實際語境解讀 \(a\) 和 \(b\) 的值嗎?
- 我了解外推法的風險嗎?