Correlation and regression

歡迎來到「相關與回歸」的世界！

你好，未來的統計學家！本章將帶領你見證數學與現實世界的碰撞。我們不僅僅是描述數據，更要開始探討一個令人興奮的問題：「兩個不同的變量之間有什麼關係？我們能否利用其中一個來預測另一個？」

你將學習分析關係的必備工具，例如學習時數如何影響考試成績，或者氣溫如何影響雪糕銷量。別擔心，即使起初覺得複雜，我們也會一步一步拆解每一個計算步驟與概念！

I. 關係視覺化：散點圖 (Scatter Diagrams)

分析兩個變量關係的第一步，就是把它畫出來。這幅圖稱為散點圖 (Scatter Diagram)。

什麼是散點圖？

散點圖將數據點對 \((x, y)\) 繪製在標準的笛卡兒坐標系（Cartesian graph）上。

自變量 (Independent Variable) (\(x\)) 通常繪製在橫軸上。這通常是我們認為會影響另一個變量的變量。（把它想像成原因或輸入。）
因變量 (Dependent Variable) (\(y\)) 繪製在縱軸上。這個變量的值取決於 \(x\)。（把它想像成結果或輸出。）

II. 量化相關性：積矩相關係數 (PMCC, \(r\))

我們對散點圖的視覺判斷往往具有主觀性。為了得到線性相關性的客觀數值指標，我們使用積矩相關係數 (Product Moment Correlation Coefficient)，通常以 \(r\) 表示。

積矩相關係數 (\(r\))

PMCC 是一個用於衡量線性相關性的強度和方向的數值。

\(r\) 的關鍵特性

\(r\) 的值必須介於 \(-1\) 和 \(+1\) 之間（包含邊界）：\(-1 \le r \le 1\)。
當 \(r = +1\) 時，代表完全正線性相關（所有點精確地排列在一條向上傾斜的直線上）。
當 \(r = -1\) 時，代表完全負線性相關（所有點精確地排列在一條向下傾斜的直線上）。
當 \(r = 0\) 時，代表無線性相關。

詮釋：相關性的強度

我們如何描述介於 0 到 1（或 0 到 -1）之間的值呢？

強相關： \(r\) 接近 \(-1\) 或 \(+1\)（例如 \(r = 0.9\) 或 \(r = -0.85\)）。點群非常靠近一條直線。
中度相關： \(r\) 距離 0 有一段距離（例如 \(r = 0.5\) 或 \(r = -0.4\)）。
弱相關： \(r\) 接近 0（例如 \(r = 0.1\) 或 \(r = -0.2\)）。點群散佈較廣。

記憶小撇步：把 \(r\) 當作你的「關係狀態計」。1 是「完美匹配」，-1 是「完全相反」，而 0 是「陌生人」。

!!! 重要提示 !!!
PMCC 只測量線性關係。如果數據呈現強烈的曲線（非線性關係），即使兩者之間存在非常強的關係，\(r\) 也可能接近 0！因此，你必須始終先觀察散點圖。

你知道嗎？

PMCC 通常是使用摘要統計量（例如 \(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\)）計算出來的。考試中通常會直接給出這些值，或者你可以利用計算機的統計功能來求出 \(r\)。其完整公式為： \[\n r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\n \]

III. 線性回歸：尋找最佳擬合線

如果我們確定了關係是強且呈線性的，我們可以定義一條最能描述這種關係的直線。這稱為回歸線 (Regression Line)。其主要目的在於預測。

\(y\) 對 \(x\) 的回歸線

在 S1 課程中，我們專注於讓我們能根據自變量 \(x\) 預測因變量 \(y\) 的直線。其標準方程形式為：

\[\n\mathbf{y = a + bx}\n\]

\(y\)：因變量的預測值。
\(x\)：用於預測的自變量值。
\(b\)：直線的斜率 (Gradient)。這告訴我們當 \(x\) 每增加 1 個單位時，\(y\) 會改變多少。
\(a\)：\(y\) 軸截距 (y-intercept)。這是當 \(x=0\) 時，\(y\) 的預測值。

計算 \(a\) 和 \(b\) 的步驟

我們需要與計算 \(r\) 時相同的摘要統計量：\(S_{xx}\) 和 \(S_{xy}\)。

步驟 1：計算斜率 (\(b\))

斜率 \(b\)（回歸係數）的公式為： \[\nb = \frac{S_{xy}}{S_{xx}}\n\]

注意：\(b\) 的符號必須與 \(r\) 的符號一致。如果 \(r\) 是正數，\(b\) 也必須是正數（正相關）。

步驟 2：計算 \(y\) 軸截距 (\(a\))

回歸線必須始終通過均值點 \((\bar{x}, \bar{y})\)。我們利用這個事實來計算 \(a\)： \[\n\bar{y} = a + b\bar{x}\n\] 整理得： \[\n\mathbf{a = \bar{y} - b\bar{x}}\n\]

常見錯誤：學生常將 \(b\) 的公式與 \(r\) 的公式混淆。記住，\(b\) 只涉及 \(S_{xy}\) 和 \(S_{xx}\)，而 \(r\) 同時用到 \(S_{yy}\)。

詮釋 \(a\) 和 \(b\)

能夠在具體語境下詮釋係數的意義非常關鍵：

詮釋 \(b\)： 「[變量 \(x\)] 每增加 1 個單位，預測 [變量 \(y\)] 會增加/減少 \(|b|\) 個單位。」
詮釋 \(a\)： 「當 [變量 \(x\)] 為零時，預測 [變量 \(y\)] 的值為 \(a\)。」（注意：在某些情況下，\(x=0\) 可能沒有實際意義，例如預測工作經驗為 0 年的薪金）。

關鍵總結：回歸方程

方程 \(y = a + bx\) 是我們的預測工具。我們先計算 \(b\)，然後使用均值 \((\bar{x}, \bar{y})\) 來計算 \(a\)。

IV. 預測的可靠性（內插法 vs. 外推法）

得到回歸線後，我們可以用它預測 \(y\) 對應特定 \(x\) 的值。但這些預測有多可靠呢？

1. 內插法 (Interpolation)

當我們使用的 \(x\) 值落在原始數據的範圍內時，稱為內插法。

例子：如果我們的數據集涵蓋了學習時數 10 小時至 50 小時，那麼預測學習 30 小時學生的分數就是內插法。
可靠性： 只要 PMCC (\(r\)) 接近 \(+1\) 或 \(-1\)，使用內插法的預測通常是可靠的。

2. 外推法 (Extrapolation)

當我們使用的 \(x\) 值落在原始數據範圍之外（無論是高得多還是低得多）時，稱為外推法。

例子：使用上述數據預測某人學習 100 小時（或 1 小時）的得分。
可靠性： 使用外推法的預測通常是不可靠的（或有風險的）。我們不能假設這種關係（直線）在觀測數據範圍之外仍然無限延伸。

類比：內插法就像是你擁有上午 9 點到下午 5 點的數據，從而推測這段時間內的溫度。而外推法則是僅憑這段時間的數據，就去猜測午夜的溫度——原本的關係可能會發生徹底改變！

V. 編碼 (Coding) 對相關性與回歸的影響

有時數據值非常大或非常小，導致計算困難（雖然現代計算機可以輕鬆處理）。我們可以使用編碼（線性變換）來簡化數字。

典型的編碼關係形式為：\(p = \frac{x - c}{d}\) 或 \(p = ax + b\)。

1. 對相關性 (PMCC) 的影響

如果變量 \(x\) 和 \(y\) 經過了線性轉換（例如 \(x' = ax + b\) 和 \(y' = cy + d\)），PMCC 幾乎不受影響。

規則： 只要縮放因子（\(a\) 和 \(c\)）同為正數或同為負數，\(x\) 與 \(y\) 之間的相關係數 \(r\)，與編碼後變量 \(x'\) 和 \(y'\) 之間的相關係數 \(r\) 是一樣的。

在 S1 課程術語中： 除非明確告知某個縮放因子為負數（這會逆轉關係的方向），否則你可以假設：

編碼不會改變 \(r\) 的大小。\(r_{xy} = r_{x'y'}\)。

2. 對回歸係數 (\(a\) 和 \(b\)) 的影響

數據編碼後，回歸線確實會改變。

如果編碼數據的回歸線為 \(y' = A + Bx'\)，你必須利用編碼關係來還原回原始的直線方程 \(y = a + bx\)。

範例場景：

假設我們使用的編碼為：\(x' = 2x - 5\) 和 \(y' = \frac{y}{10}\)。

我們求得編碼數據的回歸線為 \(y' = 1.5 + 4x'\)。

解碼步驟：

將編碼定義代入編碼後的方程： \[\n \frac{y}{10} = 1.5 + 4(2x - 5)\n \]
簡化等式右側 (RHS)： \[\n \frac{y}{10} = 1.5 + 8x - 20\n \] \[\n \frac{y}{10} = 8x - 18.5\n \]
兩邊同時乘以縮放因子 (10) 以單獨求出 \(y\)： \[\n y = 10(8x - 18.5)\n \] \[\n \mathbf{y = 80x - 185}\n \]

這就是原始的回歸方程（\(a = -185\)，\(b = 80\)）。

編碼快速檢核

PMCC (\(r\))： 保持不變（大小與符號均同）。
回歸 (\(a\) 和 \(b\))： 會發生改變。必須進行解碼以還原到原始變量。

VI. 相關與因果：關鍵區別

這是統計學中最核心的概念之一，考官非常喜歡測試你對此的理解！