歡迎來到「相關與回歸」的世界!

你好,未來的統計學家!本章將帶領你見證數學與現實世界的碰撞。我們不僅僅是描述數據,更要開始探討一個令人興奮的問題:「兩個不同的變量之間有什麼關係?我們能否利用其中一個來預測另一個?」

你將學習分析關係的必備工具,例如學習時數如何影響考試成績,或者氣溫如何影響雪糕銷量。別擔心,即使起初覺得複雜,我們也會一步一步拆解每一個計算步驟與概念!


I. 關係視覺化:散點圖 (Scatter Diagrams)

分析兩個變量關係的第一步,就是把它畫出來。這幅圖稱為散點圖 (Scatter Diagram)

什麼是散點圖?

散點圖將數據點對 \((x, y)\) 繪製在標準的笛卡兒坐標系(Cartesian graph)上。

  • 自變量 (Independent Variable) (\(x\)) 通常繪製在橫軸上。這通常是我們認為會影響另一個變量的變量。(把它想像成原因或輸入。)
  • 因變量 (Dependent Variable) (\(y\)) 繪製在縱軸上。這個變量的值取決於 \(x\)。(把它想像成結果或輸出。)
相關的類型

通過觀察數據點形成的圖案,我們可以描述相關性 (Correlation),即兩個變量之間線性關係的強度和方向。

1. 正相關 (Positive Correlation)

  • 當 \(x\) 增加時,\(y\) 也傾向於增加。
  • 點群大致上從左下向右上延伸。
  • 例子:跑步的時間越長,涵蓋的距離就越遠。

2. 負相關 (Negative Correlation)

  • 當 \(x\) 增加時,\(y\) 傾向於減少。
  • 點群大致上從左上向右下延伸。
  • 例子:汽車車齡越高,轉售價值通常越低。

3. 零相關或無相關 (Zero or No Correlation)

  • \(x\) 與 \(y\) 之間沒有明顯的規律或關係。
  • 點群分佈雜亂無章。
  • 例子:一個人的身高與他擁有的寵物數量。
快速回顧:視覺故事

我們使用散點圖來確定關係的方向(正相關或負相關)以及強度(點群聚集的緊密程度)。


II. 量化相關性:積矩相關係數 (PMCC, \(r\))

我們對散點圖的視覺判斷往往具有主觀性。為了得到線性相關性的客觀數值指標,我們使用積矩相關係數 (Product Moment Correlation Coefficient),通常以 \(r\) 表示。

積矩相關係數 (\(r\))

PMCC 是一個用於衡量線性相關性的強度和方向的數值。

\(r\) 的關鍵特性
  1. \(r\) 的值必須介於 \(-1\) 和 \(+1\) 之間(包含邊界):\(-1 \le r \le 1\)
  2. \(r = +1\) 時,代表完全正線性相關(所有點精確地排列在一條向上傾斜的直線上)。
  3. \(r = -1\) 時,代表完全負線性相關(所有點精確地排列在一條向下傾斜的直線上)。
  4. \(r = 0\) 時,代表無線性相關

詮釋:相關性的強度

我們如何描述介於 0 到 1(或 0 到 -1)之間的值呢?

  • 強相關: \(r\) 接近 \(-1\) 或 \(+1\)(例如 \(r = 0.9\) 或 \(r = -0.85\))。點群非常靠近一條直線。
  • 中度相關: \(r\) 距離 0 有一段距離(例如 \(r = 0.5\) 或 \(r = -0.4\))。
  • 弱相關: \(r\) 接近 0(例如 \(r = 0.1\) 或 \(r = -0.2\))。點群散佈較廣。

記憶小撇步:把 \(r\) 當作你的「關係狀態計」。1 是「完美匹配」,-1 是「完全相反」,而 0 是「陌生人」。

!!! 重要提示 !!!
PMCC 只測量線性關係。如果數據呈現強烈的曲線(非線性關係),即使兩者之間存在非常強的關係,\(r\) 也可能接近 0!因此,你必須始終先觀察散點圖。

你知道嗎?

PMCC 通常是使用摘要統計量(例如 \(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\))計算出來的。考試中通常會直接給出這些值,或者你可以利用計算機的統計功能來求出 \(r\)。其完整公式為: \[\n r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\n \]


III. 線性回歸:尋找最佳擬合線

如果我們確定了關係是強且呈線性的,我們可以定義一條最能描述這種關係的直線。這稱為回歸線 (Regression Line)。其主要目的在於預測

\(y\) 對 \(x\) 的回歸線

在 S1 課程中,我們專注於讓我們能根據自變量 \(x\) 預測因變量 \(y\) 的直線。其標準方程形式為:

\[\n\mathbf{y = a + bx}\n\]

  • \(y\):因變量的預測值。
  • \(x\):用於預測的自變量值。
  • \(b\):直線的斜率 (Gradient)。這告訴我們當 \(x\) 每增加 1 個單位時,\(y\) 會改變多少。
  • \(a\)\(y\) 軸截距 (y-intercept)。這是當 \(x=0\) 時,\(y\) 的預測值。
計算 \(a\) 和 \(b\) 的步驟

我們需要與計算 \(r\) 時相同的摘要統計量:\(S_{xx}\) 和 \(S_{xy}\)。

步驟 1:計算斜率 (\(b\))

斜率 \(b\)(回歸係數)的公式為: \[\nb = \frac{S_{xy}}{S_{xx}}\n\]

注意:\(b\) 的符號必須與 \(r\) 的符號一致。如果 \(r\) 是正數,\(b\) 也必須是正數(正相關)。

步驟 2:計算 \(y\) 軸截距 (\(a\))

回歸線必須始終通過均值點 \((\bar{x}, \bar{y})\)。我們利用這個事實來計算 \(a\): \[\n\bar{y} = a + b\bar{x}\n\] 整理得: \[\n\mathbf{a = \bar{y} - b\bar{x}}\n\]

常見錯誤:學生常將 \(b\) 的公式與 \(r\) 的公式混淆。記住,\(b\) 只涉及 \(S_{xy}\) 和 \(S_{xx}\),而 \(r\) 同時用到 \(S_{yy}\)。

詮釋 \(a\) 和 \(b\)

能夠在具體語境下詮釋係數的意義非常關鍵:

  • 詮釋 \(b\): 「[變量 \(x\)] 每增加 1 個單位,預測 [變量 \(y\)] 會增加/減少 \(|b|\) 個單位。」
  • 詮釋 \(a\): 「當 [變量 \(x\)] 為零時,預測 [變量 \(y\)] 的值為 \(a\)。」(注意:在某些情況下,\(x=0\) 可能沒有實際意義,例如預測工作經驗為 0 年的薪金)。
關鍵總結:回歸方程

方程 \(y = a + bx\) 是我們的預測工具。我們先計算 \(b\),然後使用均值 \((\bar{x}, \bar{y})\) 來計算 \(a\)。


IV. 預測的可靠性(內插法 vs. 外推法)

得到回歸線後,我們可以用它預測 \(y\) 對應特定 \(x\) 的值。但這些預測有多可靠呢?

1. 內插法 (Interpolation)

當我們使用的 \(x\) 值落在原始數據的範圍內時,稱為內插法。

  • 例子:如果我們的數據集涵蓋了學習時數 10 小時至 50 小時,那麼預測學習 30 小時學生的分數就是內插法。
  • 可靠性: 只要 PMCC (\(r\)) 接近 \(+1\) 或 \(-1\),使用內插法的預測通常是可靠的

2. 外推法 (Extrapolation)

當我們使用的 \(x\) 值落在原始數據範圍之外(無論是高得多還是低得多)時,稱為外推法。

  • 例子:使用上述數據預測某人學習 100 小時(或 1 小時)的得分。
  • 可靠性: 使用外推法的預測通常是不可靠的(或有風險的)。我們不能假設這種關係(直線)在觀測數據範圍之外仍然無限延伸。

類比:內插法就像是你擁有上午 9 點到下午 5 點的數據,從而推測這段時間內的溫度。而外推法則是僅憑這段時間的數據,就去猜測午夜的溫度——原本的關係可能會發生徹底改變!


V. 編碼 (Coding) 對相關性與回歸的影響

有時數據值非常大或非常小,導致計算困難(雖然現代計算機可以輕鬆處理)。我們可以使用編碼(線性變換)來簡化數字。

典型的編碼關係形式為:\(p = \frac{x - c}{d}\) 或 \(p = ax + b\)。

1. 對相關性 (PMCC) 的影響

如果變量 \(x\) 和 \(y\) 經過了線性轉換(例如 \(x' = ax + b\) 和 \(y' = cy + d\)),PMCC 幾乎不受影響。

規則: 只要縮放因子(\(a\) 和 \(c\))同為正數或同為負數,\(x\) 與 \(y\) 之間的相關係數 \(r\),與編碼後變量 \(x'\) 和 \(y'\) 之間的相關係數 \(r\) 是一樣的

在 S1 課程術語中: 除非明確告知某個縮放因子為負數(這會逆轉關係的方向),否則你可以假設:

編碼不會改變 \(r\) 的大小。\(r_{xy} = r_{x'y'}\)。

2. 對回歸係數 (\(a\) 和 \(b\)) 的影響

數據編碼後,回歸線確實會改變

如果編碼數據的回歸線為 \(y' = A + Bx'\),你必須利用編碼關係來還原回原始的直線方程 \(y = a + bx\)。

範例場景:

假設我們使用的編碼為:\(x' = 2x - 5\) 和 \(y' = \frac{y}{10}\)。

我們求得編碼數據的回歸線為 \(y' = 1.5 + 4x'\)。

解碼步驟:

  1. 將編碼定義代入編碼後的方程: \[\n \frac{y}{10} = 1.5 + 4(2x - 5)\n \]
  2. 簡化等式右側 (RHS): \[\n \frac{y}{10} = 1.5 + 8x - 20\n \] \[\n \frac{y}{10} = 8x - 18.5\n \]
  3. 兩邊同時乘以縮放因子 (10) 以單獨求出 \(y\): \[\n y = 10(8x - 18.5)\n \] \[\n \mathbf{y = 80x - 185}\n \]

這就是原始的回歸方程(\(a = -185\),\(b = 80\))。

編碼快速檢核
  • PMCC (\(r\)): 保持不變(大小與符號均同)。
  • 回歸 (\(a\) 和 \(b\)): 會發生改變。必須進行解碼以還原到原始變量。

VI. 相關與因果:關鍵區別

這是統計學中最核心的概念之一,考官非常喜歡測試你對此的理解!

相關並不代表因果 (Correlation Does Not Imply Causation)

僅僅因為兩個變量顯示出強相關(\(r\) 接近 \(\pm 1\)),並不一定意味著其中一個導致了另一個

現實生活中的類比:

想像在一年中,某城市的雪糕銷量犯罪案件數量之間存在強正相關。

吃雪糕會導致人們犯罪嗎?當然不會!

這種關係很可能是由第三個變量引起的,通常稱為混雜變量 (Confounding variable)。在此情況下,混雜變量是氣溫。高溫增加了雪糕的銷量,同時也增加了戶外活動,而後者往往與較高的犯罪率相關聯。

何時可以提出因果關係?

在數學 (S1) 中,我們通常無法證明因果關係。我們只能陳述相關性的存在。

然而,如果發現強相關性,並且存在連結這兩個變量的邏輯上、科學上的原因或機制(例如學習時數與考試成績),我們可以指出它們之間可能存在因果聯繫。

請務必記住: 強大的 \(r\) 值僅僅是關聯性的證據,而不是因果關係的證明。

S1 的最終重點

相關性告訴我們事物是否「同步變動」 (\(r\))。回歸告訴我們它們是如何「共同變動」的 (\(y=a+bx\))。在詮釋結果時,一定要考慮可靠性(內插/外推)和因果關係