Correlation and regression

相關與迴歸：學習筆記 (單元 S1：統計學 1)

你好！歡迎來到令人興奮的相關與迴歸世界。這一章的主旨是理解兩個不同測量值之間的關係，例如你投入的溫習時間如何影響你的考試成績。別擔心，如果你覺得統計學有時會讓人感到不知所措，我們將會逐步拆解這些概念！

我們將學到什麼？ 我們會學習如何使用圖表直觀地呈現變量間的關係，如何利用一個稱為 PMCC 的特殊數字來衡量這些關係的強度，最後，如何建立一條數學直線來進行預測。這項技能對於構建現實世界數據模型至關重要！

1. 雙變量數據與散點圖簡介

什麼是雙變量數據？

雙變量數據 (Bivariate Data) 簡單來說就是涉及兩個變量的數據。我們研究的是相同對象的成對觀察值。

例子： 測量一組學生的高度（變量 1）和體重（變量 2）。

解釋變量與反應變量

當我們分析關係時，通常會假設一個變量可能會影響另一個變量。

1. 解釋變量 (Explanatory Variable，自變量，$x$)： 這是我們認為可能解釋或導致另一個變量發生變化的變量。它位於橫軸（x 軸）。

2. 反應變量 (Response Variable，應變量，$y$)： 這是我們正在測量或試圖預測的變量。它的值取決於解釋變量。它位於縱軸（y 軸）。

散點圖

散點圖 (Scatter Diagram) 是分析雙變量數據的第一步。它將成對的數據點 $(x, y)$ 繪製在圖表上。

關鍵點： 透過觀察點的分佈模式，我們可以立即估計關係的類型和強度。

解讀散點圖中的模式

我們尋找三個主要特徵：方向、形式和強度。在 S1 中，我們主要關注線性關係。

1. 正相關 (Positive Correlation)： 當 $x$ 增加時，$y$ 往往會增加。點向右上方延伸。
2. 負相關 (Negative Correlation)： 當 $x$ 增加時，$y$ 往往會減少。點向右下方延伸。
3. 無相關 (No Correlation)： 沒有明顯的規律；點是隨機散落的。

快速回顧： 模式告訴我們相關性的情況。如果點形成一條緊密的直線，則相關性很強。

2. 衡量相關性：積動差相關係數 ($r$)

什麼是相關性？

相關性衡量兩個變量之間線性關係的強度和方向。

積動差相關係數 (PMCC)

為了獲得準確的數值衡量，我們使用 PMCC，通常以字母 $r$ 表示。你的計算機通常會為你計算出這個值，但你必須理解它代表什麼！

$r$ 的性質

PMCC ($r$) 總是在 $-1$ 到 $+1$ 的範圍內：

$$ -1 \le r \le 1 $$

1. 若 $r = +1$： 完全正線性相關。所有點都精確地位於一條向上傾斜的直線上。
2. 若 $r = -1$： 完全負線性相關。所有點都精確地位於一條向下傾斜的直線上。
3. 若 $r = 0$： 無線性相關。

解讀 $r$ 的數值

$|r|$（忽略正負號）越接近 1，關係越強。

強正相關： $r$ 接近 +1（例如 $r = 0.9$）
中度正相關： $r$ 約在 0.5 到 0.8 之間
弱正相關： $r$ 接近 0 但為正值（例如 $r = 0.2$）
強負相關： $r$ 接近 -1（例如 $r = -0.9$）

記憶小撇步： 把 $r$ 想成是關係的「速度計」。1 代表全速前進（完美匹配）；0 代表停滯（沒有匹配）。正負號只是告訴你關係的方向（向上還是向下）。

你知道嗎？相關性與因果關係

統計學中一個非常重要的概念是相關性與因果關係的區別。

相關性 (Correlation) 指的是兩個變量同時變動。
因果關係 (Causation) 指的是一個變量導致了另一個變量的變化。

例子： 雪糕銷量與犯罪率可能呈現強正相關（$r$ 接近 1）。吃雪糕會導致犯罪嗎？當然不會！這是一個潛在變量（高溫/夏季）同時導致兩者上升。
關鍵規則：相關性並不代表因果關係。

3. 線性迴歸：尋找最佳擬合線

迴歸的目的

如果我們建立了強大的線性相關性，我們會想建立一個方程式來總結這種關係。這個方程式稱為線性迴歸線 (Linear Regression Line)，或稱最佳擬合線。我們用它來進行預測。

在 S1 中，我們專注於 $y$ 對 $x$ 的迴歸線。這條線用於在給定解釋變量 $x$ 的特定值時，預測反應變量 $y$ 的值。

最小二乘法迴歸線

我們使用一種稱為最小二乘法 (Least Squares) 的方法。該方法旨在找到一條直線，使得從每個數據點到直線的垂直距離（稱為殘差 residuals）的平方和最小化。這給了我們「最好」的擬合效果。

直線方程式為：

$$ \hat{y} = a + bx $$

其中：

$\hat{y}$（讀作 "y-hat"）是 $y$ 的預測值。
$a$ 是 y 軸截距 (y-intercept)。
$b$ 是直線的斜率 (gradient)。

計算 $a$ 和 $b$ 的步驟

為了計算 $a$ 和 $b$，我們首先需要找到三個關鍵的匯總統計量，通常表示為 $S_{xx}$、$S_{yy}$ 和 $S_{xy}$。這些是變異數和共變異數的衡量指標。

步驟 1：計算 S 值（匯總統計量）

這些 S 值的公式會在你的公式手冊中提供（或者通常由計算機計算）。我們根據 $x$、$y$、$x^2$、$y^2$ 和 $xy$ 的總和來使用它們。

$$ S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} $$ $$ S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n} $$ （注意：$n$ 是數據對的總數。）

步驟 2：計算斜率 ($b$)

斜率 $b$ 取決於 $x$ 和 $y$ 如何隨之變動，以及 $x$ 本身如何變動：

$$ b = \frac{S_{xy}}{S_{xx}} $$

步驟 3：計算 y 軸截距 ($a$)

迴歸線總是通過平均點 $(\bar{x}, \bar{y})$。我們利用這個事實來找到 $a$。（請記住：$\bar{x} = \frac{\sum x}{n}$ 及 $\bar{y} = \frac{\sum y}{n}$）。

$$ a = \bar{y} - b\bar{x} $$

常見錯誤警示！ 計算 $b$ 時，分母永遠使用 $S_{xx}$。如果你不小心使用了 $S_{yy}$，你計算出來的是 $x$ 對 $y$ 的迴歸線斜率，這對於題目要求預測的 S1 題目來說通常是不正確的！

4. 解讀與局限性

解讀斜率 ($b$)

斜率 $b$ 告訴我們：當解釋變量 $x$ 每增加一個單位，反應變量 $y$ 的預測變動量。

例子： 如果 $x$ 是「溫習時數」，$y$ 是「考試成績」，而 $b = 4.5$，那麼解釋為：「每多溫習一小時，預期的考試成績會增加 4.5 分。」

解讀 y 軸截距 ($a$)

y 軸截距 $a$ 是當 $x=0$ 時，$y$ 的預測值。

謹慎： 只有在現實背景下 $x=0$ 是合理的時候，這種解釋才有意義。如果 $x$ 是「成人高度」，且數據集中最小的高度是 150 cm，那麼說高度為 0 cm 時 $y$（體重）為 $a$ 是毫無意義的！請務必檢查 $x=0$ 是否在數據範圍內。

使用直線：內插法與外推法

一旦你有了方程式 $\hat{y} = a + bx$，你就可以用它來進行預測。

1. 內插法 (Interpolation，安全預測)： 這是針對處於原始數據範圍內的 $x$ 值進行預測。這些預測通常是可靠的。

2. 外推法 (Extrapolation，危險預測)： 這是針對處於原始數據範圍外的 $x$ 值進行預測。

為什麼外推法很危險？ 我們假設線性關係永遠持續下去，但實際上，一旦超出了數據邊界，關係可能會彎曲、趨於平緩或完全改變。在考試中，你必須始終警惕不要進行外推！

關鍵點： 迴歸是一個強大的預測工具，但其準確性高度依賴於相關性 ($r$) 的強度以及是否避免了外推。

單元 S1 總結清單：相關與迴歸

我會繪製並解讀散點圖嗎？
我能說明並解讀 PMCC ($r$) 的性質嗎？（範圍 $-1$ 到 $+1$）
我了解相關性與因果關係之間的區別嗎？（它們是不一樣的！）
我會定義並計算 $S_{xx}$ 和 $S_{xy}$ 嗎？
我會計算 $y$ 對 $x$ 的迴歸線嗎：$\hat{y} = a + bx$？
我能結合實際語境解讀 $a$ 和 $b$ 的值嗎？
我了解外推法的風險嗎？

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

相關與迴歸：學習筆記 (單元 S1：統計學 1)

1. 雙變量數據與散點圖簡介

什麼是雙變量數據？

解釋變量與反應變量

散點圖

解讀散點圖中的模式

2. 衡量相關性：積動差相關係數 (\(r\))

什麼是相關性？

積動差相關係數 (PMCC)

\(r\) 的性質

解讀 \(r\) 的數值

你知道嗎？相關性與因果關係

3. 線性迴歸：尋找最佳擬合線

迴歸的目的

最小二乘法迴歸線

計算 \(a\) 和 \(b\) 的步驟

4. 解讀與局限性

解讀斜率 (\(b\))

解讀 y 軸截距 (\(a\))

使用直線：內插法與外推法

立即實踐所學

相關與迴歸：學習筆記 (單元 S1：統計學 1)

1. 雙變量數據與散點圖簡介

什麼是雙變量數據？

解釋變量與反應變量

散點圖

解讀散點圖中的模式

2. 衡量相關性：積動差相關係數 (\(r\))

什麼是相關性？

積動差相關係數 (PMCC)

\(r\) 的性質

解讀 \(r\) 的數值

你知道嗎？ 相關性與因果關係

3. 線性迴歸：尋找最佳擬合線

迴歸的目的

最小二乘法迴歸線

計算 \(a\) 和 \(b\) 的步驟

4. 解讀與局限性

解讀斜率 (\(b\))

解讀 y 軸截距 (\(a\))

使用直線：內插法與外推法

立即實踐所學

你知道嗎？相關性與因果關係