Bivariate data - Further Mathematics B (MEI) - H645 - Cambridge OCR A Level

雙變量數據簡介

歡迎來到雙變量數據（Bivariate Data）的世界！雖然「單變量」數據每次只看一個面向（例如學生的身高），但雙變量數據的核心在於探討變量之間的關係。我們觀察同一個體上的兩個不同變量，看看它們是否相關。例如，你玩遊戲的時間會不會影響你的反應速度呢？

在這一章，我們將學習如何將這些關係視覺化、衡量它們的強度，甚至進行預測。別擔心公式一開始看起來很嚇人——大部分的繁瑣計算都可以交給計算機處理！

1. 雙變量數據的兩種類型

在開始計算之前，我們需要了解數據是如何收集的。MEI 課程大綱將其分為兩種情況：

情況 A：隨機對非隨機（Random on Non-Random）

這種情況發生在實驗者控制其中一個變量（自變量，\(x\)）並測量另一個變量（因變量，\(y\)）時。
例子： 一位科學家決定分別測試 10g、20g 和 30g 的彈簧。重量是固定的（非隨機），但彈簧的伸長量會略有變化（隨機）。

情況 B：隨機對隨機（Random on Random）

這是指我們觀察兩個自然發生的現象，兩者我們都不進行控制。
例子： 測量 50 個隨機選定的人的身高和體重。身高和體重都是隨機變量。在圖表上，這通常看起來像是一團「數據雲」。

快速回顧：
• 情況 A： 有一個變量是被控制的（例如：「我選擇了這些特定的時間」）。
• 情況 B： 兩個變量都是測量得出的（例如：「我只是記錄了我所觀察到的結果」）。

2. 散點圖（Scatter Diagrams）

散點圖是我們研究的第一站。它幫助我們觀察兩個變量之間的關係（或稱相關性/Correlation）。

自變量 (\(x\))： 通常放在橫軸上。在情況 A 中，這就是你所控制的變量。
因變量 (\(y\))： 放在縱軸上。
離群值（Outliers）： 這些是不符合整體規律的數據點。我們最初可以「肉眼」辨識這些點。

你知道嗎？ 軟體繪製的散點圖通常會包含一條「趨勢線」和一個 \(r^2\) 值。\(r^2\) 越接近 1，這條線對數據的擬合程度就越好！

3. 皮爾遜積矩相關係數（Pearson’s Product Moment Correlation Coefficient, PMCC）

PMCC（以字母 \(r\) 表示）衡量的是線性關係的強度。它的值總是在 -1 到 +1 之間。

\(r = +1\)： 完美的正線性相關（一條完美的向上的直線）。
\(r = 0\)： 沒有線性相關。
\(r = -1\)： 完美的負線性相關（一條完美的向下的直線）。

什麼時候適合使用 \(r\)？

要使 PMCC 的假設檢定有效，數據必須遵循雙變量常態分佈（Bivariate Normal Distribution）。你通常無法證明這一點，但你可以觀察散點圖上的點是否呈現橢圓形（像橄欖球狀）的雲團。如果數據呈現偏態、雙峰或非線性，那麼 PMCC 就不是正確的工具！

PMCC 的假設檢定

我們檢定在整個母體中是否存在相關性的證據（以希臘字母 \(\rho\) 表示，讀作 'rho'）。

虛無假設 (\(H_0\))： \(\rho = 0\)（母體中沒有相關性）。
對立假設 (\(H_1\))： \(\rho > 0\)、\(\rho < 0\)（單尾）或 \(\rho \neq 0\)（雙尾）。
檢定統計量： 你計算出的 \(r\) 值。
決策： 將你的 \(p\)-值與顯著性水平比較，或者將你的 \(r\) 值與查表得出的臨界值比較。

常見錯誤： 永遠不要說「這證明了」存在相關性。請使用較保守的語句，例如：「有足夠的證據顯示……之間存在正相關。」

4. 斯皮爾曼等級相關係數（Spearman’s Rank Correlation Coefficient, \(r_s\)）

有時數據不是線性的，或者比較「雜亂」。斯皮爾曼等級相關係數用於尋找關聯性，而不僅僅是線性相關。它衡量的是關係有多單調（monotonic）（即一個變量增加時，另一個變量是否通常也會增加，即使它不是直線？）。

步驟流程：
1. 將你的 \(x\) 值按等級排序（最小的為 1，以此類推）。
2. 將你的 \(y\) 值按等級排序。
3. 使用計算機計算這些等級的 PMCC。這個值就是你的 \(r_s\)。

鼓勵小貼士： 別擔心「並列等級（tied ranks）」（即兩個數值相同的情況）。MEI 的 Minor 部分大綱排除了手動計算這些情況的要求！

PMCC 與 Spearman 的比較：該用哪一個？

如果數據是線性的，且看起來像雙變量常態「雲團」，請使用 PMCC (\(r\))。
如果數據是非線性的（但呈現單調關係），或者你對常態分佈的假設有疑慮，請使用 Spearman (\(r_s\))。

5. 線性回歸（Linear Regression）

回歸的目的在於找到「最佳擬合線」。我們使用最小二乘法（Least Squares），這能使點到線的垂直距離的平方和達到最小。

兩條回歸線

在情況 B（隨機對隨機）中，其實有兩條線！

\(y\) 對 \(x\) 的回歸線： 當你知道 \(x\) 時，用它來估計 \(y\)。它最小化的是垂直距離。
\(x\) 對 \(y\) 的回歸線： 當你知道 \(y\) 時，用它來估計 \(x\)。它最小化的是水平距離。

關鍵事實： 兩條線都一定會經過平均值點 \((\bar{x}, \bar{y})\)。

殘差（Residuals）

殘差是實際觀測值與回歸線預測值之間的差。

\(殘差 = 觀測到的\,y - 預測的\,y\)

如果殘差很小且隨機分佈，說明你的線性模型擬合得很好！

6. 進行預測

我們使用回歸方程式 \(y = a + bx\) 來預測數值。但是，你必須小心：

內插法（Interpolation）： 預測數據範圍之內的值。這通常是可靠的。
外插法（Extrapolation）： 預測數據範圍之外的值。這是危險的，因為線性趨勢可能不會持續下去！

類比： 內插法就像猜測一部你看過開頭和結尾的電影的中段劇情。外插法就像僅憑第一部電影就試圖猜測續集會發生什麼事——你可能會完全猜錯！

重點總結：
• PMCC (\(r\)) 衡量線性強度；需要「常態分佈雲團」。
• Spearman (\(r_s\)) 使用等級衡量關聯性；不需要常態分佈假設。
• 假設檢定始於 \(H_0: 無相關性\)。
• 回歸線用於預測：盡量使用內插法，少用外插法！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。