Scatter diagrams

👋 歡迎來到散佈圖的世界！

你好！這一章的重點在於如何找出數據之間的關係。如果統計學有時讓你覺得很抽象，別擔心——我們本質上是在學習如何像偵探一樣尋找規律！散佈圖是統計工具箱中最直觀、最簡單的工具之一。

你將會學到：

如何在散佈圖上繪製數據點。
如何識別並描述兩個變量之間的關係（相關性）。
如何繪製並運用最佳擬合線（Line of best fit）來進行預測。

1. 繪製與詮釋散佈圖 (C10.7.1)

散佈圖（或稱散點圖）是一種用於顯示兩個變量之間關係的圖表。我們處理的是所謂的雙變量數據（涉及兩個變量的數據）。

坐標軸：自變量與應變量

當你繪製散佈圖時，你需要決定哪個變量放在哪個軸上：

自變量 (Independent Variable)（x 軸）：這是你認為可能影響另一個變量的因素。我們通常先控制或測量這個變量。（例如：溫習時間。）
應變量 (Dependent Variable)（y 軸）：這是隨自變量改變而變化的變量。（例如：考試成績。）

每一對測量值（例如一位學生的溫習時間與其成績）都會成為圖表上的一個點。

⚠️ 如何繪製散佈圖（課程要求）

課程要求特定的繪圖規範：

1. 繪製數據點：數據點應清晰標記，例如使用小十字 (x)。

2. 刻度與標籤：確保你的坐標軸有清晰的變量名稱標籤和刻度。

快速回顧：把散佈圖想像成將所有個別數據點同時展現出來，讓你一眼就能看出它們是形成了一團雲霧還是明顯的趨勢。

2. 理解相關性 (C10.7.2)

相關性（Correlation）描述的是散佈圖上兩個變量之間的關係或連結。它告訴你變量之間是如何聯繫的——它們是否同時增加、一個增加時另一個是否減少，或者它們之間是否完全沒有聯繫。

3. 最佳擬合線 (LOBF) (C10.7.3)

最佳擬合線（Line of best fit）是一條穿過散點圖中間的直線，用於總結變量之間的關係。它能幫助我們做出合理的預測。

繪製最佳擬合線的規則（目測法）

準確繪製 LOBF 對於得分至關重要。必須使用一把尺畫出一條直線，並滿足以下條件：

它必須穿過平均點 (Mean Point)。
它應延伸覆蓋整個數據範圍。
在線的兩側，數據點的分佈應大致均勻。

步驟 1：計算平均點 $(\bar{x}, \bar{y})$

「目測」繪製線條最準確的方法是強迫它穿過平均點（也稱為重心）。

計算所有 x 值的平均值：$\bar{x} = \frac{\sum x}{n}$
計算所有 y 值的平均值：$\bar{y} = \frac{\sum y}{n}$
平均點為 $(\bar{x}, \bar{y})$。清晰地標記此點（通常使用圓圈或其他符號）。

類比：平均點就像是你數據雲的「平衡中心」。你的尺必須穿過這個精確的點進行旋轉。

步驟 2：定位並繪製線條

將尺放在圖表上，使其通過平均點 $(\bar{x}, \bar{y})$。
調整尺的角度，直到直線上方和下方的數據點數量大致相等。
確保線條從圖表上顯示的最小 x 值延伸到最大 x 值（或覆蓋整個網格）。

利用最佳擬合線進行預測

畫好之後，LOBF 讓你估算未經測量的數值：

內插法 (Interpolation)：在原始數據點的範圍內進行預測。這通常被認為是可靠的。
外推法 (Extrapolation)：在原始數據點的範圍外進行預測（即延伸線條）。這較不可靠，因為你假設該趨勢在測量數據之外依然持續。

❌ 常見錯誤

不要僅僅連接第一個和最後一個數據點！那幾乎不可能代表數據的真實趨勢。線條必須使到所有點的總距離達到最小化。

重點摘要：最佳擬合線是對數據趨勢的合理猜測，它以數據的平均值為中心。

4. 進階內容：線性回歸方程 (E10.7.4)

對於 Extended 學生，你必須知道如何使用圖形計算機 (GDC) 來找出數學上精確的最佳擬合線，這被稱為線性回歸方程。

雖然「目測」畫出的 LOBF 給出了一個不錯的估計，但線性回歸方程給出的是數學上唯一正確的線，它最小化了線與每一個數據點之間的誤差（距離）。

線性回歸方程

由 GDC 算出的方程通常呈直線形式：
$$\mathbf{y = mx + c} \quad \text{或} \quad \mathbf{y = ax + b}$$

其中：

m (或 a) 是直線的斜率 (gradient)，代表變化率。
c (或 b) 是 y 截距 (y-intercept)。

使用圖形計算機 (GDC)

你的 GDC 內置了執行線性回歸的統計功能：

輸入數據：將你的成對數據值（x 和 y）輸入到統計列表（L1 和 L2）中。
選擇回歸：選擇適當的雙變量統計計算或「線性回歸」模式（通常標記為 a + bx 或 mx + b）。
讀取結果：計算機將立即提供斜率（m 或 a）和截距（c 或 b）的值。
寫出方程：將這些值代入線性方程格式中。

例子：如果你的計算機給出 $m = 2.5$ 且 $c = 10$，則最佳擬合線的方程為 $\mathbf{y = 2.5x + 10}$。

利用方程進行預測

一旦有了方程，你進行預測的準確度會比看圖表高得多：

例子：如果方程為 $y = 2.5x + 10$，你想預測一位溫習了 $x = 5$ 小時的學生的成績 (y)：
$$y = 2.5(5) + 10$$ $$y = 12.5 + 10$$ $$y = 22.5$$

💡 使用回歸方程的小貼士

請記住，只在完成計算後才將最終數值進行正確取捨（通常取 3 位有效數字，除非另有說明）。除非題目要求你陳述方程本身的準確度，否則不要隨意對方程中的斜率和截距值進行四捨五入。

重點摘要（進階）：線性回歸方程是最佳擬合線的數學版本，使用 GDC 可以快速且精確地得出。

📝 散佈圖快速回顧

目的：顯示兩個變量之間的關係（相關性）。
繪圖（核心/進階）：將點標記為小十字 (x)。
相關性：由方向（正、負、零）和強度（弱、中等、強）描述。
最佳擬合線 (LOBF)：必須是一條穿過平均點 $(\bar{x}, \bar{y})$ 的直線，且兩側點分佈均勻。
線性回歸（僅進階）：使用 GDC 找出精確的 LOBF 方程（如 $y = mx + c$）以進行精確預測。

繼續練習精確繪製 LOBF——這通常是考試中得分較高的實踐技能！你一定做得到的！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。