你好,IGCSE 統計學家!學習散點圖 (C10.7 / E10.7)
歡迎來到統計學中最直觀且實用的課題之一!在本章中,我們將學習如何觀察數據,並找出兩者之間是否存在關聯。例如:你花在睡眠上的時間會影響考試成績嗎?或者雪糕的價格會隨著室外溫度而改變嗎?
散點圖 (Scatter diagrams) 是強大的工具,因為它們能讓我們直觀地判斷兩個變數之間的關係(或缺乏關係)。別擔心如果繪圖不是你的強項——這種類型的圖表繪製起來非常簡單!
第一節:繪製與解讀散點圖
什麼是散點圖?
散點圖(或稱散佈圖)是一種展示雙變數數據 (bivariate data) 的方式。雙變數數據簡單來說就是涉及兩個變數的數據,例如身高與體重,或是年齡與收入。
我們使用標準的坐標網格(就像你繪製線性函數圖形時用的一樣)來展示這些成對的數據。
逐步教學:如何繪製散點圖
- 選擇你的軸: 通常將兩個變數互相對應繪製。
- 自變數 (Independent Variable)(引起變化的因素,或是你可控制的變數,例如溫習時間)放在橫軸 (\(x\)-軸) 上。
- 應變數 (Dependent Variable)(受影響的變數,例如你的考試成績)放在縱軸 (\(y\)-軸) 上。
- 標度與標籤: 清晰標示你的坐標軸,並選擇合適的標度,以便所有數據點都能適當地落在網格內。
- 標繪點位: 對於每一對數據值,在圖表上標繪一個點。
- 重要規則: 根據考綱要求,標繪的點必須清晰標記,通常為小交叉 (\(x\))。避免使用大圓點,因為這會令讀取圖表時產生誤差。
類比:想像一下測量班上每個人的身高和鞋碼。每個人都是一對數據,在圖表上由一個交叉 (\(x\)) 代表。
重點總結(第一節)
散點圖使用小交叉 (\(x\)) 來繪製雙變數數據。自變數通常放在 \(x\)-軸上。
第二節:理解相關性 (Correlation)
當你標繪好所有的點後,有趣的部分來了!這些點形成的形狀告訴我們兩個變數之間的關係。這種關係被稱為相關性 (correlation)。
相關性的類型
你有三種主要的相關性需要學會辨識並描述:
1. 正相關 (Positive Correlation)
- 定義: 當一個變數增加時,另一個變數也傾向於增加。
- 視覺模式: 點群大致沿著一條向上傾斜的線排列(從左下到右上)。
- 例子: 通常你溫習的時數越多,考試成績就越高。
2. 負相關 (Negative Correlation)
- 定義: 當一個變數增加時,另一個變數傾向於減少。
- 視覺模式: 點群大致沿著一條向下傾斜的線排列(從左上到右下)。
3. 零相關 (Zero/No Correlation)
- 定義: 兩個變數之間沒有明確關係。
- 視覺模式: 點在圖表上隨機分佈,沒有顯示出任何趨勢或方向。
- 例子: 學生頭髮顏色與數學成績的比較。
相關性的強度
我們還需要描述這種關係有多「強」。這指的是點圍繞著想像中的「最佳擬合線」聚集的緊密程度。
- 強相關: 點非常接近完美直線。
- 弱相關: 點較為分散,但仍然顯示出大致的方向(向上或向下)。
- 零相關: 完全沒有方向性。
記憶小貼士: 想像一條直路。如果點是汽車:
- 強相關:所有汽車都完美地行駛在車道內。
- 弱相關:汽車大部分在路上,但有些已經飄移到路肩上了。
無障礙提示:常見陷阱
千萬別把相關性與因果關係 (causation) 搞混了!僅僅因為兩個變數相關,並不代表一個「導致」了另一個。
例子: 雪糕銷量與鯊魚襲擊次數在夏季同時增加。這是一個強正相關,但吃雪糕並不會「導致」鯊魚襲擊。它們兩者都是由第三個因素引起的:天氣炎熱。
重點總結(第二節)
相關性描述了變數之間的關係:正相關(兩者同時增加)、負相關(一個增加,另一個減少)或零相關(無規律)。相關性可以分為強或弱。
第三節:最佳擬合線 (Line of Best Fit, LOBF)
如果我們看到強或弱的線性相關(正或負),我們會畫出一條最能代表這種趨勢的直線。這稱為最佳擬合線 (LOBF)。
LOBF 用於進行預測。
繪製最佳擬合線(目測法)
你必須使用直尺畫出一條直線。這是一項考試評核的技能,為了確保線條準確,請遵循以下規則:
1. 跟隨趨勢: 線條必須清晰地跟隨點的分佈模式(正相關向上斜,負相關向下斜)。
2. 平衡點位: 你必須確保線條在整個長度上,線上方的點與下方的點分佈大致均勻。如果你有 10 個點,目標是上方 5 個、下方 5 個(或 4/6 等)。
3. 充分延伸: 線條應延伸涵蓋整個數據集。不應在數據點的中途停止。
你知道嗎? 嚴格來說,最佳擬合線應該經過平均點 \((\bar{x}, \bar{y})\)(即所有 \(x\)-坐標的平均值與所有 \(y\)-坐標的平均值)。雖然你通常是目測繪製,但保持平衡可以確保它經過這個中心點附近!
使用最佳擬合線進行預測
繪製好 LOBF 後,你可以利用它來估算沒有數據的值。這稱為內插法 (interpolation) 或外推法 (extrapolation)。
1. 內插法
指使用線條在原始數據點的範圍內進行預測。
- 例子: 如果你的散點圖顯示 10 至 15 歲兒童的身高,內插法就是估算一個 12 歲兒童的身高。
- 可靠性: 內插法通常很可靠,因為線條是基於該區域的現有數據。
2. 外推法
指延伸線條(如有必要),在原始數據點的範圍外進行預測。
- 例子: 使用 10 至 15 歲兒童的數據來預測 25 歲成年人的身高。
- 可靠性: 外推法通常不可靠!在測量範圍之外,關係可能會發生劇烈變化(例如:人類最終會停止生長)。
快速回顧:最佳擬合線規則
1. 用尺畫線? 是的,永遠是直線。
2. 達到平衡? 是的,上方和下方的點大致相等。
3. 充分覆蓋? 是的,延伸至整個圖表範圍。
重點總結(第三節)
LOBF 是一條平衡了數據點的直線。在數據範圍內使用它進行可靠的預測(內插法),但在範圍外進行預測(外推法)時要謹慎,因為這通常不可靠。
第四節:延伸課程內容 (E10.7.4) – 線性回歸 (Linear Regression)
對於修讀延伸課程 (Extended) 的學生(以及在實際應用中),目測繪製 LOBF 可能會有主觀偏差。為了得到最精確的直線,我們使用一種稱為線性回歸的計算方法。
使用圖形計算器 (GDC) 尋找線性回歸方程式
GDC 可以幫助你找到最佳擬合線的精確方程式。此方程式通常以以下形式給出:
$$y = ax + b$$
其中 \(a\) 是斜率,\(b\) 是 \(y\)-截距。
使用 GDC,輸入所有成對的數據點 (\(x\), \(y\))。計算器會進行複雜的運算,找出能產生統計學上最佳擬合線的 \(a\) 和 \(b\) 值。
為什麼要使用方程式?
當你得到方程式 \(y = ax + b\) 後,你可以:
- 精確預測: 你不再需要從手畫的線條上讀取數值,而是將 \(x\) 值代入方程式中,得到最準確的預測 \(y\) 值。
- 解讀斜率 (\(a\)): 如果 \(a = 3\),意味著 \(x\) 每增加 1 個單位,\(y\) 就會增加 3 個單位。
注意: 考試要求你使用 GDC 來尋找這個方程式,然後用它來進行預測。你不需要手動計算線性回歸公式。
重點總結(第四節)
延伸課程學生必須使用 GDC 來找出線性回歸線 (\(y = ax + b\)) 的準確方程式,這是在統計學上最好的最佳擬合線,並用它來進行預測。