歡迎來到資料儲存與壓縮!

你好,未來的電腦科學家!這一章非常重要,因為它解釋了我們每天使用的所有資訊——照片、影片、程式和文件——實際上是如何儲存在我們的裝置中,以及如何在網際網路中傳輸的。

你可以把「資料儲存」想像成要為你的物品找到大小合適的盒子,而「資料壓縮」就像是學會如何完美地摺疊衣服,讓它們都能裝進盒子裡!我們將會探討用來衡量資料的單位、不同類型的儲存裝置,以及電腦用來縮小檔案大小的聰明方法。

如果某些術語看起來很陌生,請別擔心;我們會逐步為大家拆解。讓我們開始吧!


第一節:衡量資料儲存容量

1.1 基本概念:位元 (Bit) 與位元組 (Byte)

電腦處理的一切資訊,本質上都是電訊號的「開」(ON) 或「關」(OFF)。我們用 1 和 0 來表示這些狀態。

  • 位元 (Bit, b): 資料的最小單位。它是一個單一的二進位數字(1 或 0)。
  • 半位元組 (Nibble): 4 個位元(半個位元組)。
  • 位元組 (Byte, B): 8 個位元。這是用於儲存單一字元(例如字母「A」或數字「5」)的基本單位。

記憶小撇步: 如果你記得英文單字 bite(咬一口),byte(位元組)就是電腦在儲存資訊時所「咬」的一小口基本單位。

1.2 更大的度量單位

在處理電腦儲存空間時,單位是基於 2 的冪次方,具體來說是 1024,而不是 1000(這是標準公制測量單位,例如公里所使用的)。

為什麼是 1024?因為 \(2^{10} = 1024\),而電腦運作正正就是基於二進位的冪次方!

單位 縮寫 大小換算
千位元組 (Kilobyte) KB 1024 Bytes
百萬位元組 (Megabyte) MB 1024 KB
十億位元組 (Gigabyte) GB 1024 MB
萬億位元組 (Terabyte) TB 1024 GB
千萬億位元組 (Petabyte) PB 1024 TB

現代智慧型手機可能擁有 128 GB 的儲存空間,而大型伺服器機房則可能管理著多個 Petabyte!

快速複習:容量順序

單位的由小到大順序為:B, KB, MB, GB, TB, PB

重點總結: 所有電腦資料儲存容量都使用這些單位衡量,其中的關鍵乘數是 1024,而非 1000。


第二節:資料儲存裝置

並非所有的儲存方式都是一樣的。我們根據其運作方式、速度快慢以及斷電後是否會遺失資料來分類儲存裝置。

2.1 主儲存裝置 (Primary Storage) 與次級儲存裝置 (Secondary Storage)

  • 主儲存裝置: 指 CPU 可直接存取的記憶體(例如 RAM)。它的速度非常快,但通常是揮發性 (Volatile) 的(斷電後資料會遺失)。
  • 次級儲存裝置: 用於長期儲存檔案和程式(HDD、SSD 等)。它是非揮發性 (Non-volatile) 的(即使斷電也能保留資料),但比主儲存裝置慢。

2.2 常見的次級儲存裝置

我們需要了解三種主要次級儲存裝置的特性與適用場景:磁性儲存、固態儲存及光學儲存。

A. 磁性儲存 (Magnetic Storage)(例如:硬碟機 - HDD)

HDD 使用高速旋轉磁碟(碟盤)上的磁化點來儲存資料。移動式的讀寫頭會負責存取資料。

  • 特性: 容量大(可達 20 TB 或以上),每 GB 的成本相對便宜。
  • 適用場景: 用於桌上型電腦、伺服器以及需要低成本大容量儲存的系統。
  • 缺點: 包含可移動部件,因此速度較慢,容易損壞,且會產生噪音和熱量。
B. 固態儲存 (Solid State Storage)(例如:固態硬碟 - SSD、USB 隨身碟)

SSD 使用電子電路(快閃記憶體晶片)來儲存資料。它沒有可移動部件

  • 特性: 讀寫速度極快,便攜性高(如 USB 隨身碟)。
  • 適用場景: 用於現代筆記型電腦、智慧型手機及對速度和耐用性要求極高的裝置。
  • 缺點: 每 GB 的價格比 HDD 昂貴,且寫入壽命有限(儘管現在的壽命已經非常長)。

類比: 將 HDD 與 SSD 相比,就像將舊式唱片機(慢速旋轉部件)與現代數位播放清單(即時存取晶片)進行比較。

C. 光學儲存 (Optical Storage)(例如:CD、DVD、Blu-ray 光碟)

光學儲存使用雷射讀取反射面上微小的凹坑與凸起。

  • 特性: 耐用(只要不刮傷),與 HDD/SSD 相比容量相對較小。
  • 適用場景: 軟體發行、電影、音樂及長期資料歸檔。
  • 存取: 存取速度非常慢。
D. 磁帶 (Magnetic Tape)(離線/歸檔儲存)

磁帶將資料循序儲存在巨大的捲軸上。

  • 適用場景: 主要用於歸檔和大型企業備份(備份那些不需要快速存取的龐大資料)。
  • 存取: 必須按順序讀取所有資料(一個接一個)才能找到所需的檔案,導致存取速度極慢。

快速對比表(側重速度與揮發性):

RAM (主儲存): 非常快,揮發性(斷電後資料遺失)。
SSD (次級): 非常快,非揮發性(斷電後資料保留)。
HDD (次級): 慢/中等,非揮發性。
磁帶 (歸檔): 非常慢,非揮發性。

重點總結: 根據所需的速度容量可攜性成本選擇合適的儲存裝置。SSD 速度快且耐用;HDD 便宜且容量大;光學媒體適合發行;磁帶最適合進行深層的長期歸檔。


第三節:資料壓縮

資料壓縮是減少檔案大小的過程,目的是節省儲存空間並加快網路傳輸速度。

3.1 為什麼要壓縮資料?

  • 節省空間: 我們可以在硬碟或 USB 隨身碟中放入更多檔案。
  • 加快傳輸: 檔案越小,下載、上傳或透過電子郵件傳送所需的時間就越短。

3.2 失真壓縮 (Lossy Compression)

失真壓縮會永久刪除檔案中的部分資料。一旦資料被移除,就無法復原。

  • 運作原理: 移除人眼或人耳不易察覺的細節。
  • 結果: 檔案大小大幅縮減,但品質會略有下降。
  • 適用場景: 通常用於多媒體,因為損失一點品質是可以接受的(例如:圖片、音訊)。
  • 範例: JPEG(圖片)、MP3(音訊)、MPEG(影片)。

類比: 失真壓縮就像在寫一本長篇小說的摘要。你保留了主要情節(最重要的資料),但丟棄了一些描述性的細節(較不重要的資料)。你無法精確地還原出原來的小說。

3.3 無失真壓縮 (Lossless Compression)

無失真壓縮透過識別並移除冗餘(重複)資料來縮減檔案大小,且不會損失任何資訊。原始檔案可以從壓縮檔中完美還原。

  • 運作原理: 使用演算法將重複的模式或常見序列編碼為更短的代碼。
  • 結果: 縮小檔案大小且品質零損失
  • 適用場景: 用於文字檔、程式碼和對準確性要求極高的圖片。
  • 範例: ZIP(壓縮資料夾)、PNG(圖片)、GIF

類比: 無失真壓縮就像為組裝家具製作一份完美、整潔的說明書。所有內容都在那裡,但排列方式變得更有效率。

避免常見誤區:

學生經常混淆兩者。請記住:Lossy(失真)代表品質 Lost(丟失)。Lossless(無失真)代表 No Loss(無任何資料丟失)。

3.4 壓縮方法

電腦實際上是如何達成壓縮的呢?兩種常見技術是「行程長度編碼」和「字典編碼」。

A. 行程長度編碼 (Run Length Encoding, RLE)

RLE 是一種簡單的無失真技術,最適合用於具有長序列(行程)重複資料的檔案,例如某些類型的圖片(如簡單的黑白圖形)。

逐步範例:

  1. 尋找連續相同的字元或資料單位。
  2. 將該序列替換為出現的次數,後面跟著該單位本身。

原始資料: B B B B W W W W W R R R R R R
壓縮後 (RLE): 4B 5W 6R

原始字串有 15 個字元,壓縮後的字串只有 6 個字元(計算數字與字母),成功達到壓縮效果!

B. 字典編碼 (Dictionary Encoding,或 Lempel-Ziv 變體)

這種無失真方法將常見的重複模式或單字替換為儲存在「字典」中的短代碼或指標。

  • 運作原理: 演算法會掃描資料,找出經常出現的短語或序列,並將其加入參考列表(字典)。
  • 每當該序列再次出現時,它就會被簡短得多的字典索引/代碼所取代。

範例: 如果「Computer Science」這句話在文件中出現 100 次,字典可能會為其指定代碼 #15。檔案不需要重複儲存 18 個字元,而只需儲存 3 個字元的代碼 #15,從而節省空間。

重點總結: 失真壓縮犧牲品質以獲取最大的縮小幅度 (MP3/JPEG);而無失真壓縮使用 RLE 或字典編碼等方法消除冗餘,以實現完美的還原 (ZIP/PNG)。


章節總結複習

需要記住的核心概念:
  • 儲存容量單位皆以 1024 為基數(從 Byte 到 Petabyte)。
  • 主儲存裝置速度快且具揮發性;次級儲存裝置速度較慢且為非揮發性。
  • SSD 速度更快,HDD 更便宜且容量更大。
  • 失真壓縮永久丟失資料 (JPEG),主要用於媒體。
  • 無失真壓縮保留所有原始資料 (ZIP),用於文字和程式。
  • RLE 是一種計算重複序列的無失真壓縮方法。