歡迎來到資料儲存與壓縮!
你好,未來的電腦科學家!這一章非常重要,因為它解釋了我們每天使用的所有資訊——照片、影片、程式和文件——實際上是如何儲存在我們的裝置中,以及如何在網際網路中傳輸的。
你可以把「資料儲存」想像成要為你的物品找到大小合適的盒子,而「資料壓縮」就像是學會如何完美地摺疊衣服,讓它們都能裝進盒子裡!我們將會探討用來衡量資料的單位、不同類型的儲存裝置,以及電腦用來縮小檔案大小的聰明方法。
如果某些術語看起來很陌生,請別擔心;我們會逐步為大家拆解。讓我們開始吧!
第一節:衡量資料儲存容量
1.1 基本概念:位元 (Bit) 與位元組 (Byte)
電腦處理的一切資訊,本質上都是電訊號的「開」(ON) 或「關」(OFF)。我們用 1 和 0 來表示這些狀態。
- 位元 (Bit, b): 資料的最小單位。它是一個單一的二進位數字(1 或 0)。
- 半位元組 (Nibble): 4 個位元(半個位元組)。
- 位元組 (Byte, B): 8 個位元。這是用於儲存單一字元(例如字母「A」或數字「5」)的基本單位。
記憶小撇步: 如果你記得英文單字 bite(咬一口),byte(位元組)就是電腦在儲存資訊時所「咬」的一小口基本單位。
1.2 更大的度量單位
在處理電腦儲存空間時,單位是基於 2 的冪次方,具體來說是 1024,而不是 1000(這是標準公制測量單位,例如公里所使用的)。
為什麼是 1024?因為 \(2^{10} = 1024\),而電腦運作正正就是基於二進位的冪次方!
| 單位 | 縮寫 | 大小換算 |
|---|---|---|
| 千位元組 (Kilobyte) | KB | 1024 Bytes |
| 百萬位元組 (Megabyte) | MB | 1024 KB |
| 十億位元組 (Gigabyte) | GB | 1024 MB |
| 萬億位元組 (Terabyte) | TB | 1024 GB |
| 千萬億位元組 (Petabyte) | PB | 1024 TB |
現代智慧型手機可能擁有 128 GB 的儲存空間,而大型伺服器機房則可能管理著多個 Petabyte!
快速複習:容量順序
單位的由小到大順序為:B, KB, MB, GB, TB, PB。
重點總結: 所有電腦資料儲存容量都使用這些單位衡量,其中的關鍵乘數是 1024,而非 1000。
第二節:資料儲存裝置
並非所有的儲存方式都是一樣的。我們根據其運作方式、速度快慢以及斷電後是否會遺失資料來分類儲存裝置。
2.1 主儲存裝置 (Primary Storage) 與次級儲存裝置 (Secondary Storage)
- 主儲存裝置: 指 CPU 可直接存取的記憶體(例如 RAM)。它的速度非常快,但通常是揮發性 (Volatile) 的(斷電後資料會遺失)。
- 次級儲存裝置: 用於長期儲存檔案和程式(HDD、SSD 等)。它是非揮發性 (Non-volatile) 的(即使斷電也能保留資料),但比主儲存裝置慢。
2.2 常見的次級儲存裝置
我們需要了解三種主要次級儲存裝置的特性與適用場景:磁性儲存、固態儲存及光學儲存。
A. 磁性儲存 (Magnetic Storage)(例如:硬碟機 - HDD)
HDD 使用高速旋轉磁碟(碟盤)上的磁化點來儲存資料。移動式的讀寫頭會負責存取資料。
- 特性: 容量大(可達 20 TB 或以上),每 GB 的成本相對便宜。
- 適用場景: 用於桌上型電腦、伺服器以及需要低成本大容量儲存的系統。
- 缺點: 包含可移動部件,因此速度較慢,容易損壞,且會產生噪音和熱量。
B. 固態儲存 (Solid State Storage)(例如:固態硬碟 - SSD、USB 隨身碟)
SSD 使用電子電路(快閃記憶體晶片)來儲存資料。它沒有可移動部件。
- 特性: 讀寫速度極快,便攜性高(如 USB 隨身碟)。
- 適用場景: 用於現代筆記型電腦、智慧型手機及對速度和耐用性要求極高的裝置。
- 缺點: 每 GB 的價格比 HDD 昂貴,且寫入壽命有限(儘管現在的壽命已經非常長)。
類比: 將 HDD 與 SSD 相比,就像將舊式唱片機(慢速旋轉部件)與現代數位播放清單(即時存取晶片)進行比較。
C. 光學儲存 (Optical Storage)(例如:CD、DVD、Blu-ray 光碟)
光學儲存使用雷射讀取反射面上微小的凹坑與凸起。
- 特性: 耐用(只要不刮傷),與 HDD/SSD 相比容量相對較小。
- 適用場景: 軟體發行、電影、音樂及長期資料歸檔。
- 存取: 存取速度非常慢。
D. 磁帶 (Magnetic Tape)(離線/歸檔儲存)
磁帶將資料循序儲存在巨大的捲軸上。
- 適用場景: 主要用於歸檔和大型企業備份(備份那些不需要快速存取的龐大資料)。
- 存取: 必須按順序讀取所有資料(一個接一個)才能找到所需的檔案,導致存取速度極慢。
快速對比表(側重速度與揮發性):
RAM (主儲存): 非常快,揮發性(斷電後資料遺失)。
SSD (次級): 非常快,非揮發性(斷電後資料保留)。
HDD (次級): 慢/中等,非揮發性。
磁帶 (歸檔): 非常慢,非揮發性。
重點總結: 根據所需的速度、容量、可攜性與成本選擇合適的儲存裝置。SSD 速度快且耐用;HDD 便宜且容量大;光學媒體適合發行;磁帶最適合進行深層的長期歸檔。
第三節:資料壓縮
資料壓縮是減少檔案大小的過程,目的是節省儲存空間並加快網路傳輸速度。
3.1 為什麼要壓縮資料?
- 節省空間: 我們可以在硬碟或 USB 隨身碟中放入更多檔案。
- 加快傳輸: 檔案越小,下載、上傳或透過電子郵件傳送所需的時間就越短。
3.2 失真壓縮 (Lossy Compression)
失真壓縮會永久刪除檔案中的部分資料。一旦資料被移除,就無法復原。
- 運作原理: 移除人眼或人耳不易察覺的細節。
- 結果: 檔案大小大幅縮減,但品質會略有下降。
- 適用場景: 通常用於多媒體,因為損失一點品質是可以接受的(例如:圖片、音訊)。
- 範例: JPEG(圖片)、MP3(音訊)、MPEG(影片)。
類比: 失真壓縮就像在寫一本長篇小說的摘要。你保留了主要情節(最重要的資料),但丟棄了一些描述性的細節(較不重要的資料)。你無法精確地還原出原來的小說。
3.3 無失真壓縮 (Lossless Compression)
無失真壓縮透過識別並移除冗餘(重複)資料來縮減檔案大小,且不會損失任何資訊。原始檔案可以從壓縮檔中完美還原。
- 運作原理: 使用演算法將重複的模式或常見序列編碼為更短的代碼。
- 結果: 縮小檔案大小且品質零損失。
- 適用場景: 用於文字檔、程式碼和對準確性要求極高的圖片。
- 範例: ZIP(壓縮資料夾)、PNG(圖片)、GIF。
類比: 無失真壓縮就像為組裝家具製作一份完美、整潔的說明書。所有內容都在那裡,但排列方式變得更有效率。
避免常見誤區:
學生經常混淆兩者。請記住:Lossy(失真)代表品質 Lost(丟失)。Lossless(無失真)代表 No Loss(無任何資料丟失)。
3.4 壓縮方法
電腦實際上是如何達成壓縮的呢?兩種常見技術是「行程長度編碼」和「字典編碼」。
A. 行程長度編碼 (Run Length Encoding, RLE)
RLE 是一種簡單的無失真技術,最適合用於具有長序列(行程)重複資料的檔案,例如某些類型的圖片(如簡單的黑白圖形)。
逐步範例:
- 尋找連續相同的字元或資料單位。
- 將該序列替換為出現的次數,後面跟著該單位本身。
原始資料: B B B B W W W W W R R R R R R
壓縮後 (RLE): 4B 5W 6R
原始字串有 15 個字元,壓縮後的字串只有 6 個字元(計算數字與字母),成功達到壓縮效果!
B. 字典編碼 (Dictionary Encoding,或 Lempel-Ziv 變體)
這種無失真方法將常見的重複模式或單字替換為儲存在「字典」中的短代碼或指標。
- 運作原理: 演算法會掃描資料,找出經常出現的短語或序列,並將其加入參考列表(字典)。
- 每當該序列再次出現時,它就會被簡短得多的字典索引/代碼所取代。
範例: 如果「Computer Science」這句話在文件中出現 100 次,字典可能會為其指定代碼 #15。檔案不需要重複儲存 18 個字元,而只需儲存 3 個字元的代碼 #15,從而節省空間。
重點總結: 失真壓縮犧牲品質以獲取最大的縮小幅度 (MP3/JPEG);而無失真壓縮使用 RLE 或字典編碼等方法消除冗餘,以實現完美的還原 (ZIP/PNG)。
章節總結複習
需要記住的核心概念:
- 儲存容量單位皆以 1024 為基數(從 Byte 到 Petabyte)。
- 主儲存裝置速度快且具揮發性;次級儲存裝置速度較慢且為非揮發性。
- SSD 速度更快,HDD 更便宜且容量更大。
- 失真壓縮永久丟失資料 (JPEG),主要用於媒體。
- 無失真壓縮保留所有原始資料 (ZIP),用於文字和程式。
- RLE 是一種計算重複序列的無失真壓縮方法。