Data representation

你好，未来的计算机科学家！让我们一起掌握数据表示！

欢迎来到计算机如何思考的奇妙世界！本章主题——数据表示，是计算机科学的基石。因为你在电脑上看到、听到或输入的所有内容，从在线视频流到简单的文字消息，都必须转换成机器能听懂的语言。

别担心这些概念听起来很复杂！我们将通过简单的类比和循序渐进的方法，为你拆解二进制（Binary）和十六进制（Hexadecimal）等核心概念。读完这些笔记，你就能彻底搞懂 0 和 1 是如何变身为绚丽多彩的图片和动感十足的音乐的。

为什么数据表示如此重要？

计算机的中央处理器（CPU）是由数十亿个微小的开关构成的。这些开关只有两种状态：开（ON）或关（OFF）。这种双状态系统正是所有计算的核心，我们称之为二进制系统（基数为 2）。

1. 计算机的语言：二进制基础

1.1 位（Bit）、字节（Byte）及更高单位

数据的最小单位是位（Bit），它是“二进制数字（Binary Digit）”的缩写。

一个位（Bit）只能是 0（关）或 1（开）。
类比：想象一个灯的开关。它要么是开，要么是关——不可能处于“半开”状态！

位的组合

为了存储有意义的信息，位会被组合起来使用：

半字节（Nibble）： 4 个位（半个字节）。
字节（Byte）： 8 个位（衡量字符的标准单位，例如字母“A”）。

你知道吗？ 存储容量通常以 2 的幂来衡量。虽然 1 千字节（KB）通常被近似为 1,000 字节，但在计算机科学中，它精确地等于 1,024 字节（$2^{10}$）。

重点摘要： 所有的数字信息——包括数字、文本、图像和声音——都是通过 0 和 1 的不同组合来存储的。

2. 进制系统：十进制、二进制与十六进制

2.1 十进制（Base 10）与二进制（Base 2）

我们日常生活中使用的是十进制系统（基数为 10）。它由 10 个数字（0-9）组成，并基于 10 的幂运算（$10^0, 10^1, 10^2$ 等）。

二进制系统（基数为 2）仅使用两个数字（0 和 1），并基于 2 的幂运算。

将二进制转换为十进制（最多 8 位）

要将 8 位二进制数转换为十进制，我们使用位权值：

128 64 32 16 8 4 2 1

分步示例：将 10110010 转换为十进制

在二进制位上方写出权值：
128 64 32 16 8 4 2 1
1 0 1 1 0 0 1 0
将位为 '1' 的权值相加：
$128 + 0 + 32 + 16 + 0 + 0 + 2 + 0$
计算总和：
$128 + 32 + 16 + 2 = 178$

因此，二进制的 10110010 等于十进制的 178。

将十进制转换为二进制

我们使用权重法（找到能容纳在该数字中的最大的 2 的幂）。

分步示例：将 201 转换为二进制

从 201 开始。128 能容纳进去吗？能（记作 1）。
$201 - 128 = 73$
64 能容纳进 73 吗？能（记作 1）。
$73 - 64 = 9$
32 能容纳进 9 吗？不能（记作 0）。
16 能容纳进 9 吗？不能（记作 0）。
8 能容纳进 9 吗？能（记作 1）。
$9 - 8 = 1$
4 能容纳进 1 吗？不能（记作 0）。
2 能容纳进 1 吗？不能（记作 0）。
1 能容纳进 1 吗？能（记作 1）。
$1 - 1 = 0$（余数为 0 时停止）

得到的 8 位二进制数为 11001001。

2.2 十六进制（Base 16）

十六进制（Hex）使用 16 个符号：数字 0-9 和字母 A-F（分别代表十进制的 10-15）。

为什么要使用十六进制？ 它能极大地节省时间！ 一长串二进制代码（例如 16 位）对人类来说非常难以阅读和记忆。十六进制就像是二进制数据的紧凑缩写。

由于 $2^4 = 16$，因此 4 位二进制数恰好可以用 1 位十六进制数字表示。

十六进制转换表

| 十六进制 | 十进制 | 二进制（4 位） |

|---|---|---|

| 9 | 9 | 1001 |

| A | 10 | 1010 |

| B | 11 | 1011 |

| F | 15 | 1111 |

将二进制转换为十六进制

这是最简单的转换！只需从右往左，将二进制字符串每 4 位分为一组。

分步示例：将 11010110 转换为十六进制

将字节拆分为两组：1101 和 0110。
转换第一组 (1101)：
$8 + 4 + 0 + 1 = 13$。十进制 13 在十六进制中为 D。
转换第二组 (0110)：
$0 + 4 + 2 + 0 = 6$。十进制 6 在十六进制中为 6。
组合结果：十六进制数为 D6。

快速复习： 二进制、十进制和十六进制之间的转换至关重要。请多练习使用 128-64-32-16-8-4-2-1 表，直到能熟练快速地计算为止！

3. 文本与字符的表示

计算机无法直接存储字母“A”。相反，它存储的是代表“A”的二进制代码。这些代码由称为字符集（Character Sets）的标准来定义。

3.1 ASCII（美国信息交换标准代码）

ASCII 是最早且使用最广泛的字符集之一。它最初使用 7 位来表示 128 个字符（$2^7 = 128$）。

它涵盖了所有大小写字母、数字 0-9 以及基本标点符号。
示例： 大写字母“A”由十进制数字 65 表示（即 8 位二进制的 01000001）。

常见错误： 不要混淆字符“1”（它有对应的 ASCII 码）和二进制数字 1。

3.2 Unicode

ASCII 的局限性在于它只支持基础英语和西欧字符。

Unicode 的开发正是为了解决这一问题。它为每个字符使用 16 位甚至更多（最多 32 位）的存储空间，从而能够表示数百万个不同的字符。

这包含了世界各国语言（中文、阿拉伯文、印地语）的字符以及特殊符号，甚至包括表情符号（Emojis）！
优点： Unicode 使得软件和网页可以在世界各地正确显示，无论使用哪种语言。

重点摘要： 对于英语文本，ASCII 效率很高（8 位）；而对于全球通信和处理庞大的字符集，Unicode 则是必需的（16/32 位）。

4. 图像的表示（位图）

最常见的图像格式（如 JPEG 或 BMP）都是以位图（Bitmaps）形式存储的。可以将位图图像想象成一个由无数彩色小方块组成的巨大网格。

4.1 像素与分辨率

像素（Pixel）（图像元素）是数字图像中最小的单色点。
分辨率（Resolution）是指图像中像素的数量，通常以宽度 x 高度来衡量（例如 1920 x 1080）。

4.2 色彩深度

色彩深度（Colour Depth）（有时称为位深度）是用于存储单个像素颜色信息的位数。

可能的颜色总数计算公式为：$2^N$（N 是以位为单位的色彩深度）。

1 位深度： $2^1 = 2$ 种颜色（例如：黑白）。
8 位深度： $2^8 = 256$ 种颜色。
24 位深度： $2^{24} \approx 1670$ 万种颜色（即“真彩色”）。

类比：色彩深度就像你颜料盘的大小。位深度越高，你的画作所能使用的色调和颜色就越多。

4.3 计算图像文件大小（未压缩）

要计算一张未压缩位图图像占用的空间，请使用此公式：

$$\n\text{文件大小（位）} = \text{分辨率（宽度} \times \text{高度）} \times \text{色彩深度（位）}\n$$

分步示例： 计算一张 100 x 50 像素、色彩深度为 24 位的图像大小。

计算总像素（分辨率）：$100 \times 50 = 5,000$ 像素。
计算总位数：$5,000 \times 24 \text{ 位/像素} = 120,000$ 位。
转换为字节（除以 8）：$120,000 / 8 = 15,000$ 字节。

重点摘要： 更高的分辨率（更多像素）和更高的色彩深度（每个像素更多的位数）都会导致更大的文件大小，但同时也会带来更好的图像质量。

5. 声音的表示

现实世界中的声音是模拟（analogue）的（平滑、连续的波）。计算机需要通过一个称为采样（Sampling）的过程，将其转换为数字（digital）数据（离散的 0 和 1）。

5.1 采样过程

采样是指在规则的时间间隔内，对声波的振幅（amplitude，即音量）进行测量。

两个因素决定了数字化声音的质量和大小：

A. 采样率（或采样频率）

这是每秒采集样本（测量）的次数，单位为赫兹（Hz）或千赫兹（kHz）。

对质量的影响： 更高的采样率意味着计算机对声波的测量更频繁，从而使记录的声音更加还原原声（质量更好）。
标准示例： CD 音质的采样率通常为 44,100 Hz (44.1 kHz)。

B. 位深度（或采样分辨率）

这是用于存储每个采样点振幅值所占用的位数。

对质量的影响： 更高的位深度可以记录更广范围的振幅水平，从而产生更精确、动态更强且背景噪声更低的声音。

5.2 计算音频文件大小（未压缩）

音频文件的大小取决于时长、采样率和位深度。（注：此公式假设为单声道音频，而非立体声。）

$$\n\text{文件大小（位）} = \text{采样率（Hz）} \times \text{位深度（位）} \times \text{时长（秒）}\n$$

分步示例： 计算 10 秒单声道音频的大小（字节），采样率为 20,000 Hz，位深度为 16 位。

计算总位数：
$20,000 \times 16 \times 10 = 3,200,000$ 位。
转换为字节（除以 8）：
$3,200,000 / 8 = 400,000$ 字节。

重点摘要： 高采样率和高位深度都能创造高质量的音频文件，但同时也会导致文件大小大幅增加。

快速复习总结

|---|---|---|---|

| 数字 | 二进制 (基数 2)、十六进制 (基数 16) | 位 / 字节 | 位数越多 = 可表示的数字范围越大 |

你已经掌握了计算机内部存储信息的基本原理！继续练习这些进制转换，你一定能在这一章考试中取得好成绩！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。