欢迎来到数据与信息的世界!
欢迎来到这个领域!无论你是科技达人,还是觉得电脑有点复杂的初学者,这些笔记都是为你准备的。在本章中,我们将探索原始事实(数据 Data)是如何转化为有用的信息(信息 Information)。把它想象成烹饪:数据就是你的原始食材,而信息就是你用这些食材精心制作出的美味佳肴。让我们开始吧!
1.1 数据与信息
乍看之下,这两个词似乎意思相同,但在信息技术(IT)中,它们可是有很大的区别!
有什么区别?
数据 (Data) 由原始的事实和数字组成,它们没有背景信息。单独来看,数据基本上没什么用处。
范例:39, 42, 38。(这些仅仅是数字而已)。
信息 (Information) 是经过处理并赋予了背景 (Context) 和 意义 (Meaning) 的数据。
范例:“过去三天的每日最高气温分别为 39°C、42°C 和 38°C。”现在这些数字就有意义了!
核心概念: 数据 + 背景 + 意义 = 信息。
直接数据与间接数据
数据主要有两种收集方式:
1. 直接数据 (Direct Data): 这是“亲力亲为”的数据。你(或你的机构)为了当前的特定任务而专门收集的数据。
来源: 问卷调查 (Questionnaires)、面试 (Interviews)、观察 (Observations) 或 数据记录 (Data Logging)(例如传感器记录温度)。
2. 间接数据 (Indirect Data): 这是“二手”数据。它们最初是为了某个目的而收集的,但现在被用于其他用途。
来源: 选民登记册 (Electoral registers)、人口普查数据 (Census data)、气象记录 (Weather records),或从其他企业购买的信息。
优缺点比较
直接数据:
(+) 非常切题,因为提问内容是你自己决定的。
(-) 收集成本可能较高且耗时。
间接数据:
(+) 通常获取速度更快、成本更低(因为资料已经存在了!)。
(-) 可能过时,或者不完全符合你的需求。
快速回顾: 数据是原始事实。信息是具有意义的数据。直接数据由你自己收集;间接数据则由他人收集。
1.2 信息质量
并非所有的信息都是好信息!为了具有参考价值,信息必须具备高质量。如果觉得要记的东西太多也不用担心,只要记得 ARADC 原则:
1. 准确性 (Accuracy): 资料是否正确?如果气象报告说伦敦 12 月的气温是 50°C,那显然不准确!
2. 相关性 (Relevance): 这是否是你真正需要的?如果你想买房,一份汽车价格表对你来说就没用。
3. 时效性 (Age): 资料是否最新?对于 2022 年才兴建的道路,2010 年的地图就没有参考价值。
4. 详细程度 (Level of Detail): 信息是否充足(或过多)?老板需要的是摘要,而不是一份包含每一笔销售记录的 500 页清单。
5. 完整性 (Completeness): 是否有任何遗漏?如果一个电话号码少了最后两位数字,那它就毫无用处。
核心要点: 高质量的信息必须准确、相关、及时、足够详细且完整。
1.3 加密 (Encryption)
加密 (Encryption) 是一种将数据扰乱的过程,使得未经授权的人无法读取。这就像是用一种只有你和挚友才懂的密码来写秘密纸条一样。
加密方法
1. 对称加密 (Symmetric Encryption): 使用相同的密钥 (Key) 来加密(锁定)和解密(解锁)数据。
比喻:房门钥匙。你用同一把钥匙锁门,稍后也是用这把钥匙开门。
2. 非对称加密 (Asymmetric Encryption): 使用一对密钥——公开密钥 (Public Key)(任何人都可以用它来加密数据)和 私有密钥 (Private Key)(只有拥有者持有,用于解密数据)。
比喻:信箱。任何人都可以把邮件投进投递口(公开),但只有拥有者有钥匙可以打开信箱并读取邮件(私有)。
协议 (互联网规则)
当你在浏览器中看到“https”和锁头图标时,你正在使用 SSL (安全套接层) 或 TLS (传输层安全性协议)。这些协议能保护数据在你的电脑(客户端)与网站(服务器)之间传输时的安全。IPsec 是另一种经常用于 VPN 的协议,用于确保互联网协议通信的安全。
你知道吗? TLS 基本上就是 SSL 的更新且更安全版本!
1.4 检查数据准确性
在我们处理数据之前,需要确保它已经过“清理”。我们透过验证 (Validation) 和核对 (Verification) 来做到这一点。这两个词听起来很像,但其实完全不同!
验证 (Validation - 合理性检查)
验证是电脑进行的检查,用于确认数据是否符合特定规则。
- 存在性检查 (Presence Check): 你是否漏填了字段?
- 范围检查 (Range Check): 数字是否在 1 到 100 之间?
- 类型检查 (Type Check): 你是否在应该输入数字的地方输入了字母?
- 格式检查 (Format Check): 邮政编码看起来是否像“AB1 2CD”的格式?
- 校验码 (Check Digit): 对代码(如 ISBN)进行数学运算,以确保数字正确。
核对 (Verification - 正确性检查)
核对是检查数据是否与原始来源一致。
- 视觉检查 (Visual Check): 将屏幕上的内容与纸本表格进行对照。
- 二次输入 (Double Data Entry): 连续两次输入相同的密码(如果两次输入不符,代表你打错了!)。
其他技术性检查:
- 奇偶校验 (Parity Check): 检查二进制字符串中 1 的数量是奇数还是偶数,以侦测传输中的错误。
- 校验和/哈希总值 (Checksum/Hash Total): 根据数据计算出一个数值,并在接收端进行对比,以确保数据在传输过程中没有被更改。
要避免的常见误区: 验证不能保证数据 100% 正确。如果你在年龄栏输入“19”(事实上你 18 岁),电脑不会知道你在撒谎,并且会接受它,因为这是一个“合理”的数字!
1.5 数据处理 (Data Processing)
电脑如何处理数据?主要有三种方式:
1. 批处理 (Batch Processing)
数据经过一段时间的收集后,一次性地进行处理,通常在“非高峰”时段(例如深夜)进行。一旦开始,通常不需要人工干预。
范例: 水电费账单、工资发放 (Payroll)、信用卡账单。
关键术语: 主文件 (Master File)(主要的永久数据)与 事务文件 (Transaction File)(随后应用到主文件的日常变动数据)。
2. 在线处理 (Online Processing)
使用者与系统互动,数据几乎立即得到处理。
范例: 网上购物、预订机票、电子转账 (EFT)。
3. 实时处理 (Real-Time Processing)
适用于需要立即响应的系统,因为输出的结果会影响下一个输入。这常应用于控制系统 (Control Systems)。
- 微处理器控制: 防盗报警器、空调系统、交通信号灯。
- 无线传感器网络: 智能家居、自动驾驶车辆、导弹制导系统。
范例:温室控制
1. 传感器测量光线/温度。
2. 数据传送到微处理器。
3. 电脑将其与“预设”值进行比较。
4. 如果温度过低,电脑发送信号给执行器 (Actuator) 开启加热器。
5. 温度发生变化(输入改变),循环再次开始!
快速回顾: 批处理 = 稍后处理。在线 = 现在处理。实时 = 为挽救生命或控制机器而进行的瞬间反应。
最后的鼓励
如果现在觉得这些术语太多太繁杂,不用担心!学习 IT 的最好方法,是思考你日常生活中是如何使用这些技术的。每一次你登入网站(加密)、输入两次密码(核对),或者等待每月的电话账单(批处理),你其实都在应用这些概念!继续加油!