欢迎来到 AI 的世界!
你好!今天我们要探索计算机科学中最令人兴奋的领域之一:人工智能(AI)的应用。别担心,这听起来可能像科幻小说,但我们会将其拆解成简单、贴近现实的概念。读完这些笔记后,你将了解电脑如何从大数据(Big Data)中“学习”,以及机器学习(Machine Learning)如何帮助它们像人类一样(嗯,几乎!)做出决定。让我们开始吧!
1. 基础:大数据 (Big Data)
在 AI 变得聪明之前,它需要大量信息,我们称之为大数据。你可以把大数据想象成一座规模庞大且扩张速度极快、人类根本读不完的图书馆。从技术层面来说,大数据是指那些规模太大或太复杂,传统数据处理软件无法处理的数据集。
大数据的三个 V (The Three Vs)
要判断某个事物是否属于“大数据”,我们可以观察三个 V。这里有一个简单的记忆方法:
1. 容量 (Volume):指数据的总量。我们说的不是几 GB,而是 TB 或 PB 等级的数据。
类比:如果一般数据集是一桶水,大数据的“容量”就是整片海洋。
2. 速度 (Velocity):指数据产生和处理的速度。
例子:想想 Twitter (X)。每秒钟都有成千上万条推文发布。数据正源源不断地“串流”进来。
3. 多样性 (Variety):指数据呈现多种不同的格式,而不仅仅是电子表格中整齐的行列。它包含视频、电邮、传感器数据和语音记录等。
记忆小撇步:想象一个“综艺节目”——里面有歌手、舞者和喜剧演员。大数据同样包含照片、文字和声音。
快速复习:为什么我们要在乎?
传统数据库(如带有表格和键值的关系型数据库)在处理大数据时会遇到困难,因为它们并非为处理如此庞大的多样性或速度而设计。然而,AI 系统却能利用这些特性蓬勃发展!
重点摘要: 大数据由庞大的容量、高速的速度和广泛的多样性定义。它是推动 AI 的“燃料”。
2. 机器学习 (Machine Learning, ML)
机器学习是 AI 的一个子集。程序员不需要编写成千上万条“如果-那么”(If-Then) 的规则,而是让电脑利用算法 (Algorithms) 从数据中找出规律并自行制定规则。它从经验中“学习”。
考试中你需要知道两种主要的机器学习方式:
A. 监督式学习 (Supervised Learning)
在监督式学习中,电脑会接收“已标记 (Labeled)”的数据。这意味着电脑同时看到了输入信息和正确答案。
例子:你向电脑展示 1,000 张猫的图片和 1,000 张狗的图片,并告诉它哪些是猫,哪些是狗。最终,当你展示一张新图片时,它就能自行识别出猫的特征。
类比: 这就像学生跟随老师学习,老师会检查作业并提供标准答案。
B. 非监督式学习 (Unsupervised Learning)
在非监督式学习中,电脑接收到的数据没有标签也没有答案。它必须自行找出规律,并根据相似性将数据分组。
例子:你给电脑成千上万名超市顾客的购物数据。它可能会注意到一组人买了很多婴儿奶粉和尿布,而另一组人买了很多高级芝士和红酒。它在没有预设目标的情况下,自动将顾客“聚类 (Clusters)”分成不同类别。
类比: 这就像一个幼儿在玩形状积木时,自然地将圆形的放在一堆,正方形的放在另一堆。
避免常见错误:
别搞混这两者!只要记住:监督式 = 有老师/有标签。非监督式 = 没有老师/自行寻找隐藏规律。
重点摘要: 机器学习让电脑通过识别规律来提升任务表现。监督式使用已标记数据,而非监督式则在未标记数据中自行建立结构。
3. 人工神经网络 (Artificial Neural Networks, ANN)
这听起来很复杂,但别担心!人工神经网络只是一种模拟人脑运作方式的软件。它由多层“神经元”(实际上就是数学函数)组成。
神经网络的结构
一个 ANN 通常包含三个主要部分:
1. 输入层 (Input Layer):原始数据进入系统的地方(例如图片的像素)。
2. 隐藏层 (Hidden Layers):进行“思考”的地方。可以有多个隐藏层,它们通过对数据应用权重 (Weights) 来处理信息。
3. 输出层 (Output Layer):最终的结果或预测(例如“这张图片有 98% 的几率是猫”)。
它们如何学习?(权重与阈值)
神经元之间的每个连接都有一个权重。权重就是一个数字,用来告诉网络该特定信息的重要性。在训练过程中,如果网络犯了错,它会稍微调整这些权重,直到得出正确答案。这个过程称为训练 (Training)。
你知道吗? 这就是 Siri 或 Alexa 等语音助手理解你的方式!它们利用神经网络将你声音的声波转化为文字,然后再转化为指令。
重点摘要: 神经网络利用输入层、隐藏层和输出层来模拟大脑。它们使用权重来确定数据的重要性,并通过训练不断进步。
4. AI 的现实应用
了解了“原理”后,让我们看看“应用”。在考试中,你可能会被要求讨论这些应用:
1. 医疗保健:AI 分析医学影像(如 X 光片)的速度比人类快得多,能更早发现癌症等疾病迹象。这使用了监督式学习和神经网络。
2. 金融:银行利用 AI 来检测欺诈行为。如果你突然在另一个国家花费了 5,000 美元,AI 会注意到这个规律不符合你平时的消费容量或多样性,并将其标记为异常。
3. 自动驾驶车辆:自动驾驶汽车利用来自传感器的大数据(速度)和神经网络,即时识别停车标志、行人和其它车辆。
最后快速复习箱
- 大数据: 高容量、高速度、高多样性。
- 机器学习: 监督式(有标签)vs 非监督式(无标签)。
- 神经网络: 输入层 → 隐藏层 → 输出层;使用权重。
- AI 目标: 执行通常需要人类智慧才能完成的任务。
恭喜你读完这一章!如果神经网络背后的数学看起来有点神秘,别担心——在 AS Level 阶段,最重要的是理解这些概念、3 个 V 以及学习类型。你一定行的!