建立人工智能系统简介

欢迎!在本章中,我们将探索计算机科学中最令人兴奋的领域之一:人工智能 (Artificial Intelligence, AI)。AI 在电影中常被描绘成会说话的机器人,但在现实世界中,它是我们每天使用的技术背后的功臣,例如 Netflix 的电影推荐、像 Siri 这样的语音助理,甚至是过滤电子邮件垃圾邮件的筛选器。我们将探讨如何定义机器的“智慧”,以及计算机用来从数据中“学习”的巧妙方法。

1. 什么是人工智能?

从本质上讲,人工智能是计算机科学的一个分支,旨在创建能够执行通常需要人类智慧才能完成的任务的系统。这包括识别面孔、理解口语、做决策以及语言翻译等任务。

别担心,如果起初觉得这些很难理解! 你并不需要真的去打造一个机器人,你只需要理解这些系统背后解决问题的逻辑即可。

图灵测试 (The Turing Test)

1950 年,一位著名的计算机科学家艾伦·图灵 (Alan Turing) 提出了一种判断机器是否能真正被称为“有智慧”的方法。他当时称之为“模仿游戏”,但我们现在称之为图灵测试

测试设置: 想象有一位人类提问者在一个房间里,而计算机和另一位人类在另一个房间。提问者透过输入文字提问,并收到输入的回复。如果提问者无法分辨答案究竟来自人类还是计算机,那么该计算机就被视为通过了测试,具备了“智慧”。

快速回顾:
人工智能: 机器模拟人类认知功能的能力。
图灵测试: 一种测试机器是否具备与人类相当、或无法与人类区分之智能行为的方法。

重点总结: AI 不仅仅是“变得聪明”,而是指机器在特定背景下表现出的行为与人类无法区分。


2. 问题解决:状态空间搜索

AI 解决问题(例如赢得一场西洋棋比赛或在地图上找到最快路线)的一种方式是透过搜索 (Search)。由于计算机不像我们一样会“思考”,它会浏览一张包含所有可能移动步骤或状态的“地图”。

状态空间 (State-Space)

状态空间是指一个问题所有可能出现的“状态”(情况)的呈现方式。例如,在井字游戏(Noughts and Crosses)中,棋盘上每一个可能的布局都是一个“状态”。

启发式方法 (Heuristics):“捷径”

想象你在巨大的城市里找一间特定的房子。你可以走过每一条街道(这是穷举搜索,Exhaustive Search),但那会花掉你无穷的时间!取而代之的是,你使用一种启发式方法 (Heuristic)。启发式方法是一种“经验法则”或“受过教育的猜测”,它透过忽略不太可能达到目标的路径,帮助计算机更快地找到解决方案。

现实生活比喻: 当你在找钥匙时,你会先检查茶几和口袋(启发式方法),而不是立刻去检查冰箱内部或是花园地砖底下。

常见错误提醒: 启发式方法无法保证找到“完美”或“最短”的解法,但它能保证在合理的时间内找到一个“足够好”的解法。

重点总结: AI 利用搜索来寻找解法,并使用启发式方法让搜索过程更快速、更有效率。


3. 机器学习 (Machine Learning)

机器学习 (ML) 是 AI 的一个子领域,我们不需要给计算机一堆规则(例如“如果它有毛且会喵喵叫,它就是猫”)。相反地,我们提供海量的数据,让计算机自己去发现其中的规律。

监督式学习 (Supervised Learning)

可以把它想象成“有老师教导的学习”。我们提供给计算机标记过的数据 (Labeled data)
范例: 我们给计算机看 10,000 张照片,并告诉它:“这是猫”、“这是狗”、“这是猫”。在看过足够多的标记范例后,计算机就能学会如何在它从未见过的新照片中识别猫。

非监督式学习 (Unsupervised Learning)

可以把它想象成“透过探索进行学习”。我们提供给计算机未标记的数据 (Unlabeled data),并要求它自行寻找规律或分组。
范例: 超市给计算机一份顾客购买清单。计算机可能会发现,购买尿布的顾客往往也会买啤酒,尽管没人告诉它要寻找这种联系!这被称为聚类 (Clustering)

记忆辅助(“S”规则):
Supervised(监督式)= Shown the answer(被告知答案,有标记)。
Unsupervised(非监督式)= Unknown answers(未知答案,无标记)。

重点总结: 机器学习使计算机能够透过处理数据,随着时间的推移提升执行任务的效能。


4. 神经网络 (Neural Networks)

神经网络是一种受到人类大脑运作方式启发的机器学习类型。它们由多层“节点”(如同人工神经元)组成。

一个简单的神经网络通常有三个部分:
1. 输入层 (Input Layer): 数据(例如图像的像素)进入系统的地方。
2. 隐藏层 (Hidden Layers): 这是进行“思考”的地方。系统会为不同的信息分配“权重 (Weights)”,以决定它们的重要性。
3. 输出层 (Output Layer): 最终决策(例如:“这张照片有 98% 的概率是猫”)。

你知道吗? “深度学习 (Deep Learning)”其实就是拥有多个隐藏层的神经网络。这就是为什么它被称为“深度 (Deep)”的原因!

重点总结: 神经网络利用层层连接来处理复杂数据,并像生物大脑一样识别规律。


5. 大数据与 AI

为什么 AI 的概念早在 1950 年代就被提出,却直到现在才如此普及?答案就是大数据 (Big Data)。AI 模型需要大量的数据才能有效训练。

大数据的 3 个 V:
1. 容量 (Volume): 数据的庞大数量(TB 和 PB 等级)。
2. 速度 (Velocity): 生成新数据的速度(例如每分钟数百万条推文)。
3. 多样性 (Variety): 数据的类型多样(文字、影片、音频、GPS 信号)。

快速回顾箱:
• AI 需要大数据来“学习”规律。
• 如果没有高容量、高速度和高多样性,现代 AI 将无法达到今日的准确度。

重点总结: 大数据提供了“燃料”,让现代 AI 和机器学习系统得以运作并不断进化。


总结检查清单

在完成本章之前,请确保你能:
• 定义人工智能
• 解释图灵测试的运作方式。
• 描述启发式方法如何协助状态空间搜索。
• 区分监督式学习非监督式学习
• 列出大数据的 3 个 V

做得好!你已经掌握了 AI 的基础知识。持续练习这些术语,你很快就会成为专家!