Creating artificially intelligent systems

建立人工智能系统简介

欢迎！在本章中，我们将探索计算机科学中最令人兴奋的领域之一：人工智能 (Artificial Intelligence, AI)。AI 在电影中常被描绘成会说话的机器人，但在现实世界中，它是我们每天使用的技术背后的功臣，例如 Netflix 的电影推荐、像 Siri 这样的语音助理，甚至是过滤电子邮件垃圾邮件的筛选器。我们将探讨如何定义机器的“智慧”，以及计算机用来从数据中“学习”的巧妙方法。

1. 什么是人工智能？

从本质上讲，人工智能是计算机科学的一个分支，旨在创建能够执行通常需要人类智慧才能完成的任务的系统。这包括识别面孔、理解口语、做决策以及语言翻译等任务。

别担心，如果起初觉得这些很难理解！ 你并不需要真的去打造一个机器人，你只需要理解这些系统背后解决问题的逻辑即可。

图灵测试 (The Turing Test)

1950 年，一位著名的计算机科学家艾伦·图灵 (Alan Turing) 提出了一种判断机器是否能真正被称为“有智慧”的方法。他当时称之为“模仿游戏”，但我们现在称之为图灵测试。

测试设置： 想象有一位人类提问者在一个房间里，而计算机和另一位人类在另一个房间。提问者透过输入文字提问，并收到输入的回复。如果提问者无法分辨答案究竟来自人类还是计算机，那么该计算机就被视为通过了测试，具备了“智慧”。

快速回顾：
• 人工智能： 机器模拟人类认知功能的能力。
• 图灵测试： 一种测试机器是否具备与人类相当、或无法与人类区分之智能行为的方法。

重点总结： AI 不仅仅是“变得聪明”，而是指机器在特定背景下表现出的行为与人类无法区分。

2. 问题解决：状态空间搜索

AI 解决问题（例如赢得一场西洋棋比赛或在地图上找到最快路线）的一种方式是透过搜索 (Search)。由于计算机不像我们一样会“思考”，它会浏览一张包含所有可能移动步骤或状态的“地图”。

状态空间 (State-Space)

状态空间是指一个问题所有可能出现的“状态”（情况）的呈现方式。例如，在井字游戏（Noughts and Crosses）中，棋盘上每一个可能的布局都是一个“状态”。

启发式方法 (Heuristics)：“捷径”

想象你在巨大的城市里找一间特定的房子。你可以走过每一条街道（这是穷举搜索，Exhaustive Search），但那会花掉你无穷的时间！取而代之的是，你使用一种启发式方法 (Heuristic)。启发式方法是一种“经验法则”或“受过教育的猜测”，它透过忽略不太可能达到目标的路径，帮助计算机更快地找到解决方案。

现实生活比喻： 当你在找钥匙时，你会先检查茶几和口袋（启发式方法），而不是立刻去检查冰箱内部或是花园地砖底下。

常见错误提醒： 启发式方法无法保证找到“完美”或“最短”的解法，但它能保证在合理的时间内找到一个“足够好”的解法。

重点总结： AI 利用搜索来寻找解法，并使用启发式方法让搜索过程更快速、更有效率。

3. 机器学习 (Machine Learning)

机器学习 (ML) 是 AI 的一个子领域，我们不需要给计算机一堆规则（例如“如果它有毛且会喵喵叫，它就是猫”）。相反地，我们提供海量的数据，让计算机自己去发现其中的规律。

监督式学习 (Supervised Learning)

可以把它想象成“有老师教导的学习”。我们提供给计算机标记过的数据 (Labeled data)。
范例： 我们给计算机看 10,000 张照片，并告诉它：“这是猫”、“这是狗”、“这是猫”。在看过足够多的标记范例后，计算机就能学会如何在它从未见过的新照片中识别猫。

非监督式学习 (Unsupervised Learning)

可以把它想象成“透过探索进行学习”。我们提供给计算机未标记的数据 (Unlabeled data)，并要求它自行寻找规律或分组。
范例： 超市给计算机一份顾客购买清单。计算机可能会发现，购买尿布的顾客往往也会买啤酒，尽管没人告诉它要寻找这种联系！这被称为聚类 (Clustering)。

记忆辅助（“S”规则）：
Supervised（监督式）= Shown the answer（被告知答案，有标记）。
Unsupervised（非监督式）= Unknown answers（未知答案，无标记）。

重点总结： 机器学习使计算机能够透过处理数据，随着时间的推移提升执行任务的效能。

4. 神经网络 (Neural Networks)

神经网络是一种受到人类大脑运作方式启发的机器学习类型。它们由多层“节点”（如同人工神经元）组成。

一个简单的神经网络通常有三个部分：
1. 输入层 (Input Layer)： 数据（例如图像的像素）进入系统的地方。
2. 隐藏层 (Hidden Layers)： 这是进行“思考”的地方。系统会为不同的信息分配“权重 (Weights)”，以决定它们的重要性。
3. 输出层 (Output Layer)： 最终决策（例如：“这张照片有 98% 的概率是猫”）。

你知道吗？ “深度学习 (Deep Learning)”其实就是拥有多个隐藏层的神经网络。这就是为什么它被称为“深度 (Deep)”的原因！

重点总结： 神经网络利用层层连接来处理复杂数据，并像生物大脑一样识别规律。

5. 大数据与 AI

为什么 AI 的概念早在 1950 年代就被提出，却直到现在才如此普及？答案就是大数据 (Big Data)。AI 模型需要大量的数据才能有效训练。

大数据的 3 个 V：
1. 容量 (Volume)： 数据的庞大数量（TB 和 PB 等级）。
2. 速度 (Velocity)： 生成新数据的速度（例如每分钟数百万条推文）。
3. 多样性 (Variety)： 数据的类型多样（文字、影片、音频、GPS 信号）。

快速回顾箱：
• AI 需要大数据来“学习”规律。
• 如果没有高容量、高速度和高多样性，现代 AI 将无法达到今日的准确度。

重点总结： 大数据提供了“燃料”，让现代 AI 和机器学习系统得以运作并不断进化。

总结检查清单

在完成本章之前，请确保你能：
• 定义人工智能。
• 解释图灵测试的运作方式。
• 描述启发式方法如何协助状态空间搜索。
• 区分监督式学习与非监督式学习。
• 列出大数据的 3 个 V。

做得好！你已经掌握了 AI 的基础知识。持续练习这些术语，你很快就会成为专家！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。