导言:追踪词汇的生命周期
你有没有想过,为什么我们现在不再说 "hither" 或 "thou",但大家却突然都知道 "podcast" 是什么意思?语言是不断移动、呼吸和演变的。在你的英国语文(9093)课程中,你需要理解这些变化是如何以及为何发生的。在观察这些变化时,其中一个最酷的工具就是 n-gram 图表(n-gram graph)。别被这个名字吓倒了——它只是一种把词汇历史转化为图像的方式而已!
在这些笔记中,我们将拆解这些图表是什么、如何解读,以及它们如何帮助你分析考试中遇到的文本的语境(context)和词汇(vocabulary)。
究竟什么是“n-gram”?
在查看图表之前,我们需要知道我们在统计什么。n-gram 简而言之就是一大段文本中的一系列项目(通常是词汇)。其中的 "n" 代表一个数字。
• 1-gram (unigram/一元语法): 单个词汇。例如:"Telephone"。
• 2-gram (bigram/二元语法): 两个词组成的词组。例如:"Mobile phone"。
• 3-gram (trigram/三元语法): 三个词组成的词组。例如:"Smart mobile phone"。
快速回顾: 可以把 n-gram 想象成一条“词汇链”。数字代表链条中有多少个环节。
理解图表
n-gram 图表(如 Google Ngram Viewer)显示了特定的词汇或词组在书籍中随长时间出现的频率。当你在考试中看到它时,解读方法如下:
水平轴(X 轴): 代表时间(通常是年份或十年)。它告诉你数据是何时收集的。
垂直轴(Y 轴): 代表频率。它告诉你该词汇有多受欢迎。通常以百分比形式显示,例如 \( 0.0001\% \)。这表示在该年出版的每一百万个词汇中,该词出现的次数。
比喻: 把图表想象成词汇的“人气竞赛”。如果线条上升,代表该词正在胜出!如果线条下降,代表该词正在“输掉”,甚至逐渐被遗忘。
为什么线条会移动?(分析语言变化)
这是你 Paper 1 和 Paper 2 分析中最重要的一部分。你看到的不是简单的线条,而是历史。当你在 n-gram 图表上看到变化时,请问自己“为什么?”
1. 上升趋势(人气上升)
当线条爬升时,通常象征着社会或技术的变革。例如,"internet" 的 n-gram 在几个世纪以来一直为零,直到 1990 年左右垂直飙升。
• 新发明: 当技术诞生时,像 "automobile" 或 "computer" 这类词汇便会出现。
• 社会转型: "women's rights"(妇女权利)这一词组在 20 世纪社会焦点转移时,出现了巨大的高峰。
2. 下降趋势(人气下降)
当线条下降时,代表该词正在变得古旧(archaic)或废弃(obsolete,不再使用)。
• 替代: 通常一个词“死亡”是因为有更新的词取而代之。你可能会看到 "wireless" 的线条下降,而 "radio" 的线条上升。
• 失去相关性: 像 "apothecary"(药剂师)这样的词因为我们开始改用 "pharmacist" 或 "chemist" 而被淘汰。
3. 高峰与低谷
有时你会看到图表中突然出现一座“山峰”但随即消失。这通常与特定的历史事件有关。例如,"rationing"(配给)一词在第一次世界大战和第二次世界大战期间会出现高峰,但在其他时期则非常低。
关键总结: n-gram 图表上的每一条线都在讲述当时世界语境的故事。如果线条移动了,说明世界发生了变化!
链接课程大纲:语言要素
课程大纲要求你展现对语言要素(linguistic elements)的知识,例如词汇(vocabulary)和词类(word classes)。n-gram 可以这样帮助你:
• 词汇学(Lexis): n-gram 是我们词汇演变的终极证明。你可以用它来探讨非正式语言(俚语)如何随着时间推移在书面文本中变得更加普遍。
• 词态学(Morphology): 你可以观察词尾是如何变化的。例如,比较 "learnt" 和 "learned",可以看出美式英语拼写如何随时间影响英式英语。
• 语用学(Pragmatics): 有时一个词并未消失,而是其含义改变了。虽然 n-gram 不一定能直接显示含义,但它可以展示像 "gay" 这样的词,随着其主要用法从“快乐”转变为特定的社会身份,其使用频率是如何变化的。
应避免的常见错误
错误 1:混淆“百分比”与“总数”。
如果 Y 轴上的数字非常小(如 \( 0.000005\% \)),不必担心。英语中有数以百万计的词汇!重要的是线条的趋势,而不是那个微小的数值。
错误 2:忽略语境。
如果你看到一个词在 1860 年出现峰值,不要只说“它变受欢迎了”。运用你的历史知识!提及这可能与美国内战或工业革命有关。语境是获取高分的关键。
错误 3:认为“平线”代表该词无人使用。
平线只是代表受欢迎程度保持不变。这称为稳定性(stability)。像 "the", "and", 和 "of" 这些词有着非常平坦且位处高位的线条,因为我们永远需要它们!
快速回顾箱
你知道吗? 用于制作这些图表的文本集合称为语料库(corpus)。它就像一个巨大的数字图书馆,电脑通过“阅读”它来寻找数据。
记忆小撇步: 把 N-grams 想象成 "Now-grams"(现在词汇)与 "Then-grams"(过去词汇)。它们比较了我们“现在”说的话与“那时”人们说的话。
分析步骤总结:
1. 识别 n-grams(正在比较的词汇或词组)。
2. 查看底部轴上的时间段。
3. 描述趋势(是上升、下降还是稳定?)。
4. 解释原因(将其与历史、社会或技术因素联系起来)。
5. 链接到语言学术语(词汇、古语、新词)。
如果起初觉得这些有点棘手,不用担心!一旦你开始将词汇视为会随着人气成长与萎缩的“生物”,阅读这些图表就会变得像阅读人类历史的地图一样简单。