M1 统计学:正态分布 (第一部分)
基本定义和特性
大家好!欢迎来到统计学中其中一个最重要的课题:正态分布。别被这个名字吓倒。「正态」顾名思义,因为它能描述现实世界中很多现象,例如你校内学生的身高,或者测验的分数。
在本章中,我们会学习正态分布是什么、了解它的主要特征,并看看为何它在统计学领域中如此举足轻重。打好这些基础,将来学习其他章节时就会轻松得多。事不宜迟,我们开始吧!
从数算到量度:连续随机变量
首先,快速回顾一下...
还记得离散随机变量吗?这些是你可以数算的变量。
例如:掷硬币5次中正面的次数(可以是0、1、2、3、4或5次,但不会是2.5次)。又或者是一页上的错字数量。
现在,让我们认识连续随机变量吧!
连续随机变量是指在给定范围内可以取任何数值的变量。想想那些你需要「量度」而非「数算」的事物。
- 例子1:学生的身高。它可以是165厘米、165.1厘米、165.11厘米,或其间的任何数值。
- 例子2:跑100米所需的时间。它可以是12.5秒、12.51秒等等。
- 例子3:一个苹果的重量。
核心概念:概率就是面积
对于连续变量来说,它刚好是某个特定数值的概率实际上是零! (某人的身高刚好是170.00000...厘米的机会有多大?)
相反,我们会讨论变量落在某个范围内的概率。例如:「一名学生的身高在165厘米和170厘米之间的概率是多少?」
我们将这些概率表示为曲线下的面积。这条特殊的曲线称为概率密度函数 (Probability Density Function, PDF)。而所有PDF中最有名的,就是正态分布的钟形曲线!
重点总结:离散与连续
离散:可数算的数值(例如:学生人数)。我们使用概率质量函数(如二项式分布或泊松分布)。
连续:可量度的范围内数值(例如:学生身高)。我们使用概率密度函数(如正态分布)。
万众瞩目的主角:正态分布
正态分布是一种连续概率分布,它左右对称并呈现独特的钟形。这是一种能适用于无数现实情况的数学模型。
标记符号:学习它的「语言」
当一个连续随机变量 X 遵循正态分布时,我们会这样写:
$$X \sim N(\mu, \sigma^2)$$
让我们拆解一下。别担心,它比看起来简单!
- X:这是我们的连续随机变量(例如:智商分数)。
- ~:这个小波浪符号表示「依循分布」或「符合...分布」。
- N:这代表正态(Normal)。很简单吧!
- ($$\mu$$, $$\sigma^2$$):这两个是定义钟形曲线特定形状和位置的两个极其重要的参数。
- $$\mu$$ (读作 Mu) 是分布的平均值。它告诉我们图形的中心位置。
- $$\sigma^2$$ (读作 Sigma 平方) 是分布的方差。它告诉我们数据的分散程度。
请记住,标准差 $$\sigma$$ 只是方差的平方根 ($$\sigma = \sqrt{\sigma^2}$$)。标准差也用来衡量数据的分布情况。
常见错误警示!
请务必留意括号内的第二个数字!符号标记是 $$N(\mu, \sigma^2)$$,它使用的是方差。
如果你获告知学生的身高遵循 $$N(168, 25)$$:
- 平均值 $$\mu$$ 是 168。
- 方差 $$\sigma^2$$ 是 25。
- 标准差 $$\sigma$$ 是 $$\sqrt{25} = 5$$,而不是 25!这在考试中是非常常见的陷阱。
正态曲线的「性格特征」
所有正态分布曲线都拥有四个主要特性。理解这些特性会让你对它们的运作方式有更深入的了解。
1. 钟形且对称
正态分布的图形最广为人知的就是其「钟形曲线」。
它围绕其中心点,即平均值($$\mu$$),呈现完美的对称。
比喻:想象一下,沿着平均值($$\mu$$)的垂直线对折图形。两边会完美地重叠!这种对称性意味着低于平均值某个数量的概率,与高于平均值相同数量的概率是完全一样的。
2. 「三合一」中心:平均值 = 中位数 = 众数
因为曲线是完美对称且在中心达到顶点:
- 平均值(平均数)位于中心。
- 中位数(将数据一分为二的数值)也位于中心。
- 众数(最常出现的数值)位于曲线的最高点,而这个点就是...你猜对了,就是中心!
所以,对于任何正态分布:平均值 = 中位数 = 众数 = $$\mu$$。
3. 分布的「宽窄」由标准差($$\sigma$$)决定
平均值($$\mu$$)告诉我们曲线的中心在哪里,而标准差($$\sigma$$)则告诉我们它有多「分散」或「压缩」。
- 小的标准差($$\sigma$$)意味着数据紧密地聚集在平均值附近。这会导致钟形曲线变得又高又窄。
- 大的标准差($$\sigma$$)意味着数据分布更广。这会导致钟形曲线变得又矮又宽。
比喻:想象两班学生参加同一个测验。如果甲班的$$\sigma$$较小,代表大部分学生的分数都非常接近平均分。如果乙班的$$\sigma$$较大,代表分数分布得较广——有些很高,有些很低。
4. 曲线下的总面积是1
这是所有概率分布的基本规则。由于曲线代表所有可能的结果,总概率必须是100%,即1。
因此,整个正态分布曲线下的总面积永远等于1。
这也意味着每个对称半边的面积都是0.5。所以,结果高于平均值的机会是50%,低于平均值的机会也是50%。
你知道吗?
正态分布也称为高斯分布 (Gaussian distribution),以19世纪初对其进行大量研究的德国杰出数学家卡尔·弗里德里希·高斯 (Carl Friedrich Gauss) 命名。
让我们快速回顾!
快速回顾
- 连续随机变量可以在一个范围内取任何数值(例如:身高、体重、时间)。
- 连续变量的概率是曲线下的面积。
- 标记 $$X \sim N(\mu, \sigma^2)$$ 意指变量 X 遵循正态分布,其平均值为 $$\mu$$,方差为 $$\sigma^2$$。
- 主要特性:
- 它是钟形且关于平均值对称的。
- 平均值 = 中位数 = 众数。
- 标准差($$\sigma$$)控制着曲线的扁平度/分布宽窄。
- 曲线下的总面积永远是1。
- 注意!请记住要将第二个参数开平方,才能找到标准差 $$\sigma$$。
太棒了!你现在已经掌握了正态分布的基本概念。这些概念是接下来所有学习的基石。请记住这些特性,因为我们将会继续学习如何利用这个强大的工具来计算概率。