本次笔记取材于:
-
离散随机变量的概率分布
随机变量(random variable)的本质是一个函数,是从样本空间的子集到实数的映射,将事件转换成一个数值。我们通常用一个大写字母来表示一个随机变量,比如X。
随机变量的取值,每个值都对应有发生的概率,构成该离散随机变量的概率分布。
离散随机变量的概率分布有很多种类,常见如下:
-
伯努利分布(Bernoulli Distribution)
随机变量只有两个可能取值0或1。表示为:
现实示例:抛硬币,出现正面,记录为1。 -
二项分布(Binomial Distribution)
进行n次独立测试,每次测试成功的概率为p(相应的,失败的概率为1-p)。这n次测试中的“成功次数”是一个随机变量。这个随机变量符合二项分布(binomial distribution)。
次数,可以用分步计数的角度考虑。
n次测试,如果随机变量为k,意味着其中的k次成功,n-k次失败。相当于分组问题,要把n个总数分成k和n-k两组,共有 种可能(一个具体的数)。其中每种可能出现的概率为 (每一种可能的概率都一样)。
二项式分步可以表示为:
现实示例:连续打靶,中靶次数。 -
泊松分布(Poisson Distribution)
二项分布的一种极限情况,当 , ,而 时,二项分布趋近于泊松分布。
这意味着我们进行无限多次测试,每次成功概率无穷小,但 和 的乘积是一个有限的数值。
泊松分布用于模拟低概率事件。泊松分布的关键特征是,随机变量的取值与区间的长短成正比。这里的区间是广义的,它既可以表示时间,也可以表示空间。
现实示例:地震次数,比如十年内某地发生地震的总数。
可以将十年划分为 个小时间段,每个时间段内地震发生的概率为 。我们假设小时间段很短,以致于不可能有两次地震发生在同一小时间段内,那么地震的总数是一个随机变量,趋近于泊松分布。
-
几何分布(Geometric Distribution)
连续进行独立测试,直到测试成功。每次测试成功的概率为p。那么,到我们成功时,所进行的测试总数是一个随机变量,可以取值1到正无穷。
现实示例:产品检验。比如产品的合格率为0.65。我们需要检验k次才发现第一个合格产品
-
负二项分布(Negative geometric diatribution)
几何分布实际上是负二项分布(negative geometric distribution)的一种特殊情况。
负二项分布是进行独立测试,但直到出现 次成功,测试的总数 。 时,负二项分布实际上就是几何分布。
在连续的r次测试时,我们只需要保证最后一次测试是成功的,而之前的k-1次中,有r-1次成功:
现实示例:产品检验,产品的合格率为 。我们需要检验 次才共发现r个合格产品。 -
符合超几何分布(hypergeometric distribution)
一个袋子中有n个球,其中r个是黑球,n-r是白球,从袋中取出m个球,让X表示取出球中的黑球的个数,那么X是一个符合超几何分布(hypergeometric distribution)的随机变量。
-
常见分布对比表
分布 | 可能取值 | 数学描述 | 现实案例 | Python实现函数 |
---|---|---|---|---|
伯努利分布(Bernoulli Distribution) | 0;1 | 抛硬币,出现正面,记录为1;反面记录为0 | scipy.stats.bernoulli() |
|
二项分布(Binomial Distribution) | 0;1;2;…n(总数) | 连续打靶,中靶次数。 | scipy.stats.binom() |
|
泊松分布(Poisson Distribution) | 0;1;2…;n | 地震的总数 | scipy.stats.poisson() |
|
几何分布(Geometric Distribution) | 1;2;… | 产品检验 | scipy.stats.geom() |
|
负二项分布(Negative geometric diatribution) | 1;2;… | 产品检验 | scipy.stats.ngeom() |
|
符合超几何分布(hypergeometric distribution) |
-
连续随机变量
为了表示连续随机变量的概率分布,我们可以使用累积分布函数或者密度函数。密度函数是对累积分布函数的微分.
密度函数在某个区间的积分,是随机变量在该区间取值的概率。这意味着,在密度函数的绘图中,概率是曲线下的面积。
-
均匀分布(uniform distribution)
假设我们有一个随机数生成器,产生一个从0到1的实数,每个实数出现的概率相等。这样的一个分布被称为均匀分布(uniform distribution).
它的累积分布函数是:
均匀分布的密度函数可以写成:
-
指数分布(exponential distribution)
指数分布(exponential distribution)的密度函数随着取值的变大而指数减小。
指数分布的密度函数为:
累积分布函数为:
现实案例:洪水等级的分布 -
正态分布(normal distribution)
正态分布又被称为高斯分布(Gauss distribution),因为高斯在1809年使用该分布来预测星体位置。
第一个提出该分布的是法国人De Moivre。作为统计先驱,这位数学家需要在咖啡馆“坐台”,为赌徒计算概率为生。正态分布的发现来自于对误差的估计。
正态分布的密度函数如下:
正态分布表示成 。当 ,这样的正态分布被称作标准正态分布(standard normal distribution)。 -
Gamma分布
Gamma分布在统计推断中具有重要地位。它的密度函数如下:
其中的Gamma函数可以表示为:
-
常见连续分布对比表
分布 | 可能取值 | 概率密度函数 | 现实案例 | Python实现函数 |
---|---|---|---|---|
均匀分布(uniform distribution) | 无限 | |||
指数分布(exponential distribution) | 无限 | 洪水等级 | scipy.stats.expon() |
|
正态分布(normal distribution) | 无限 | scipy.stats.norm() |
||
Gamma分布 | 无限 | scipy.stats.gamma() |
-
联合分布(joint distribution)
联合分布(joint distribution)描述了多个随机变量的概率分布,是对单一随机变量的自然拓展。
联合分布的多个随机变量都定义在同一个样本空间中。
对于联合分布来说,最核心的依然是概率测度这一概念。
-
离散随机变量的联合分布
一个随机变量是从样本空间到实数的映射。所谓的映射是人为创造的。可以有多个。
多个随机变量可以看作一个有多个分量的矢量。
所以定义在同一样本空间的多随机变量,是一个从样本空间到矢量的映射。
(从这个角度上说,单一随机变量是一个从样本空间到一个有一个分量的矢量的映射)
是不是可以把随机变量看作是从样本空间提取的一个特征。
假设:样本空间 中每个结果等概率出现。而样本空间中共有8个结果,那么个每个结果的出现的概率都是1/8。
据此,我们可以计算联合概率。依据每个随机变量对应的结果数量。
对于 ,我们寻找样本空间中满足这两个取值的所有元素。这些元素构成一个样本空间的子集,该子集的概率就是 的联合概率。
称为联合概率质量函数(joint PMF, joint probability mass function)。
联合概率可以看做两个事件同时发生时的概率,事件A为 ,事件B为 ,即 。
-
连续随机变量的联合分布
单个连续随机变量的概率是变量在某个区间(某段线的“长度”)取值的概率。
多个连续随机变量的概率,是这多个随机变量在多维区间的概率。
在单变量情况下,概率是一个“面积”,是由区间的“长度”和密度函数(一条曲线)围成的。这里的“体积”是二维区间的“面积”和密度函数(一个曲面)围成的。我们可以使用联合概率密度函数(joint PDF, joint probability density function)来表达多随机变量的分布。
-
边缘概率(marginal distribution)
联合分布包含了多个随机变量的分布信息。从联合分布中,提取出任意一个单一随机变量的分布,也就是所谓的边缘分布(marginal distribution)。
-
离散随机变量,边缘概率质量函数(marginal pmf):
-
连续随机变量,边缘密度函数(marginal pdf, marginal probability density function)可以定义为:
-
-
条件分布
与事件的条件概率类似,假设 ,在 的条件下,随机变量X取值为x的概率定义为:
- 离散随机变量
- 连续随机变量
-
独立随机变量
正如事件之间可以相互独立一样,随机变量之间也可以相互独立。当X独立于Y时,我们可以相像,Y的取值,将不影响X的概率。也就是说
这意味着,当且仅当- 离散随机变量
相互独立,意味着每个随机变量对应的可能结果彼此不相同。
- 连续随机变量
时,X和Y相互独立。