Vamei博客学习笔记(3)

本次笔记取材于:

  1. 概率论05 离散分布
  2. 概率论06 连续分布
  3. 概率论07 联合分布
  • 离散随机变量的概率分布

    随机变量(random variable)的本质是一个函数,是从样本空间的子集到实数的映射,将事件转换成一个数值。我们通常用一个大写字母来表示一个随机变量,比如X。

    随机变量的取值,每个值都对应有发生的概率,构成该离散随机变量的概率分布

    离散随机变量的概率分布有很多种类,常见如下:

  • 伯努利分布(Bernoulli Distribution)

    随机变量只有两个可能取值0或1。表示为:
    P ( X = k ) = { p                      f o r    k = 1 1 p          f o r    k = 0 P(X=k)=\begin{cases} p \;\;\;\;\;\;\;\;\;\; for \;k=1\\1-p \; \;\;\;for\;k=0 \end {cases}
    现实示例:抛硬币,出现正面,记录为1。

  • 二项分布(Binomial Distribution)

    进行n次独立测试,每次测试成功的概率为p(相应的,失败的概率为1-p)。这n次测试中的“成功次数”是一个随机变量。这个随机变量符合二项分布(binomial distribution)。

    次数,可以用分步计数的角度考虑。

    n次测试,如果随机变量为k,意味着其中的k次成功,n-k次失败。相当于分组问题,要把n个总数分成k和n-k两组,共有 ( n k ) \begin{pmatrix} n\\k \end{pmatrix} 种可能(一个具体的数)。其中每种可能出现的概率为 p k ( 1 p ) n k p^k(1-p)^{n-k} (每一种可能的概率都一样)。

    二项式分步可以表示为:
    P ( X = k ) = ( n k ) p k ( 1 p ) n k P(X=k)=\begin{pmatrix} n\\k \end{pmatrix}p^k(1-p)^{n-k}
    现实示例:连续打靶,中靶次数。

  • 泊松分布(Poisson Distribution)

    二项分布的一种极限情况,当 p 0 p→0 n + n→+∞ ,而 n p = λ np=λ 时,二项分布趋近于泊松分布。

    这意味着我们进行无限多次测试,每次成功概率无穷小,但 n n p p 的乘积是一个有限的数值。

    泊松分布用于模拟低概率事件。泊松分布的关键特征是,随机变量的取值与区间的长短成正比。这里的区间是广义的,它既可以表示时间,也可以表示空间。
    P ( X = k ) = λ k k ! e λ k = 0 , 1 , . . . n P(X=k)=\frac{\lambda ^k}{k!}e^{-\lambda}\\k=0,1,...n

    现实示例:地震次数,比如十年内某地发生地震的总数。

    可以将十年划分为 n n 个小时间段,每个时间段内地震发生的概率为 p p 。我们假设小时间段很短,以致于不可能有两次地震发生在同一小时间段内,那么地震的总数是一个随机变量,趋近于泊松分布

  • 几何分布(Geometric Distribution)

    连续进行独立测试,直到测试成功。每次测试成功的概率为p。那么,到我们成功时,所进行的测试总数是一个随机变量,可以取值1到正无穷。
    P ( X = k ) = ( 1 p ) ( k 1 ) p k = 1 , 2... P(X=k)=(1-p)^{(k-1)}p \\k=1,2...
    现实示例:产品检验。

    比如产品的合格率为0.65。我们需要检验k次才发现第一个合格产品

  • 负二项分布(Negative geometric diatribution)

    几何分布实际上是负二项分布(negative geometric distribution)的一种特殊情况。

    负二项分布是进行独立测试,但直到出现 r r 次成功,测试的总数 k k r = 1 r=1 时,负二项分布实际上就是几何分布。

    在连续的r次测试时,我们只需要保证最后一次测试是成功的,而之前的k-1次中,有r-1次成功:
    P X = k = ( k 1 r 1 ) p r ( 1 p ) k r P(X=k)=\begin{pmatrix} k-1\\r-1 \end{pmatrix}p^r(1-p)^{k-r}
    现实示例:产品检验,产品的合格率为 p p 。我们需要检验 k k 次才共发现r个合格产品。

  • 符合超几何分布(hypergeometric distribution)

    一个袋子中有n个球,其中r个是黑球,n-r是白球,从袋中取出m个球,让X表示取出球中的黑球的个数,那么X是一个符合超几何分布(hypergeometric distribution)的随机变量。

  • 常见分布对比表

分布 可能取值 数学描述 现实案例 Python实现函数
伯努利分布(Bernoulli Distribution) 0;1 P ( X = k ) = { p                      f o r    k = 1 1 p          f o r    k = 0 P(X=k)=\begin{cases} p \;\;\;\;\;\;\;\;\;\; for \;k=1\\1-p \; \;\;\;for\;k=0 \end {cases} 抛硬币,出现正面,记录为1;反面记录为0 scipy.stats.bernoulli()
二项分布(Binomial Distribution) 0;1;2;…n(总数) P ( X = k ) = ( n k ) p k ( 1 p ) n k P(X=k)=\begin{pmatrix} n\\k \end{pmatrix}p^k(1-p)^{n-k} 连续打靶,中靶次数。 scipy.stats.binom()
泊松分布(Poisson Distribution) 0;1;2…;n P ( X = k ) = λ k k ! e λ k = 0 , 1 , . . . n P(X=k)=\frac{\lambda ^k}{k!}e^{-\lambda}\\k=0,1,...n 地震的总数 scipy.stats.poisson()
几何分布(Geometric Distribution) 1;2;… P ( X = k ) = ( 1 p ) ( k 1 ) p k = 1 , 2... P(X=k)=(1-p)^{(k-1)}p \\k=1,2... 产品检验 scipy.stats.geom()
负二项分布(Negative geometric diatribution) 1;2;… P X = k = ( k 1 r 1 ) p r ( 1 p ) k r P(X=k)=\begin{pmatrix} k-1\\r-1 \end{pmatrix}p^r(1-p)^{k-r} 产品检验 scipy.stats.ngeom()
符合超几何分布(hypergeometric distribution)
  • 连续随机变量

    为了表示连续随机变量的概率分布,我们可以使用累积分布函数或者密度函数。密度函数是对累积分布函数的微分.

    密度函数在某个区间的积分,是随机变量在该区间取值的概率。这意味着,在密度函数的绘图中,概率是曲线下的面积。

  • 均匀分布(uniform distribution)

    假设我们有一个随机数生成器,产生一个从0到1的实数,每个实数出现的概率相等。这样的一个分布被称为均匀分布(uniform distribution).

    它的累积分布函数是:
    F ( x ) = { 0 ,        x < 0 x ,        0 x 1 1 ,        x > 1 F(x)=\begin {cases} 0,\;\;\; x<0\\x,\;\;\;0\leq x\leq1 \\ 1,\;\;\;x>1 \end {cases}
    均匀分布的密度函数可以写成:
    f ( x ) = { 1 ,        0 x 1 0 ,        x < 0      o r      x > 1 f(x)=\begin{cases} 1,\;\;\;0\leq x \leq 1\\0,\;\;\; x<0\;\;or\;\; x>1 \end{cases}

  • 指数分布(exponential distribution)

    指数分布(exponential distribution)的密度函数随着取值的变大而指数减小。

    指数分布的密度函数为:
    f ( x ) = { λ e λ x                i f        x 0 0                              i f        x < 0 f(x)=\begin{cases}λe^{−λx} \;\;\;\;\;\;\; if \;\;\;x \geq 0\\0 \;\;\;\; \; \; \; \; \; \; \; \; \; \; if \;\;\; x<0 \end{cases}

    累积分布函数为:
    F ( x ) = 1 e λ x , x 0 F(x)=1−e^{−λx},x≥0
    现实案例:洪水等级的分布

  • 正态分布(normal distribution)

    正态分布又被称为高斯分布(Gauss distribution),因为高斯在1809年使用该分布来预测星体位置。

    第一个提出该分布的是法国人De Moivre。作为统计先驱,这位数学家需要在咖啡馆“坐台”,为赌徒计算概率为生。正态分布的发现来自于对误差的估计。

    正态分布的密度函数如下:
    f ( x ) = 1 2 π σ e 1 ( x μ ) 2 / 2 σ 2 , < x < f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-1(x-\mu)^2/2\sigma ^2},-\infty < x<\infty
    正态分布表示成 N ( μ , σ ) N(μ,σ) 。当 μ = 0 , σ = 1 μ=0,σ=1 ,这样的正态分布被称作标准正态分布(standard normal distribution)。

  • Gamma分布

    Gamma分布在统计推断中具有重要地位。它的密度函数如下:
    g ( t ) = λ α Γ ( α ) t α 1 e λ t      ,    t 0 g(t)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}t^{\alpha -1}e^{-\lambda t}\;\;,\;t \geq0
    其中的Gamma函数可以表示为:
    Γ ( x ) = 0 μ x 1 e u d u        ,      x > 0 \Gamma(x)=\int^{\infty}_0 \mu^{x-1}e^{-u}du \;\;\; ,\;\;x>0

  • 常见连续分布对比表

分布 可能取值 概率密度函数 现实案例 Python实现函数
均匀分布(uniform distribution) 无限 f ( x ) = { 1 ,        0 x 1 0 ,        x < 0      o r      x > 1 f(x)=\begin{cases} 1,\;\;\;0\leq x \leq 1\\0,\;\;\; x<0\;\;or\;\; x>1 \end{cases}
指数分布(exponential distribution) 无限 f ( x ) = { λ e λ x                i f        x 0 0                              i f        x < 0 f(x)=\begin{cases}λe^{−λx} \;\;\;\;\;\;\; if \;\;\;x \geq 0\\0 \;\;\;\; \; \; \; \; \; \; \; \; \; \; if \;\;\; x<0 \end{cases} 洪水等级 scipy.stats.expon()
正态分布(normal distribution) 无限 f ( x ) = 1 2 π σ e 1 ( x μ ) 2 / 2 σ 2 , < x < f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-1(x-\mu)^2/2\sigma ^2},-\infty < x<\infty scipy.stats.norm()
Gamma分布 无限 g ( t ) = λ α Γ ( α ) t α 1 e λ t      ,    t 0 g(t)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}t^{\alpha -1}e^{-\lambda t}\;\;,\;t \geq0 scipy.stats.gamma()
  • 联合分布(joint distribution)

    联合分布(joint distribution)描述了多个随机变量的概率分布,是对单一随机变量的自然拓展。

    联合分布的多个随机变量都定义在同一个样本空间中。

    对于联合分布来说,最核心的依然是概率测度这一概念。

  • 离散随机变量的联合分布

    一个随机变量是从样本空间到实数的映射。所谓的映射是人为创造的。可以有多个。

    随机变量可以看作个有多个分量矢量

    所以定义在同一样本空间多随机变量,是一个从样本空间矢量映射

    (从这个角度上说,单一随机变量是一个从样本空间到一个有一个分量的矢量的映射)

    是不是可以把随机变量看作是从样本空间提取的一个特征。

    假设:样本空间 Ω Ω 中每个结果等概率出现。而样本空间中共有8个结果,那么个每个结果的出现的概率都是1/8。

    据此,我们可以计算联合概率。依据每个随机变量对应的结果数量。

    对于 X = x , Y = y X=x,Y=y ,我们寻找样本空间中满足这两个取值的所有元素。这些元素构成一个样本空间的子集,该子集的概率就是 P ( X = x , Y = y ) P(X=x,Y=y) 联合概率

    p ( x , y ) = P ( X = x , Y = y ) p(x,y)=P(X=x,Y=y) 称为联合概率质量函数(joint PMF, joint probability mass function)。

    联合概率可以看做两个事件同时发生时的概率,事件A为 X = x X=x ,事件B为 Y = y Y=y ,即 P ( A B ) P(A∩B)

  • 连续随机变量的联合分布

    单个连续随机变量的概率是变量在某个区间(某段线的“长度”)取值的概率。

    多个连续随机变量的概率,是这多个随机变量在多维区间的概率。

    在单变量情况下,概率是一个“面积”,是由区间的“长度”和密度函数(一条曲线)围成的。这里的“体积”是二维区间的“面积”和密度函数(一个曲面)围成的。我们可以使用联合概率密度函数(joint PDF, joint probability density function)来表达多随机变量的分布。

  • 边缘概率(marginal distribution)

    联合分布包含了多个随机变量的分布信息。从联合分布中,提取出任意一个单一随机变量的分布,也就是所谓的边缘分布(marginal distribution)。

    1. 离散随机变量,边缘概率质量函数(marginal pmf):
      p X ( x ) = a l l    y p ( x    ,    y ) p Y ( y ) = a l l    ,    x p ( x    ,    y ) p_X(x)=\sum_{all \; y}p(x\; , \;y)\\p_Y(y)=\sum_{all \; , \; x}p(x\; , \; y)

    2. 连续随机变量,边缘密度函数(marginal pdf, marginal probability density function)可以定义为:
      f X ( x ) = + f ( x , y ) d y f_X(x)=\int^{+ \infty}_{- \infty}f(x,y)dy

  • 条件分布

    事件的条件概率类似,假设 p Y ( y ) 0 pY(y)≠0 ,在 Y = y Y=y 的条件下,随机变量X取值为x的概率定义为:

    1. 离散随机变量

    p ( x y ) = p ( x , y ) p Y ( y ) p(x|y)=\frac{p(x,y)}{p_Y(y)}

    1. 连续随机变量
      f ( x y ) = f ( x Y = y ) = f ( x , y ) f Y ( y ) f(x|y)=f(x|Y=y)=\frac{f(x,y)}{f_Y(y)}
  • 独立随机变量

    正如事件之间可以相互独立一样,随机变量之间也可以相互独立。当X独立于Y时,我们可以相像,Y的取值,将不影响X的概率。也就是说
    p ( x y ) = p X ( x ) p(x|y)=p_X(x)
    这意味着,当且仅当

    1. 离散随机变量

    p ( x , y ) = p X ( x ) p Y ( y ) p(x,y)=p_X(x)p_Y(y)

    相互独立,意味着每个随机变量对应的可能结果彼此不相同。

    1. 连续随机变量
      f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y)

    时,X和Y相互独立。

猜你喜欢

转载自blog.csdn.net/The_Time_Runner/article/details/90207389