数学基础知识回顾(一):概率论与数理统计


前言

由于数学知识是研究算法的基础,所以本文将会从最简单的数学部分:概率论与数理统计开始进行一些最基础的高等数学知识的回顾,本文没有任何参考来源,本文不会从考研应试做题的角度去描述这一门课,而是从背后的物理或者数学意义去思考为什么这样做,是本作者的原创文章

一、基本概念

1.分布函数与概率密度函数

  1. 分布函数的概念

X X X是随机变量,而 x x x是任意实数值,则称函数 F ( x ) = P { X ≤ x } F(x)=P\{X\leq x \} F(x)=P{ Xx}为随机变量 X X X的分布函数,称 X X X服从 F ( x ) F(x) F(x)分布,记为 X ∼ F ( x ) X\sim F(x) XF(x)
其中,对于里面随机变量 X X X的理解应该是它可以在输入不同的定义域时有不同的值,本质上是一个代表着实际问题的函数值的一个集合,而不是定义域,而相对于随机变量X而言,实数值x来说它只是其中一个值,可以看做一个常量。但是对于整个分布函数而言,这个x是整个分布函数的自变量

  1. 概率密度函数的概念

我们的分布函数可以使用概率密度函数来表示,它表征的是在一个区间段上随机变量的概率的变化密集情况,有以下关系 F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{-\infty}^x f(t) dt F(x)=xf(t)dt
这个概率密度函数的这个t只对应着分布函数中的随机变量对应的实数值x,也就是说这个实数值x可以是很复杂的数,举个简单的例子:
当我们求解 Y = X 2 Y=X^2 Y=X2的概率分布,此时我们只知道X随机变量的概率密度分布,而不知道Y随机变量的概率密度分布,那我们就必须要通过X的概率密度分布去进行求解。
F Y ( y ) = P ( Y ≤ y ) = P ( X 2 ≤ y ) = P ( − y ≤ X ≤ y ) = ∫ − y y f ( x ) d x \begin{aligned} F_Y(y)&=P(Y\leq y)\\ &=P(X^2\leq y)\\ &=P(-\sqrt y \leq X\leq \sqrt y)\\ &=\int_{-\sqrt y}^{\sqrt y}f(x)dx \end{aligned} FY(y)=P(Yy)=P(X2y)=P(y Xy )=y y f(x)dx
通过这这个方式我们就能将变换后的分布函数求解出来了,而其概率密度函数只需要对y求导即可求得。
我们可能会思考一个问题,为什么我们要通过分布函数求解我们转变后的概率密度函数呢,不能通过x的概率密度函数直接求得变换后y的概率密度函数吗?这样做不是多此一举么?
在本文作者看来,这样子做应该是不行的,所谓我们的变换,其实是将我们原本的随机变量进行改变,但事实上改变前的随机变量与改变后的随机变量只有在概率分布上有直接的映射关系,根据我们上述的式子(1)(2)可以看到只有是在第一步转化上随机变量Y跟随机变量X才有一个等式的转换关系,两者的概率密度函数并没有明显的等式关系,所以我们不能直接通过概率密度函数进行转化,而是要通过分布函数中随机变量的等式变换而进行求解。

2.多个随机变量的组合

  1. 随机变量组合的意义

首先,在这个方面我们需要解决的并不是如何求解他们的分布,而是先了解他们组合的数学或者实际意义
事实上我们假设有两个随机变量X跟Y,他们分别代表的实际意义是两个事件的分布情况,两个或多个随机变量相组合,组合后的结果仍然是一个新的分布,这个分布表示这多个随机变量同时发生的分布,至于加减乘除则是有不同的实际意义

  1. 两随机变量组合的和分布

举个简单的例子Z=X+Y,其中X和Y表示两个不同的随机变量分布,他们两相加可以看做是他们重叠的部分相加,不重叠的部分也留下的一个新分布(X 1-5月份赚的钱的分布,Y 2-6月赚的钱的分布 X+Y 则两者一共在1-6月份赚的钱的分布)
计算过程这边简短写一下:(z在这里是一个实数,而不是一个变量)
F Z ( z ) = P ( Z ≤ z ) = P ( X + Y ≤ z ) = ∬ x + y ≤ z f ( x , y ) d x d y = ∫ − ∞ ∞ d y ∫ − ∞ z − y f ( x , y ) d x = ∫ − ∞ ∞ f ( z − y , y ) d y \begin{align} F_Z(z)&=P(Z\leq z) \\ &= P(X+Y \leq z)\\ &=\iint _{x+y\leq z}f(x,y)dx dy\\ &=\int_{-\infty}^{\infty}dy\int_{-\infty}^{z-y}f(x,y)dx\\ &=\int_{-\infty}^{\infty}f(z-y,y)dy \end{align} FZ(z)=P(Zz)=P(X+Yz)=x+yzf(x,y)dxdy=dyzyf(x,y)dx=f(zy,y)dy
至于其他像差分布积分布这里就省略了,其实意义都差不多,只是把其看作一个分布去加减乘除而不是一个值而已。

  1. max{X,Y}分布

这种分布与前面加减乘除的分布不同,他的分布函数则是
F m a x ( z ) = P ( max ⁡ { X , Y } ≤ z ) = P ( X ≤ z , Y ≤ z ) = ∫ − ∞ z f y ( y ) d y ∫ − ∞ z f x ( x ) d x = F Y ( z ) F X ( z ) F_{max}(z)=P(\max\{X,Y\}\leq z)=P(X\leq z,Y\leq z)\\ =\int_{-\infty}^zf_y(y)dy\int_{-\infty}^zf_x(x)dx = F_Y(z)F_X(z) Fmax(z)=P(max{ X,Y}z)=P(Xz,Yz)=zfy(y)dyzfx(x)dx=FY(z)FX(z)

  1. min{X,Y}分布

这种分布与前面max分布很类似,这里就简单描述一下:
F m i n ( z ) = P ( min ⁡ { X , Y } ≤ z ) = P ( X ≤ z ∪ Y ≤ z ) = P ( X ≤ z ) + P ( Y ≤ z ) − P ( X ≤ z , Y ≤ z ) = F Y ( z ) + F X ( z ) − F Y ( z ) F X ( z ) F_{min}(z)=P(\min\{X,Y\}\leq z)=P(X\leq z \cup Y\leq z)\\ =P(X\leq z)+ P(Y\leq z)-P(X\leq z,Y\leq z)\\ = F_Y(z)+F_X(z)-F_Y(z)F_X(z) Fmin(z)=P(min{ X,Y}z)=P(XzYz)=P(Xz)+P(Yz)P(Xz,Yz)=FY(z)+FX(z)FY(z)FX(z)

3.总体与样本,期望与方差

  1. 总体与样本的基本概念

在数理统计里面,数据并不可能是无限多的,这时候就会延伸出总体与样本的概念
事实上,我们规定总体与样本是具有相同概率分布的,并且每个样本之间是相互独立的。
总体X中如果分割成n个样本,则称为容量为n的样本 X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn,然而我们再从这些样本中进行一次抽样n个数值,这就称为一个观测值 x 1 , x 2 . . . x n x_1,x_2...x_n x1,x2...xn
当总体X的分布函数为F(x)时,每一个观测值的概率分布就是 p i = P ( X = x i ) p_i=P(X=x_i) pi=P(X=xi)
而由于是独立同分布,所以联合分布函数为:
F ( x 1 , x 2 , . . . x n ) = ∏ i = 1 n F ( x i ) F(x_1,x_2,...x_n)=\prod_{i=1}^nF(x_i) F(x1,x2,...xn)=i=1nF(xi)

  1. 数学期望

数学期望 E ( X ) = ∑ i = 1 n x i p i = μ ( 是一个值,不是一个分布 ) E(X)=\sum_{i=1}^nx_ip_i=\mu(是一个值,不是一个分布) E(X)=i=1nxipi=μ(是一个值,不是一个分布),当其不收敛时,数学期望将会不存在,并且一般有如下性质:
E ( a X + c ) = a E ( X ) + c E ( X + Y ) = E ( X ) + E ( Y ) E(aX+c)=aE(X)+c\\ E(X+Y)=E(X)+E(Y) E(aX+c)=aE(X)+cE(X+Y)=E(X)+E(Y)
如果X与Y相互独立的话,则有
E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)

  1. 方差与协方差

D ( X ) = E [ ( X − E ( X ) ) 2 ] = E ( X 2 ) − ( E ( X ) ) 2 D(X)=E[(X-E(X))^2]=E(X^2)-(E(X))^2 D(X)=E[(XE(X))2]=E(X2)(E(X))2
当数学期望存在的时候,方差不一定存在,反之亦然,如果想要将一个随机变量标准化可以这样子:
X ∗ = X − E ( X ) D ( X ) X^*=\frac{X-E(X)}{\sqrt{D(X)}} X=D(X) XE(X)
方差有几个常见性质:
D ( a X + b ) = a 2 D ( X ) D ( X + Y ) = D ( X ) + D ( Y ) + 2 C o v ( X , Y ) D(aX+b)=a^2D(X)\\ D(X+Y)=D(X)+D(Y)+2Cov(X,Y) D(aX+b)=a2D(X)D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
如果两个随机变量相互独立,像我们的样本那样的话,还可以进一步写成:
D ( a X + b Y ) = a 2 D ( X ) + b 2 D ( Y ) D(aX+bY)=a^2D(X)+b^2D(Y) D(aX+bY)=a2D(X)+b2D(Y)
协方差 C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E(XY)-E(X)E(Y) Cov(X,Y)=E(XY)E(X)E(Y),并且具有线性型 C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

  1. 样本均值,样本方差,样本矩

这一部分是数理统计的内容,常常与前面我们所讲的数学期望与方差搞混,要注意的是这里的样本均值,样本方差都是一种分布,是贝叶斯学派的内容,而不是前面的一个具体实数值
样本均值: X ‾ = 1 n ∑ i = 1 n X i \overline{X}=\frac{1}{n}\sum_{i=1}^nX_i X=n1i=1nXi
样本方差: S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2 S2=n11i=1n(XiX)2
样本k阶中心矩: B k = 1 n ∑ i = 1 n ( X i − X ‾ ) k ( k = 2 , 3 , . . . ) B_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k(k=2,3,...) Bk=n1i=1n(XiX)k(k=2,3,...)
5. 常用统计量的推导

对于样本 X i X_i Xi而言,它是一个分布,那么在总体 E ( X ) = μ , D ( X ) = δ 2 E(X)=\mu,D(X)=\delta^2 E(X)=μ,D(X)=δ2的前提下,有下面这些定理
E ( X i ) = μ , D ( X i ) = δ 2 E(X_i)=\mu,D(X_i)=\delta^2 E(Xi)=μ,D(Xi)=δ2
E ( X ‾ ) = E [ 1 n ∑ i = 1 n X i ] = 1 n ∑ i = 1 n E [ X i ] = 1 n ∑ i = 1 n μ = μ E(\overline{X})=E[\frac{1}{n}\sum_{i=1}^nX_i]=\frac{1}{n}\sum_{i=1}^nE[X_i]=\frac{1}{n}\sum_{i=1}^n\mu=\mu E(X)=E[n1i=1nXi]=n1i=1nE[Xi]=n1i=1nμ=μ
D ( X ‾ ) = D [ 1 n ∑ i = 1 n X i ] = 1 n 2 ∑ i = 1 n D [ X i ] = 1 n 2 ∑ i = 1 n δ 2 = δ 2 n D(\overline{X})=D[\frac{1}{n}\sum_{i=1}^nX_i]=\frac{1}{n^2}\sum_{i=1}^nD[X_i]=\frac{1}{n^2}\sum_{i=1}^n\delta^2=\frac{\delta^2}{n} D(X)=D[n1i=1nXi]=n21i=1nD[Xi]=n21i=1nδ2=nδ2
E ( S 2 ) = E [ 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 ] = 1 n − 1 E [ ∑ i = 1 n ( X i 2 − 2 X i X ‾ + X ‾ 2 ) ] = 1 n − 1 [ ∑ i = 1 n ( D ( X i ) + E ( X i ) 2 ) − 2 E [ X ‾ ] ∑ i = 1 n E [ X i ] + ∑ i = 1 n E [ X ‾ 2 ] ] = 1 n − 1 [ n ( δ 2 + μ 2 ) − 2 n E [ X ‾ 2 ] + n E [ X ‾ 2 ] ] = 1 n − 1 [ n ( δ 2 + μ 2 ) − n ∗ δ 2 n − n μ 2 ] = δ 2 \begin{align} E(S^2)=&E[\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2]\\ &=\frac{1}{n-1}E[\sum_{i=1}^n(X_i^2-2X_i\overline{X}+\overline{X}^2)]\\ &=\frac{1}{n-1}[\sum_{i=1}^n(D(X_i)+E(X_i)^2)-2E[\overline{X}]\sum_{i=1}^nE[X_i]+\sum_{i=1}^nE[\overline{X}^2]]\nonumber\\ &=\frac{1}{n-1}[n(\delta^2+\mu^2)-2nE[\overline{X}^2]+nE[\overline{X}^2]]\\ &=\frac{1}{n-1}[n(\delta^2+\mu^2)-n*\frac{\delta^2}{n}-n\mu^2]\\ &=\delta^2 \end{align} E(S2)=E[n11i=1n(XiX)2]=n11E[i=1n(Xi22XiX+X2)]=n11[i=1n(D(Xi)+E(Xi)2)2E[X]i=1nE[Xi]+i=1nE[X2]]=n11[n(δ2+μ2)2nE[X2]+nE[X2]]=n11[n(δ2+μ2)nnδ2nμ2]=δ2
可见样本方差的数学期望是总体方差,实现了无偏估计(后面会提及)

4.点估计与估计量的评价标准

  1. 为什么在机器学习里面要采用估计呢?

因为在统计学中,所要观测的数据量往往都比较大,我们不可能将所有数据全部都进行统计,一种可行的方式就是从这些数据量中抽取一部分数据,这时候便用到了估计的知识,用抽取出来的样本的情况来估计总体的情况。

  1. 评价估计量的几个标准

无偏性:如果对于参数 θ \theta θ而言,其估计值 θ ^ \hat{\theta} θ^满足 E ( θ ^ ) = θ E(\hat{\theta})=\theta E(θ^)=θ,则称为该估计是无偏的
有效性:当我们拥有多个无偏估计量时,我们需要选出最合适的一项,那么我们就要计算该无偏数据量的方差,方差越小则有效性越高
一致性:如果对于参数 θ \theta θ而言,其估计值 θ ^ \hat{\theta} θ^满足对任意 ϵ > 0 \epsilon>0 ϵ0都有 lim ⁡ n → ∞ P { ∣ θ ^ − θ ∣ < ϵ } = 1 \lim \limits_{n\rightarrow\infty}P\{|\hat{\theta}-\theta|<\epsilon\}=1 nlimP{ θ^θϵ}=1,则称估计量 θ ^ \hat{\theta} θ^依概率收敛于 θ \theta θ,则说这两者是相合估计

  1. 矩估计

一阶矩用作估计数学期望,二阶矩用于估计方差
优点:在不清楚总体分布具体属于什么分布的情况下,只需要根据均值和方差进行估计即可。
缺点:如果在总体分布已知的情况下,并不能很好的使用对应分布类型的信息,因为矩估计根本就不看重总体分布到底属于那种类型。

  1. 最大似然估计

这个内容比较简单,并且前面机器学习的文章已经多次使用,这里就不作阐述了

二、常见分布,大数定律,中心极限定理

1.常见分布

  1. 0-1分布与二项分布

0-1分布跟二项分布都是有放回抽样,也叫伯努利实验,不需要知道总体数量,或者说总体数量很大的时候使用。
概率分布为 P { X = k } = C n k p k ( 1 − p ) n − k P\{X=k\}=C_n^kp^k(1-p)^{n-k} P{ X=k}=Cnkpk(1p)nk,记作 X ∼ B ( n , p ) X\sim B(n,p) XB(n,p)
其数学期望为np,方差为np(1-p)

  1. 泊松分布

在计算二项分布时,如果参数n很大时,但是我们的p很小时(也就是说有限时间内只发生有限多次,但是极短时间内只发生一次),这种情况发生的次数服从泊松分布
lim ⁡ n → ∞ P { X = k } = lim ⁡ n → ∞ C n k p k ( 1 − p ) n − k = e − λ λ k k ! \lim \limits_{n \rightarrow \infty}P\{X=k\}=\lim \limits_{n \rightarrow \infty} C_n^kp^k(1-p)^{n-k}= \frac{e^{-\lambda}\lambda^k}{k!} nlimP{ X=k}=nlimCnkpk(1p)nk=k!eλλk
其中 lim ⁡ n → ∞ n p n = λ \lim \limits_{n \rightarrow \infty}np_n=\lambda nlimnpn=λ,并且泊松分布的数学期望与方法都是 λ \lambda λ

  1. 超几何分布

超几何分布是无放回抽样,相对来说比较简单。其分布为
P { X = k } = C M k C N − M n − k C N n P\{X=k\}=\frac{C^k_MC_{N-M}^{n-k}}{C_N^n} P{ X=k}=CNnCMkCNMnk
超几何分布的数学期望为 n M N \frac{nM}{N} NnM

  1. 均匀分布

均匀分布比较简单,我们直接给出数学期望 a + b 2 \frac{a+b}{2} 2a+b,方差 ( b − a ) 2 12 \frac{(b-a)^2}{12} 12(ba)2

  1. 指数分布

指数分布是无记忆的,即无论你在哪个时刻开始经历同样的时间其概率都是相等的,数学表达式为 P ( X ≥ t + s ∣ X ≥ s ) = P ( X ≥ t ) P(X\geq t+s|X \geq s)= P(X \geq t) P(Xt+sXs)=P(Xt),其概率密度函数是 f ( x ) = λ e − λ x ( x ≥ 0 ) f(x)=\lambda e^{-\lambda x}(x\geq 0) f(x)=λeλx(x0),其分布函数是 F ( x ) = 1 − e − λ x ( x ≥ 0 ) F(x)=1-e^{-\lambda x}(x \geq 0) F(x)=1eλx(x0)
在解决实际问题的时候,指数分布一般都是认为是稀有事件
数学期望是 1 λ \frac{1}{\lambda} λ1,方差是 1 λ 2 \frac{1}{\lambda^2} λ21

  1. 正态分布

一般的事件我们都可以认为其符合正态分布,正态分布的概率密度函数比较复杂,这里不作介绍,但是介绍一个比较常用的性质
假设 X ∼ N ( μ 1 , δ 1 2 ) , Y ∼ N ( μ 2 , δ 2 2 ) , 那么 X + Y ∼ N ( μ 1 + μ 2 , δ 1 2 + δ 2 2 ) X \sim N(\mu_1,\delta_1^2),Y \sim N(\mu_2,\delta_2^2),那么X+Y \sim N(\mu_1+\mu_2,\delta_1^2+\delta_2^2) XN(μ1,δ12)YN(μ2,δ22),那么X+YN(μ1+μ2,δ12+δ22)正态分布具有可加性,并且相加后的正态分布仍然是正态分布,这在多个随机样本相加时很有用

  1. χ 2 \chi^2 χ2分布

卡方分布引入的原因主要是为了解决事实与期望不符合的情况,利用卡方分布分析结果,排除可疑结果。
满足卡方分布的条件:如果随机变量 X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn相互独立,并且都服从标准正态分布,那么我们可以称 X = ∑ i = 1 n X i 2 X=\sum_{i=1}^n X_i^2 X=i=1nXi2服从自由度为n的卡方分布
自由度指的和式中独立变量的个数
卡方分布常用性质:
X 1 ∼ χ 2 ( n 1 ) , X 2 ∼ χ 2 ( n 2 ) X_1 \sim \chi^2(n_1),X_2 \sim \chi^2(n_2) X1χ2(n1),X2χ2(n2),两个随机变量相互独立,则有 X 1 + X 2 ∼ χ 2 ( n 1 + n 2 ) X_1+X_2 \sim \chi^2(n_1+n_2) X1+X2χ2(n1+n2)
卡方分布的数学期望是n,方差是2n

常见的卡方分布有:
1 δ 2 ∑ i = 1 n ( X i − μ ) 2 ∼ χ 2 ( n ) \frac{1}{\delta^2}\sum_{i=1}^n(X_i-\mu)^2 \sim \chi^2(n) δ21i=1n(Xiμ)2χ2(n)
( n − 1 ) S 2 δ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\delta^2}\sim \chi^2(n-1) δ2(n1)S2χ2(n1)
8. t分布

t分布主要用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。
t分布的定义是:随机变量 X ∼ N ( 0 , 1 ) , Y ∼ χ 2 ( n ) X \sim N(0,1),Y \sim \chi^2(n) XN(0,1),Yχ2(n),X与Y相互独立,则称随机变量 t = X Y N t=\frac{X}{\sqrt{\frac{Y}{N}}} t=NY X服从自由度为n的t分布。
t分布关于y轴轴对称,与正态分布的性质十分相像。

  1. F分布

F分布的用途:用于方差分析、协方差 分析和回归分析等,是一种非对称分布,且位置不可互换
F分布的定义是: X ∼ χ 2 ( n 1 ) , Y ∼ χ 2 ( n 2 ) X \sim \chi^2(n_1),Y \sim \chi^2(n_2) Xχ2(n1),Yχ2(n2),X与Y相互独立,则 F = X / n 1 Y / n 2 F=\frac{X/n_1}{Y/n_2} F=Y/n2X/n1服从自由度为(n_1,n_2)的F分布

2.大数定律

  1. 切比雪夫不等式

假设随机变量X的期望E(X)与方差D(X)都存在,那么我们不假思索地给出下列不等式
P { ∣ X − E ( X ) ∣ ≥ ϵ } ≤ D ( X ) ϵ 2 P\{|X-E(X)|\geq\epsilon\}\leq\frac{D(X)}{\epsilon^2} P{ XE(X)ϵ}ϵ2D(X)
我们可以 看到切比雪夫不等式里面当方差越小的时候,随机变量与期望的偏离程度就越小

  1. 切比雪夫大数定律

该大数定律的存在条件是序列 { X n } \{X_n\} { Xn}是独立序列,并且方差D(X)要存在并且一致还存在上界,那么服从以下大数定律:
1 n ∑ i = 1 n X i → P 1 n ∑ i = 1 n E [ X i ] \frac{1}{n}\sum_{i=1}^nX_i \xrightarrow{P}\frac{1}{n}\sum_{i=1}^nE[X_i] n1i=1nXiP n1i=1nE[Xi]
切比雪夫大数定理的意义在于要测算众随机变量的数学期望值的期望值,切比雪夫大数定律即可以样本均值近似取代。

  1. 伯努利大数定律

假设 μ n \mu_n μn是n重伯努利实验中A发生的次数,每次实验中A发生的概率为p,则有 μ n n → P p \frac{\mu_n}{n}\xrightarrow{P}p nμnP p
即当取样次数很大的时候,伯努利实验的频率将会趋向于概率

  1. 辛钦大数定律

前提是 { X n } \{X_n\} { Xn}是独立同分布的序列,当其期望存在的时候并等于 μ \mu μ,将会有

1 n ∑ i = 1 n X i → P μ \frac{1}{n}\sum_{i=1}^nX_i \xrightarrow{P}\mu n1i=1nXiP μ
即当样本数量足够多时,可以利用样本均值去近似总体的数学期望

3.中心极限定理

  1. 中心极限定理的作用

中心极限定理是研究独立随机变量和的极限分布为正态分布的问题,是为了将独立的随机变量转化为正态分布问题,便于解决问题

  1. 林德伯格列维定理

前提是 { X n } \{X_n\} { Xn}是独立同分布的序列,当其期望 E ( X l ) = μ E(X_l)=\mu E(Xl)=μ,方差 D ( X l ) = δ 2 D(X_l)=\delta^2 D(Xl)=δ2将会有
lim ⁡ n → ∞ P { ∑ i = 1 n X i − n μ n δ ≤ x } = Φ ( x ) \lim \limits_{n\rightarrow\infty}P\{\frac{\sum_{i=1}^nX_i -n\mu}{\sqrt n\delta}\leq x\}= \Phi(x) nlimP{ n δi=1nXinμx}=Φ(x)

  1. 棣莫弗—拉普拉斯定理

前提是 { Y n } \{Y_n\} { Yn}是满足二项分布的序列,当其期望 Y ∼ ( n , p ) Y \sim (n,p) Y(n,p),将会有:
lim ⁡ n → ∞ P { Y n − n p n p ( 1 − p ) ≤ x } = Φ ( x ) \lim \limits_{n\rightarrow\infty}P\{\frac{Y_n -np}{\sqrt {np(1-p)}}\leq x\}= \Phi(x) nlimP{ np(1p) Ynnpx}=Φ(x)

猜你喜欢

转载自blog.csdn.net/AliForever2020/article/details/127024221