这一篇考虑二项分布的一些近似计算问题,考虑
X∼Binom(n,p),
P(X=k)=Cnkpk(1−p)n−k,k=0,1,⋯,n
最主要的计算问题是在计算组合数的时候
Cnk=(n−k)!k!n!
一般会根据这个公式按阶乘来计算,但阶乘的增长是很快的,数字比较大的时候通过阶乘计算组合数精度不理想。
de Moivre-Laplace定理
如果
n,k,n−k都比较大,就可以用Stirling公式近似计算阶乘:
n!≈2π
nn+1/2e−nCnk≈(2π
(n−k)n−k+1/2e−n+k)(2π
kk+1/2e−k)2π
nn+1/2e−n=2πn
1(n−kn)n−k+1/2(kn)k+1/2
将这个组合数的近似公式带入二项分布的概率中
P(X=k)=2πnp(1−p)
1(n−kn(1−p))n−k+1/2(knp)k+1/2
这个形式的好处是避开了大整数的阶乘运算。接下来我们进一步做点推导,看看有没有更简单的形式。考虑
ln(knp)k+1/2=−(k+1/2)lnnpk
记
xk=np(1−p)
k−np, k=np+xknp(1−p)
ln(knp)k+1/2=−(np+xknp(1−p)
+1/2)ln(1+np(1−p)
xk(1−p))
取Taylor展开的前两项做近似
ln(1+np(1−p)
xk(1−p))≈np(1−p)
xk(1−p)−(np(1−p)
xk(1−p))2
回带化简得
ln(knp)k+1/2≈−xknp(1−p)
−21(1−p)xk2(knp)k+1/2=exp(−xknp(1−p)
−21−pxk2)
类似地
(n−kn(1−p))n−k+1/2=exp(xknp(1−p)
−2pxk2)
因此
P(X=k)=2πnp(1−p)
1exp(−2xk2)=np(1−p)
ϕ(xk)
其中
ϕ(x)是标准正态分布的密度函数,这个结论也叫做de Moivre-Laplace定理,它给出了用正态分布近似二项分布的计算方法,同时指出二项分布的极限分布是正态分布。进一步实际上de Moivre-Laplace定理是中心极限定理的特例,观察
xk的构造
xk=np(1−p)
k−np
也就是
P(X=k)=2πnp(1−p)
1exp(−2np(1−p)(k−np)2)
这正是
N(np,np(1−p))的密度函数。
Poisson分布近似二项分布
在de Moivre-Laplace定理的推导中,取Taylor展开前两项做近似要求
np(1−p)
xk(1−p)是一个比较小的数,这就需要
p不能很小,当
p是一个比较小的值时,基于de Moivre-Laplace定理的近似计算误差就会比较大。当
p比较小时,定义
λ=np,则
P(X=k)=Cnkpk(1−p)n−k=k!n(n−1)⋯(n−k+1)(nλ)k(1−nλ)n−k=k!λk(1−nλ)n−knkn(n−1)⋯(n−k+1)→k!λke−λ
当
p足够小,
n足够大时成立,此时二项分布被近似为Poisson分布。
因此二项分布有两种可能的极限分布,当
n,k,n−k都比较大,并且
p不小的时候,可以用de Moivre-Laplace定理将二项分布近似为正态分布;当
n比较大,
p比较小时,可以将二项分布近似为Poisson分布。