UA MATH564 概率分布1 二项分布下

UA MATH564 概率分布1 二项分布下

这一篇考虑二项分布的一些近似计算问题,考虑 X B i n o m ( n , p ) X \sim Binom(n,p)
P ( X = k ) = C n k p k ( 1 p ) n k , k = 0 , 1 , , n P(X = k) = C_n^k p^k(1-p)^{n-k},k=0,1,\cdots,n
最主要的计算问题是在计算组合数的时候
C n k = n ! ( n k ) ! k ! C_n^k = \frac{n!}{(n-k)!k!}
一般会根据这个公式按阶乘来计算,但阶乘的增长是很快的,数字比较大的时候通过阶乘计算组合数精度不理想。

de Moivre-Laplace定理

如果 n , k , n k n,k,n-k 都比较大,就可以用Stirling公式近似计算阶乘:
n ! 2 π n n + 1 / 2 e n C n k 2 π n n + 1 / 2 e n ( 2 π ( n k ) n k + 1 / 2 e n + k ) ( 2 π k k + 1 / 2 e k ) = 1 2 π n ( n n k ) n k + 1 / 2 ( n k ) k + 1 / 2 n! \approx \sqrt{2\pi}n^{n+1/2}e^{-n}\\ C_n^k\approx \frac{\sqrt{2\pi}n^{n+1/2}e^{-n}}{(\sqrt{2\pi}(n-k)^{n-k+1/2}e^{-n+k})(\sqrt{2\pi}k^{k+1/2}e^{-k})} \\= \frac{1}{\sqrt{2\pi n}} \left( \frac{n}{n-k} \right)^{n-k+1/2} \left( \frac{n}{k} \right)^{k+1/2}
将这个组合数的近似公式带入二项分布的概率中
P ( X = k ) = 1 2 π n p ( 1 p ) ( n ( 1 p ) n k ) n k + 1 / 2 ( n p k ) k + 1 / 2 P(X=k) = \frac{1}{\sqrt{2\pi np(1-p)}} \left( \frac{n(1-p)}{n-k} \right)^{n-k+1/2} \left( \frac{np}{k} \right)^{k+1/2}
这个形式的好处是避开了大整数的阶乘运算。接下来我们进一步做点推导,看看有没有更简单的形式。考虑
ln ( n p k ) k + 1 / 2 = ( k + 1 / 2 ) ln k n p \ln \left( \frac{np}{k}\right)^{k+1/2} = -(k+1/2)\ln \frac{k}{np}
x k = k n p n p ( 1 p ) ,   k = n p + x k n p ( 1 p ) ln ( n p k ) k + 1 / 2 = ( n p + x k n p ( 1 p ) + 1 / 2 ) ln ( 1 + x k ( 1 p ) n p ( 1 p ) ) x_k = \frac{k-np}{\sqrt{np(1-p)}},\ k=np + x_k\sqrt{np(1-p)} \\ \ln \left( \frac{np}{k}\right)^{k+1/2}=-(np + x_k\sqrt{np(1-p)}+1/2)\ln \left( 1+\frac{x_k(1-p)}{\sqrt{np(1-p)}}\right)
取Taylor展开的前两项做近似
ln ( 1 + x k ( 1 p ) n p ( 1 p ) ) x k ( 1 p ) n p ( 1 p ) ( x k ( 1 p ) n p ( 1 p ) ) 2 \ln \left( 1+\frac{x_k(1-p)}{\sqrt{np(1-p)}}\right) \approx \frac{x_k(1-p)}{\sqrt{np(1-p)}}-\left( \frac{x_k(1-p)}{\sqrt{np(1-p)}}\right)^2
回带化简得
ln ( n p k ) k + 1 / 2 x k n p ( 1 p ) 1 2 ( 1 p ) x k 2 ( n p k ) k + 1 / 2 = exp ( x k n p ( 1 p ) 1 p 2 x k 2 ) \ln \left( \frac{np}{k}\right)^{k+1/2} \approx -x_k\sqrt{np(1-p)}-\frac{1}{2}(1-p)x_k^2 \\ \left( \frac{np}{k}\right)^{k+1/2} = \exp \left( -x_k\sqrt{np(1-p)} -\frac{1-p}{2}x_k^2\right)
类似地
( n ( 1 p ) n k ) n k + 1 / 2 = exp ( x k n p ( 1 p ) p 2 x k 2 ) \left( \frac{n(1-p)}{n-k}\right)^{n-k+1/2} = \exp \left( x_k\sqrt{np(1-p)} -\frac{p}{2}x_k^2\right)
因此
P ( X = k ) = 1 2 π n p ( 1 p ) exp ( x k 2 2 ) = ϕ ( x k ) n p ( 1 p ) P(X=k) = \frac{1}{\sqrt{2\pi np(1-p)}} \exp\left( -\frac{x_k^2}{2}\right)=\frac{\phi(x_k)}{\sqrt{np(1-p)}}
其中 ϕ ( x ) \phi(x) 是标准正态分布的密度函数,这个结论也叫做de Moivre-Laplace定理,它给出了用正态分布近似二项分布的计算方法,同时指出二项分布的极限分布是正态分布。进一步实际上de Moivre-Laplace定理是中心极限定理的特例,观察 x k x_k 的构造
x k = k n p n p ( 1 p ) x_k = \frac{k-np}{\sqrt{np(1-p)}}
也就是
P ( X = k ) = 1 2 π n p ( 1 p ) exp ( ( k n p ) 2 2 n p ( 1 p ) ) P(X=k)=\frac{1}{\sqrt{2\pi np(1-p)}} \exp\left( -\frac{(k-np)^2}{2np(1-p)}\right)
这正是 N ( n p , n p ( 1 p ) ) N(np,np(1-p)) 的密度函数。

Poisson分布近似二项分布

在de Moivre-Laplace定理的推导中,取Taylor展开前两项做近似要求 x k ( 1 p ) n p ( 1 p ) \frac{x_k(1-p)}{\sqrt{np(1-p)}} 是一个比较小的数,这就需要 p p 不能很小,当 p p 是一个比较小的值时,基于de Moivre-Laplace定理的近似计算误差就会比较大。当 p p 比较小时,定义 λ = n p \lambda = np ,则
P ( X = k ) = C n k p k ( 1 p ) n k = n ( n 1 ) ( n k + 1 ) k ! ( λ n ) k ( 1 λ n ) n k = λ k k ! ( 1 λ n ) n k n ( n 1 ) ( n k + 1 ) n k λ k k ! e λ P(X = k) = C_n^k p^k(1-p)^{n-k} = \frac{n(n-1)\cdots(n-k+1)}{k!} \left(\frac{\lambda}{n}\right)^k \left( 1-\frac{\lambda}{n} \right)^{n-k} \\ = \frac{\lambda^k}{k!} \left( 1-\frac{\lambda}{n} \right)^{n-k}\frac{n(n-1)\cdots(n-k+1)}{n^k} \to \frac{\lambda^k}{k!}e^{-\lambda}
p p 足够小, n n 足够大时成立,此时二项分布被近似为Poisson分布。

因此二项分布有两种可能的极限分布,当 n , k , n k n,k,n-k 都比较大,并且 p p 不小的时候,可以用de Moivre-Laplace定理将二项分布近似为正态分布;当 n n 比较大, p p 比较小时,可以将二项分布近似为Poisson分布。

猜你喜欢

转载自blog.csdn.net/weixin_44207974/article/details/106486016