UA MATH563 概率论的数学基础 中心极限定理24 随机变量的特征函数
定义 假设 X X X是定义在 ( Ω , F , P ) (\Omega,\mathcal{F},P) (Ω,F,P)上的随机变量,定义
ϕ ( t ) = E [ e i t X ] \phi(t) = E[e^{itX}] ϕ(t)=E[eitX]
为 X X X的特征函数(characteristic function)。
说明
记 μ X \mu_X μX为 X X X的分布,则 ϕ ( t ) = E [ e i t X ] = ∫ e i t X d μ X \phi(t) = E[e^{itX}] = \int e^{itX}d\mu_X ϕ(t)=E[eitX]=∫eitXdμX
也就是说 ϕ ( t ) \phi(t) ϕ(t)其实是 μ X \mu_X μX的Fourier变换,因此任意随机变量的特征函数总是存在的。我们可以将特征函数与矩母函数(moment generating function,也就是 μ X \mu_X μX的Laplace变换)做个对比,
M X ( t ) = E [ e t X ] M_X(t) = E[e^{tX}] MX(t)=E[etX]
被称为矩母函数,当且仅当 E [ e t X ] < ∞ E[e^{tX}]<\infty E[etX]<∞时,矩母函数存在。而 ∣ e i t X ∣ ≤ 1 |e^{itX}| \le 1 ∣eitX∣≤1,因此 E [ e i t X ] E[e^{itX}] E[eitX]必定存在。
常用分布的特征函数
- 正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2): ϕ ( t ) = exp ( i t μ − σ 2 t 2 2 ) \phi(t)=\exp(it\mu-\frac{\sigma^2t^2}{2}) ϕ(t)=exp(itμ−2σ2t2)
- Gamma分布 Γ ( α , β ) \Gamma(\alpha,\beta) Γ(α,β): ϕ ( t ) = ( 1 − i t β ) − α \phi(t)=(1-\frac{it}{\beta})^{-\alpha} ϕ(t)=(1−βit)−α
- 二项分布 B ( n , p ) B(n,p) B(n,p): ϕ ( t ) = ( 1 − p + p e i t ) n \phi(t)=(1-p+pe^{it})^n ϕ(t)=(1−p+peit)n
- Poisson分布 π ( λ ) \pi(\lambda) π(λ): ϕ ( t ) = exp ( λ ( e i t − 1 ) ) \phi(t)=\exp(\lambda (e^{it}-1)) ϕ(t)=exp(λ(eit−1))
- 负二项分布 N B ( r , p ) NB(r,p) NB(r,p): ϕ ( t ) = ( p 1 − ( 1 − p ) e i t ) r \phi(t)=(\frac{p}{1-(1-p)e^{it}})^r ϕ(t)=(1−(1−p)eitp)r
特征函数的简单计算性质
- ϕ ( 0 ) = 1 \phi(0)=1 ϕ(0)=1
- ϕ ( t ) = ϕ ( − t ) ‾ \phi(t)=\overline{\phi(-t)} ϕ(t)=ϕ(−t) (共轭),如果 X X X对称,则 ϕ X ( t ) \phi_X(t) ϕX(t)是实函数
- ∣ ϕ ( t ) ∣ ≤ 1 |\phi(t)| \le 1 ∣ϕ(t)∣≤1
- ϕ ( t ) \phi(t) ϕ(t)一致收敛,因为 ∣ ϕ ( t + h ) − ϕ ( t ) ∣ = ∣ E ( e i t ( X + h ) − e i t X ) ∣ ≤ E ∣ e i t ( X + h ) − e i t X ∣ = E ∣ e i t X ∣ ∣ e i h X − 1 ∣ ≤ E ∣ e i h X − 1 ∣ |\phi(t+h)-\phi(t)|=|E(e^{it(X+h)}-e^{itX})| \le E|e^{it(X+h)}-e^{itX}|=E|e^{itX}||e^{ihX}-1| \le E|e^{ihX}-1| ∣ϕ(t+h)−ϕ(t)∣=∣E(eit(X+h)−eitX)∣≤E∣eit(X+h)−eitX∣=E∣eitX∣∣eihX−1∣≤E∣eihX−1∣,根据有界收敛定理, h → 0 h \to 0 h→0, E ∣ e i h X − 1 ∣ → 0 E|e^{ihX}-1| \to 0 E∣eihX−1∣→0
- ϕ a X + b ( t ) = e i t b ϕ X ( a t ) \phi_{aX+b}(t)=e^{itb}\phi_X(at) ϕaX+b(t)=eitbϕX(at)
- 假设 X 1 + X 2 X_1+X_2 X1+X2独立,则 ϕ X 1 + X 2 ( t ) = ϕ X 1 ( t ) ϕ X 2 ( t ) \phi_{X_1+X_2}(t)=\phi_{X_1}(t)\phi_{X_2}(t) ϕX1+X2(t)=ϕX1(t)ϕX2(t)
特征函数的分析性质: 特征函数与分布一一对应
证明
第一条。假设 F 1 , F 2 F_1,F_2 F1,F2是两个分布,并且它们有相同的特征函数 ϕ \phi ϕ,我们需要说明 F 1 = F 2 F_1=F_2 F1=F2。假设 X ∼ F 1 , Y ∼ F 2 X \sim F_1,Y \sim F_2 X∼F1,Y∼F2,引入 Z ∼ N ( 0 , σ 2 ) Z \sim N(0,\sigma^2) Z∼N(0,σ2),其中 σ \sigma σ是一个非常小的数。
在第六讲时我们介绍过一个技巧,在对实际问题进行建模时,我们常常需要用随机变量,记为 X X X,描述一些复杂的随机性,这样的随机变量通常是没有办法写出密度函数的解析式的,但是我们可以加上一个非常“小”的正态分布 Y ∼ N ( 0 , ϵ 2 ) Y \sim N(0,\epsilon^2) Y∼N(0,ϵ2),使得 X + Y X+Y X+Y有密度函数的解析式。这里用的就是这个思路,因为我们没有对 F 1 , F 2 F_1,F_2 F1,F2做任何假设,为了让它们解析性质更好一些,便于我们分析,就让他们对一个正态分布做卷积。
定义
G 1 = F 1 ∗ F Z = ∫ F 1 ( z − y ) d F Z ( y ) G 2 = F 2 ∗ F Z = ∫ F 2 ( z − y ) d F Z ( y ) G_1 = F_1 *F_Z = \int F_1(z-y)dF_Z(y) \\ G_2 = F_2*F_Z = \int F_2(z-y)dF_Z(y) G1=F1∗FZ=∫F1(z−y)dFZ(y)G2=F2∗FZ=∫F2(z−y)dFZ(y)
根据Fourier变换的反演公式,
g 1 = ∫ f Z ( z − y ) d F 1 ( y ) = 1 2 π ∫ ϕ ( t ) e − i t x e − t 2 σ 2 2 d t g 2 = ∫ f Z ( z − y ) d F 2 ( y ) = 1 2 π ∫ ϕ ( t ) e − i t x e − t 2 σ 2 2 d t g_1 = \int f_Z(z-y)dF_1(y)=\frac{1}{2\pi}\int \phi(t)e^{-itx}e^{-\frac{t^2\sigma^2}{2}}dt \\ g_2= \int f_Z(z-y)dF_2(y)=\frac{1}{2\pi}\int \phi(t)e^{-itx}e^{-\frac{t^2\sigma^2}{2}}dt g1=∫fZ(z−y)dF1(y)=2π1∫ϕ(t)e−itxe−2t2σ2dtg2=∫fZ(z−y)dF2(y)=2π1∫ϕ(t)e−itxe−2t2σ2dt
于是 g 1 = g 2 g_1=g_2 g1=g2,进一步,根据分布与密度的对应关系 G 1 = G 2 G_1=G_2 G1=G2,因为
G 1 ( x ) = E [ F 1 ( x − Z ) ] , G 2 ( x ) = E [ F 2 ( x − Z ) ] G_1(x) = E[F_1(x-Z)],G_2(x) = E[F_2(x-Z)] G1(x)=E[F1(x−Z)],G2(x)=E[F2(x−Z)]
我们考虑 σ 2 ↓ 0 \sigma^2 \downarrow 0 σ2↓0,则 N ( 0 , σ 2 ) → δ 0 N(0,\sigma^2) \to \delta_0 N(0,σ2)→δ0,于是
E [ F 1 ( x − Z ) ] = F 1 ( x ) + E [ F 1 ( x − Z ) − F 1 ( x ) ] E[F_1(x-Z)] = F_1(x)+E[F_1(x-Z)-F_1(x)] E[F1(x−Z)]=F1(x)+E[F1(x−Z)−F1(x)]
考虑 E [ F 1 ( x − Z ) − F 1 ( x ) ] E[F_1(x-Z)-F_1(x)] E[F1(x−Z)−F1(x)],我们用truncation trick计算
E [ F 1 ( x − Z ) − F 1 ( x ) ] = E [ F 1 ( x − Z ) − F 1 ( x ) , ∣ Z ∣ ≤ ϵ ] + E [ F 1 ( x − Z ) − F 1 ( x ) , ∣ Z ∣ > ϵ ] E[F_1(x-Z)-F_1(x)] = E[F_1(x-Z)-F_1(x),|Z|\le \epsilon] \\+ E[F_1(x-Z)-F_1(x),|Z|> \epsilon] E[F1(x−Z)−F1(x)]=E[F1(x−Z)−F1(x),∣Z∣≤ϵ]+E[F1(x−Z)−F1(x),∣Z∣>ϵ]
根据右连续性, E [ F 1 ( x − Z ) − F 1 ( x ) , ∣ Z ∣ ≤ ϵ ] → 0 E[F_1(x-Z)-F_1(x),|Z|\le \epsilon] \to 0 E[F1(x−Z)−F1(x),∣Z∣≤ϵ]→0,
E [ F 1 ( x − Z ) − F 1 ( x ) , ∣ Z ∣ > ϵ ] ≤ 2 P ( ∣ Z ∣ > ϵ ) = 0 E[F_1(x-Z)-F_1(x),|Z|> \epsilon] \le 2P(|Z|>\epsilon) = 0 E[F1(x−Z)−F1(x),∣Z∣>ϵ]≤2P(∣Z∣>ϵ)=0
因为 Z → δ 0 Z \to \delta_0 Z→δ0,于是
F 1 ( x ) = E [ F 1 ( x − Z ) ] = E [ F 2 ( x − Z ) ] = F 2 ( x ) F_1(x)=E[F_1(x-Z)] = E[F_2(x-Z)] = F_2(x) F1(x)=E[F1(x−Z)]=E[F2(x−Z)]=F2(x)