Fisher信息量

1 Fisher信息量定义

Fisher信息是一种测量可观测随机变量 X X X携带的未知参数 θ \theta θ的信息量的方法,其中 X X X的概率依赖于参数 θ θ θ。令 f ( X ; θ ) f(X;\theta) f(X;θ)是一个参数为 θ \theta θ的随机变量 X X X的概率密度函数。如果 f f f随着 θ \theta θ的变化出现陡峭的峰谷,则说明从数据中得到了 θ \theta θ正确的值,换句话说数据 X X X提供了关于参数 θ \theta θ很多的信息。如果 f f f随着 θ \theta θ的变化是比较平缓的,则需要对 X X X进行更多的采样进而估计参数 θ \theta θ
形式上,关于似然函数自然对数 θ \theta θ的偏导数称为分数,即为 S = ∂ ∂ θ log ⁡ f ( X ; θ ) S=\frac{\partial }{\partial \theta}\log f(X;\theta) S=θlogf(X;θ)。在某些规则性条件下,如果 θ \theta θ是真参数(即为 X X X实际分布 f ( X ; θ ) f(X;\theta) f(X;θ),则在真参数值 θ \theta θ处评估的分数的期望值为0,具体推导如下所示 E [ ∂ ∂ θ log ⁡ f ( X ; θ ) ∣ θ ] = ∫ R ∂ ∂ θ f ( x ; θ ) f ( x ; θ ) f ( x ; θ ) d x = ∂ ∂ θ ∫ R f ( x ; θ ) d x = ∂ ∂ θ 1 = 0 \begin{aligned}&\mathbb{E}\left[\left.\frac{\partial }{\partial \theta}\log f(X;\theta)\right|\theta\right]\\=&\int_{\mathbb{R}}\frac{\frac{\partial}{\partial \theta}f(x;\theta)}{f(x;\theta)}f(x;\theta)dx\\=&\frac{\partial}{\partial \theta}\int_\mathbb{R}f(x;\theta)dx\\=&\frac{\partial}{\partial \theta}1=0\end{aligned} ===E[θlogf(X;θ)θ]Rf(x;θ)θf(x;θ)f(x;θ)dxθRf(x;θ)dxθ1=0Fisher信息量则被定义为分数 S S S的方差,具体公式如下所示
I ( θ ) = [ ( ∂ ∂ θ log ⁡ f ( X ; θ ) ) 2 ∣ θ ] = ∫ R ( ∂ ∂ θ log ⁡ f ( x ; θ ) ) 2 f ( x ; θ ) d x \mathcal{I}(\theta)=\left[\left.\left(\frac{\partial}{\partial \theta}\log f(X;\theta)\right)^2\right|\theta\right]=\int_{\mathbb{R}}\left(\frac{\partial}{\partial \theta}\log f(x;\theta)\right)^2 f(x;\theta)dx I(θ)=[(θlogf(X;θ))2θ]=R(θlogf(x;θ))2f(x;θ)dx由上公式可以发现 I ( θ ) ≥ 0 \mathcal{I}(\theta)\ge 0 I(θ)0。携带高Fisher信息的随机变量意味着分数的绝对值通常很高。Fisher信息不是特定观测值的函数,因为随机变量 X X X已被平均化。如果 f ( x ; θ ) f(x;\theta) f(x;θ)关于 θ \theta θ是二次可微的,则此时Fisher信息量可以写为如下公式 I ( θ ) = − E [ ∂ 2 ∂ θ 2 log ⁡ f ( X ; θ ) ∣ θ ] \mathcal{I}(\theta)=-\mathbb{E}\left[\left.\frac{\partial^2}{\partial \theta^2}\log f(X;\theta)\right|\theta\right] I(θ)=E[θ22logf(X;θ)θ]因为
∂ 2 ∂ θ 2 log ⁡ f ( X ; θ ) = ∂ 2 ∂ θ 2 f ( X ; θ ) f ( X ; θ ) − ( ∂ ∂ θ f ( X ; θ ) f ( X ; θ ) ) 2 = ∂ 2 ∂ θ 2 f ( X ; θ ) f ( X ; θ ) − ( ∂ ∂ θ f ( X ; θ ) ) 2 \frac{\partial^2}{\partial \theta^2} \log f(X;\theta)=\frac{\frac{\partial^2}{\partial\theta^2}f(X;\theta)}{f(X;\theta)}-\left(\frac{\frac{\partial}{\partial \theta}f(X;\theta)}{f(X;\theta)}\right)^2=\frac{\frac{\partial^2}{\partial \theta^2}f(X;\theta)}{f(X;\theta)}-\left(\frac{\partial}{\partial \theta}f(X;\theta)\right)^2 θ22logf(X;θ)=f(X;θ)θ22f(X;θ)(f(X;θ)θf(X;θ))2=f(X;θ)θ22f(X;θ)(θf(X;θ))2又因为
E [ ∂ 2 ∂ θ 2 f ( X ; θ ) f ( X ; θ ) ∣ θ ] = ∂ 2 ∂ θ 2 ∫ R f ( x ; θ ) d x = 0 \mathbb{E}\left[\left.\frac{\frac{\partial^2}{\partial \theta^2}f(X;\theta)}{f(X; \theta)}\right|\theta\right]=\frac{\partial^2}{\partial \theta^2}\int_\mathbb{R} f(x;\theta)dx=0 E[f(X;θ)θ22f(X;θ)θ]=θ22Rf(x;θ)dx=0综合以上两公式可以推导出Fisher信息量的新形式,证毕。

2 Cramer–Rao界推导

Cramer-Rao界指出,Fisher信息量的逆是 θ \theta θ的任何无偏估计量方差的下界。考虑一个 θ \theta θ的无偏估计 θ ^ ( X ) \hat{\theta}(X) θ^(X),无偏估计的数学形式可以表示为 E [ θ ^ ( X ) − θ ∣ θ ] = ∫ ( θ ^ ( x ) − θ ) f ( x ; θ ) d x = 0 \mathbb{E}\left[\left.\hat{\theta}(X)-\theta\right|\theta\right]=\int\left(\hat{\theta}(x)-\theta\right)f(x;\theta)dx=0 E[θ^(X)θθ]=(θ^(x)θ)f(x;θ)dx=0因为这个表达式与 θ \theta θ无关,所以它对 θ \theta θ的偏导数也必须为 0 0 0。根据乘积法则,这个偏导数也等于 0 = ∂ ∂ θ ∫ ( θ ^ ( x ) − θ ) f ( x ; θ ) d x = ∫ ( θ ^ ( x ) − θ ) ∂ f ∂ θ d x − ∫ f d x 0=\frac{\partial}{\partial \theta}\int \left(\hat{\theta}(x)-\theta\right)f(x;\theta)dx=\int\left(\hat{\theta}(x)-\theta\right)\frac{\partial f}{\partial \theta}dx-\int f dx 0=θ(θ^(x)θ)f(x;θ)dx=(θ^(x)θ)θfdxfdx对于每个 θ \theta θ,似然函数是一个概率密度函数,因此 ∫ f d x = 1 \int fdx=1 fdx=1,进而则有 ∂ f ∂ θ = f ∂ log ⁡ f ∂ θ \frac{\partial f}{\partial \theta}=f \frac{\partial \log f}{\partial \theta} θf=fθlogf根据以上两个条件,可以得到 ∫ ( θ ^ − θ ) f ∂ log ⁡ f ∂ θ d x = 1 \int\left(\hat{\theta}-\theta\right)f\frac{\partial \log f}{\partial \theta}dx =1 (θ^θ)fθlogfdx=1然后将将被积函数分解为 ∫ ( ( θ ^ − θ ) f ) ( f ∂ log ⁡ f ∂ θ ) d x = 1 \int \left(\left(\hat{\theta}-\theta\right)\sqrt{f}\right)\left(\sqrt{f}\frac{\partial \log f}{\partial \theta}\right)dx=1 ((θ^θ)f )(f θlogf)dx=1将积分中的表达式进行平方,再根据Cauchy–Schwarz不等式可得 1 = ( ∫ [ ( θ ^ − θ ) f ] ⋅ [ f ∂ log ⁡ f ∂ θ ] d x ) 2 ≤ [ ∫ ( θ ^ − θ ) 2 f d x ] ⋅ [ ∫ ( ∂ log ⁡ f ∂ θ ) 2 f d x ] 1=\left(\int \left[\left(\hat{\theta}-\theta\right)\sqrt{f}\right]\cdot\left[\sqrt{f}\frac{\partial \log f}{\partial \theta}\right]dx\right)^2\le \left[\int \left(\hat{\theta}-\theta\right)^2 fdx\right]\cdot \left[\int \left(\frac{\partial \log f}{\partial \theta}\right)^2fdx\right] 1=([(θ^θ)f ][f θlogf]dx)2[(θ^θ)2fdx][(θlogf)2fdx]其中第二个括号内的因子被定义为Fisher信息量,而第一个括号内的因子是估计量 θ ^ \hat{\theta} θ^的期望均方误差,进而则有 V a r ( θ ^ ) ≥ 1 I ( θ ) \mathrm{Var}(\hat{\theta})\ge \frac{1}{\mathcal{I}(\theta)} Var(θ^)I(θ)1由上公式可以发现估计 θ \theta θ的精度基本上受到似然函数的Fisher信息量的限制。

3 矩阵形式

给定一个 N × 1 N\times 1 N×1的参数向量 θ = [ θ 1 , θ 2 , ⋯   , θ N ] ⊤ \theta=[\theta_1,\theta_2,\cdots,\theta_N]^{\top} θ=[θ1,θ2,,θN],此时Fisher信息量可以表示为一个 N × N N\times N N×N的矩阵。这个矩阵被称为Fisher信息矩阵,具体形式如下所示
[ I ( θ ) ] i , j = E [ ( ∂ ∂ θ i log ⁡ f ( X ; θ ) ) ( ∂ ∂ θ j log ⁡ f ( X ; θ ) ) ∣ θ ] [\mathcal{I}(\theta)]_{i,j}=\mathbb{E}\left[\left.\left(\frac{\partial}{\partial \theta_i}\log f(X;\theta)\right)\left(\frac{\partial}{\partial\theta_j}\log f(X;\theta)\right)\right|\theta\right] [I(θ)]i,j=E[(θilogf(X;θ))(θjlogf(X;θ))θ]Fisher信息矩阵是一个 N × N N\times N N×N的半正定矩阵。在某些正则条件下,Fisher信息矩阵又可以写成如下形式
[ I ( θ ) ] i , j = − E [ ∂ 2 ∂ θ i ∂ θ j log ⁡ f ( X ; θ ) ∣ θ ] [\mathcal{I}(\theta)]_{i,j}=-\mathbb{E}\left[\left.\frac{\partial^2}{\partial \theta_i \partial \theta_j}\log f(X;\theta)\right|\theta\right] [I(θ)]i,j=E[θiθj2logf(X;θ)θ]

猜你喜欢

转载自blog.csdn.net/qq_38406029/article/details/124582064