Fisher information

 

定义

在数理统计中,Fisher information是一种衡量“随机观测样本X=(x_1,...,x_n)携带的关于未知参数\boldsymbol{\theta}的信息量”的方法,其中\boldsymbol{\theta}X所遵循的概率密度函数的参数。形式上,它是得分(score)的方差。设f(x;\boldsymbol{\theta})为概率密度函数。\boldsymbol{\theta}的对数似然函数为\ln{L}=\sum_{i=1}^{n}{\ln{f(x_i;\boldsymbol{\theta})}}

(1)如果似然函数随着\boldsymbol{\theta}的改变而迅速达到最大,则很容易从X中获得\boldsymbol{\theta}的真实值,或者说X提供了很多关于\boldsymbol{\theta}的信息;

(2)如果似然函数(f(x;\boldsymbol{\theta})也是)的分布较平,或分布比较均匀,则需要大量样本才能估计出\boldsymbol{\theta}的真实值。

形式上,\ln{L}关于\boldsymbol{\theta}的偏导数被称为“得分”(score),其以X为随机变量的期望为\boldsymbol{0}

          E\left[\frac{\partial }{\partial{\boldsymbol{\theta}}}\log{f(X;\boldsymbol{\theta})\bigg{|}\boldsymbol{\theta}} \right ]\\\\=\int{\frac{\frac{\partial}{\partial{\boldsymbol{\theta}}}f(\boldsymbol{x};\boldsymbol{\theta})}{f(\boldsymbol{x};\boldsymbol{\theta})}}f(\boldsymbol{x};\boldsymbol{\theta})d\boldsymbol{x}\\\\ =\frac{\partial}{\partial{\boldsymbol{\theta}}}\int{f(\boldsymbol{x};\boldsymbol{\theta})d\boldsymbol{\theta}}\\\\=\frac{\partial}{\partial{\boldsymbol{\theta}}}1=\boldsymbol{0}

得分的方差(由上知一阶中心矩为\boldsymbol{0},所以方差等于二阶中心矩)称为“费希尔信息”(Fisher information):

    \mathbb{I}(\boldsymbol{\theta})=E\left[\left(\frac{\partial}{\partial{\boldsymbol{\theta}}}\log{f(\boldsymbol{x};\boldsymbol{\theta})} \right )^2\bigg{|}\boldsymbol{\theta} \right ]=\int{\left(\frac{\partial}{\partial{\boldsymbol{\theta}}}\log{f(\boldsymbol{x};\boldsymbol{\theta})} \right )^2f(X;\boldsymbol{\theta})}d\boldsymbol{x}

注意0\leqslant \mathbb{I}(\boldsymbol{\theta})< \infty。一个随机样本携带较多的费希尔信息意味着得分的绝对值通常很大。费希尔信息不是观察结果的函数,因为它是以“未抽样样本”为随机变量的函数的期望。

\log{f(X;\boldsymbol{\theta})}关于\boldsymbol{\theta}二阶可导,由于

\frac{\partial^2}{\partial{\boldsymbol{\theta}^2}}\log{f(X;\boldsymbol{\theta})}=\frac{\frac{\partial^2}{\partial{\boldsymbol{\theta}}^2}f(X;\boldsymbol{\theta})}{f(X;\boldsymbol{\theta})}-\left(\frac{\frac{\partial}{\partial{\boldsymbol{\theta}}}f(X;\boldsymbol{\theta})}{f(X;\boldsymbol{\theta})} \right )^2=\frac{\frac{\partial^2}{\partial{\boldsymbol{\theta}}^2}f(X;\boldsymbol{\theta})}{f(X;\boldsymbol{\theta})}-\left(\frac{\partial}{\partial{\boldsymbol{\theta}}}\log{f(X;\boldsymbol{\theta})} \right )^2

以及E\left[\frac{\frac{\partial^2}{\partial{\boldsymbol{\theta}}^2}f(X;\boldsymbol{\theta})}{f(X;\boldsymbol{\theta})}\bigg{|}\boldsymbol{\theta} \right ]=\frac{\partial^2}{\partial{\boldsymbol{\theta}}^2}\int{f(\boldsymbol{x;\boldsymbol{\theta}})d\boldsymbol{x}}=0, 因此\mathbb{I}(\boldsymbol{\theta})=-E\left[\frac{\partial^2}{\partial\boldsymbol{\theta}^2}\log{f(X;\boldsymbol{\theta}))}\bigg{|}\boldsymbol{\theta} \right ]

因此,Fisher information可以看作“支撑曲线”(support curve, 对数似然函数的图像)的曲度。较小的Fisher information意味着似然函数的最大值非常“浅薄”,附近有很多值可以取相似的似然函数值。相反,Fisher information越大,说明图像越陡峭。

单参数伯努利实验

在抛硬币的实验中,设出现正面(设为1)的概率为\theta,出现反面(设为0)的概率为1-\theta。设一次伯努利实验中出现的结果为X。对数似然函数为:

\log{(\theta^X(1-\theta)^{1-X})}=X\log{\theta}+(1-X)\log{(1-\theta)}

Fisher information:

          \mathbb{I}(\theta)=-E\left[\frac{\partial^2}{\partial{\theta}^2}(X\log{\theta}+(1-X)\log{(1-\theta)})\bigg{|}\theta \right ]\\\\=E\left[\frac{X}{\theta^2}+\frac{1-X}{(1-\theta)^2}\bigg{|}\theta \right ]\\\\=\frac{\theta}{\theta^2}+\frac{1-\theta}{(1-\theta)^2}\\\\=\frac{1}{\theta(1-\theta)}

由于Fisher information为加法的,所以在n重独立同分布的实验中,Fisher information为

          \mathbb{I}(\theta)=\frac{n}{\theta(1-\theta)}

矩阵形式

\boldsymbol{\theta}=[\theta_1, \theta_2, ..., \theta_N]^T,则Fisher information的形式为NXN的矩阵。该矩阵被称为Fisher information matrix,其中

         \left[\mathbb{I}(\theta) \right ]_{i,j}=E\left[\left(\frac{\partial}{\partial\theta_i}\log{f(X;\boldsymbol{\theta})} \right )\left(\frac{\partial}{\partial\theta_j}\log{f(X;\boldsymbol{\theta})} \right ) \bigg{|}\boldsymbol{\theta}\right ]

在某些条件下,Fisher information matrix也可以写为

         \left[\mathbb{I}(\theta) \right ]_{i,j}=-E\left[\frac{\partial^2}{\partial{\theta_i}\partial{\theta_j}}\log{f(X;\boldsymbol{\theta})}\bigg{|}\boldsymbol{\theta} \right ]

猜你喜欢

转载自blog.csdn.net/sunjianqiang12345/article/details/83244917