统计信号估计 (一) 克拉美罗界CRLB和正则条件的理解

克拉美罗下界实际上是对无偏估计量给出了方差的下界,也就是说,只要你使用无偏估计,方差一定大于等于CRLB,在满足某些条件的时候可以等于。但是要注意,方差大于CRLB的条件一定是无偏估计,如果是有偏估计方差是可以更小的,比如说最大似然法,贝叶斯估计等。

正则条件:

E [ ln p ( x ; θ ) θ ] = 0 E\left[\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right]=0 对于任意的 θ \theta , x 的PDF都满足

那么这个正则条件说明了什么,又是怎么的出来的呢?

  • 推导
    - E [ ln p ( x ; θ ) θ ] = ln p ( x ; θ ) θ p ( x ; θ ) d x = p ( x ; θ ) θ d x = θ p ( x ; θ ) d x = 1 θ = 0 \begin{aligned}E\left[\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right]= \int \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x} &=\int \frac{\partial p(\mathbf{x} ; \theta)}{\partial \theta} d \mathbf{x} \\ &=\frac{\partial}{\partial \theta} \int p(\mathbf{x} ; \theta) d \mathbf{x} \\ &=\frac{\partial 1}{\partial \theta} \\ &=0 \end{aligned}
    求期望实际上就是对x求积分,所以左边两个表达式相等,注意这个概念,很多地方都需要这样来化简期望的。乍一看好像所有的PDF都应该满足上面的正则表达式才对,其实不是的,我们在运算的过程中忽略了一个很重要的前提——求偏导和积分可以互换,这就是正则条件的核心。这说明了x的PDF非零边界是和 θ \theta 无关的,也就是积分上下限不含 θ \theta ,举个例子, U [ θ , θ ] U[-\theta,\theta] 很明显就不满足正则条件,因为此时积分和求偏导的顺序不可以交换。

CRLB结论:

var ( θ ^ ) 1 E [ 2 ln p ( x ; θ ) θ 2 ] = 1 E [ ( ln p ( x ; θ ) θ ) 2 ] \operatorname{var}(\hat{\theta}) \geqslant \frac{1}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]}=\frac{1}{E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]}

这就是CRLB的表达式,很简洁,指明了任意一个无偏估计的方差下界,你可能又要问,这个怎么来的,有什么用。作用呢,很简单,既然我们已经知道了任意的无偏估计量方差都要大于等于这下界,那我的目标就很明确,找到最接近下界的估计量(最好等于),这个估计量就是最佳的无偏估计量。

最佳无偏估计量 设为 g(x),则有:

ln p ( x ; θ ) θ = I ( θ ) ( g ( x ) θ ) \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}=I(\theta)(g(\mathbf{x})-\theta)

这里的 I ( θ ) I(\theta) 就是我们在上面所求的 E [ ( ln p ( x ; θ ) θ ) 2 ] E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]

这样的话,我们想要求最佳无偏估计量,只需要求 ln p ( x ; θ ) θ \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} , 然后将其化简成一个只含有 θ \theta I ( θ ) I(\theta) 乘上一个只含有x的函数与 θ \theta 的差。

  • 证明 E [ 2 ln p ( x ; θ ) θ 2 ] = E [ ( ln p ( x ; θ ) θ ) 2 ] -E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]={E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]}

  • 由正则条件
    E [ ln p ( x ; θ ) θ ] = 0 ln p ( x ; θ ) θ p ( x ; θ ) d x = 0 θ ln p ( x ; θ ) θ p ( x ; θ ) d x = 0 [ 2 ln p ( x ; θ ) θ 2 p ( x ; θ ) + ln p ( x ; θ ) θ p ( x ; θ ) θ ] d x = 0 \begin{aligned} E\left[\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right] &=0 \\ \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x} &=0 \\ \frac{\partial}{\partial \theta} \int \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x} &=0 \\ \int\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}} p(\mathbf{x} ; \theta)+\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} \frac{\partial p(\mathbf{x} ; \theta)}{\partial \theta}\right] d \mathbf{x} &=0 \end{aligned}

  • 即:
    E [ 2 ln p ( x ; θ ) θ 2 ] = ln p ( x ; θ ) θ ln p ( x ; θ ) θ p ( x ; θ ) d x = E [ ( ln p ( x ; θ ) θ ) 2 ] \begin{aligned}-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right] &=\int \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x} \\ &=E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right] \end{aligned}

  • 证明 var ( α ^ ) ( g ( θ ) θ ) 2 E [ 2 ln p ( x ; θ ) θ 2 ] \operatorname{var}(\hat{\alpha}) \geqslant \frac{\left(\frac{\partial g(\theta)}{\partial \theta}\right)^{2}}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]}

  • 你可能不明白为什么在上面我们看到的CRLB明明分子是1,这里就变成了一阶偏导的平方。其实这是因为最开始估计的是 θ \theta ,但是这里估计的是 θ \theta 的函数 g ( θ ) g(\theta) ,如果你令 g ( θ ) g(\theta) = θ \theta ,上面是不是变成了1 ?现在这个式子更符合一般情况明白了吧。

  • 假设我们要估计 α \alpha α \alpha θ \theta 的函数,我们用 g ( θ ) g(\theta) 表示,由于是无偏估计,那么估计量 α ^ \hat{\alpha} 的均值等于 α \alpha ,即有:

    E ( α ^ ) = α = g ( θ ) E(\hat{\alpha})=\alpha=g(\theta)

    等同于:
    α ^ p ( x ; θ ) d x = g ( θ ) \int \hat{\alpha} p(\mathbf{x} ; \theta) d \mathbf{x}=g(\theta) (1)

    再看正则条件: E [ ln p ( x ; θ ) θ ] = 0 E\left[\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right]=0
    等同于:
    ln p ( x ; θ ) θ p ( x ; θ ) d x = 0 \int \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x}=0

    两边同时乘以待估参数 α \alpha 得: α ln p ( x ; θ ) θ p ( x ; θ ) d x = α E [ ln p ( x ; θ ) θ ] = 0 \int \alpha \frac{\partial \ln p(\mathbf{x} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}} p(\mathbf{x} ; \theta) d \mathbf{x}=\alpha E\left[\frac{\partial \ln p(\mathbf{x} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\right]=0 (2)
    (1)(2)两式相减得到:

    ( α ^ α ) ln p ( x ; θ ) θ p ( x ; θ ) d x = g ( θ ) θ \int(\hat{\alpha}-\alpha) \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta} p(\mathbf{x} ; \theta) d \mathbf{x}=\frac{\partial g(\theta)}{\partial \theta}
    利用柯西不等式

    [ w ( x ) g ( x ) h ( x ) d x ] 2 w ( x ) g 2 ( x ) d x w ( x ) h 2 ( x ) d x \left[\int w(\mathbf{x}) g(\mathbf{x}) h(\mathbf{x}) d \mathbf{x}\right]^{2} \leqslant \int w(\mathbf{x}) g^{2}(\mathbf{x}) d \mathbf{x} \int w(\mathbf{x}) h^{2}(\mathbf{x}) d \mathbf{x}

    w ( x ) = p ( x ; θ ) w(\mathbf{x})=p(\mathbf{x} ; \theta) g ( x ) = α ^ α g(\mathbf{x})=\hat{\boldsymbol{\alpha}}-\alpha h ( x ) = ln p ( x ; θ ) θ h(\mathbf{x})=\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}
    可以得到:
    ( g ( θ ) θ ) 2 ( α ^ α ) 2 p ( x ; θ ) d x ( ln p ( x ; θ ) θ ) 2 p ( x ; θ ) d x \left(\frac{\partial g(\theta)}{\partial \theta}\right)^{2} \leqslant \int(\hat{\alpha}-\alpha)^{2} p(\mathbf{x} ; \theta) d \mathbf{x} \int\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2} p(\mathbf{x} ; \theta) d \mathbf{x}
    其中 ( α ^ α ) 2 p ( x ; θ ) d x \int(\hat{\alpha}-\alpha)^{2} p(\mathbf{x} ; \theta) d \mathbf{x} 为方差, ( ln p ( x ; θ ) θ ) 2 p ( x ; θ ) d x = E [ ( ln p ( x ; θ ) θ ) 2 ] = E [ 2 ln p ( x ; θ ) θ 2 ] \int\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2} p(\mathbf{x} ; \theta) d \mathbf{x}=E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]=-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]

化简有:

var ( θ ^ ) ( g ( θ ) θ ) 2 E [ 2 ln p ( x ; θ ) θ 2 ] = ( g ( θ ) θ ) 2 E [ ( ln p ( x ; θ ) θ ) 2 ] \operatorname{var}(\hat{\theta}) \geqslant \frac{\left(\frac{\partial g(\theta)}{\partial \theta}\right)^{2}}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]}=\frac{\left(\frac{\partial g(\theta)}{\partial \theta}\right)^{2}}{E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]}

等号成立的条件是: ln p ( x ; θ ) θ = 1 c ( θ ) ( θ ^ θ ) \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}=\frac{1}{\mathrm{c}(\theta)}(\hat{\theta}-\theta)
这个等式是想说明达到下界的估计量满足什么样的条件,就是使上式成立, θ ^ \hat{\theta} 表示估计量。

公式太难打了,我就解释标量了,矢量更复杂

发布了50 篇原创文章 · 获赞 66 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/qq_43157190/article/details/103724321