UA MATH566 统计理论2 C-R不等式简介

UA MATH566 统计理论2 C-R不等式


点估计基础那一篇讨论到UMVUE了,这一讲试图给出无偏估计方差的一个下界。在统计理论1中推导的Fisher信息其实就是一个下界,但这一讲会更详细给出相关结论。

概念1 Cramer-Rao分布族(正则分布族) { f ( x , θ ) , θ Θ } \{f(x,\theta),\theta \in \Theta\}
为了让C-R不等式成立,需要一些条件,满足这些条件的分布族被称为C-R分布族:

  1. θ Θ \theta \in \Theta Θ \Theta 是开集,并且 f ( x , θ ) = f ( x , θ ) θ = θ f(x,\theta)=f(x,\theta^{'}) \Leftrightarrow \theta = \theta^{'}
  2. 记分布族的对数似然为 L ( θ ) = ln f ( x , θ ) L(\theta)=\ln f(x,\theta) ,假设对数似然二阶可导
  3. 记得分函数 S ( x , θ ) = L ( θ ) S(x,\theta)=\nabla L(\theta) ,并假设 S ( x , θ ) L 2 ( X , B ( X ) , P X ) S(x,\theta) \in L^2(\mathcal{X},\mathcal{B}(\mathcal{X}),P_X)
  4. 假设分布族 F θ F_{\theta} 的支撑 S u p p θ = { x : f ( x , θ ) } > 0 Supp_{\theta}=\{x:f(x,\theta)\}>0 θ \theta 无关
  5. 假设 f ( x , θ ) f(x,\theta) 关于 θ \theta 可导

常见的非正则分布族的分布有均匀分布、带位移的指数分布等。

单个参数的情形

假设 Θ R \Theta \subset \mathbb{R} ,则此时的得分函数是一维的
S ( x , θ ) = L ( θ ) θ = 1 f ( x , θ ) f ( x , θ ) θ S(x,\theta) = \frac{\partial L(\theta)}{\partial \theta} = \frac{1}{f(x,\theta)} \frac{\partial f(x,\theta)}{\partial \theta}
且满足
E [ S ( X , θ ) ] = 0 ,    E [ S ( X , θ ) ] 2 = I ( θ ) E[S(X,\theta)]=0,\ \ E[S(X,\theta)]^2 = I(\theta)

定理1 f ( x , θ ) f(x,\theta) 是Cramer-Rao分布族, g ^ ( X ) \hat{g}(X) θ ^ ( X ) \hat{\theta}(X) 分别是 g ( θ ) g(\theta) θ \theta 的无偏估计,其中 g ( θ ) g(\theta) 可导,则
V a r ( θ ^ ) I 1 ( θ ) ,    V a r ( g ^ ( X ) ) [ g ( θ ) ] 2 I 1 ( θ ) Var(\hat{\theta})\ge I^{-1}(\theta),\ \ Var(\hat{g}(X)) \ge [g'(\theta)]^2I^{-1}(\theta)

证明 很明显取 g ( θ ) = θ g(\theta)=\theta 就是更简单那种情况,所以我们来证明一下第二个不等式和它的取等条件。根据Cauchy-Schwarz不等式, V a r ( X ) V a r ( Y ) [ C o v ( X , Y ) ] 2 Var(X)Var(Y)\ge [Cov(X,Y)]^2 ,令 X = g ^ ( X ) X = \hat{g}(X) Y = S ( X , θ ) Y = S(X,\theta) ,计算
C o v ( g ^ ( X ) , S ( X , θ ) ) = E [ g ^ ( X ) S ( X , θ ) ] E [ g ^ ( X ) ] E [ S ( X , θ ) ] = E [ g ^ ( X ) S ( X , θ ) ] = g ^ ( x ) S ( x , θ ) f ( x , θ ) d x = θ g ^ ( x ) f ( x , θ ) d x = g ( θ ) Cov(\hat{g}(X),S(X,\theta)) = E[\hat{g}(X)S(X,\theta)]-E[\hat{g}(X)]E[S(X,\theta)]=E[\hat{g}(X)S(X,\theta)] \\ = \int \hat{g}(x)S(x,\theta)f(x,\theta)dx = \frac{\partial }{\partial \theta} \int \hat{g}(x)f(x,\theta)dx = g'(\theta)
第三个等号先把得分函数的公式带入,然后把求导和求积分交换次序得到第四个等号,然后那个积分就是 g ^ ( X ) \hat{g}(X) 的期望,因为它是无偏估计,所以期望就是 g ( θ ) g(\theta) 。因此
V a r ( g ^ ( X ) ) V a r ( S ( X , θ ) ) = V a r ( g ^ ( X ) ) I ( θ ) [ C o v ( X , Y ) ] 2 = [ g ( θ ) ] 2 V a r ( g ^ ( X ) ) [ g ( θ ) ] 2 I 1 ( θ ) Var(\hat{g}(X))Var(S(X,\theta)) = Var(\hat{g}(X)) I(\theta)\ge [Cov(X,Y)]^2 = [g'(\theta)]^2 \\ \Rightarrow Var(\hat{g}(X)) \ge [g'(\theta)]^2I^{-1}(\theta)
根据Cauchy-Schwarz不等式取等的条件,上式取等需要 a ( θ ) \exists a(\theta)
S ( X , θ ) = a ( θ ) g ^ ( X ) , a . s . S(X,\theta) = a(\theta) \hat{g}(X),a.s.

[ g ( θ ) ] 2 I 1 ( θ ) [g'(\theta)]^2I^{-1}(\theta) 为Cramer-Rao下界(CRLB),它与Fisher信息成反比,说明样本中信息越多时,估计量的方差就越有可能降到更低。对于简单随机样本 X 1 , , X n X_1,\cdots,X_n ,他们的Fisher信息量是 n I ( θ ) nI(\theta) (因为 S ( X , θ ) S(X,\theta) 关于 X X 的可加性),因此Cramer-Rao下界为
C R L B = 1 n [ g ( θ ) ] 2 I 1 ( θ ) CRLB = \frac{1}{n}[g'(\theta)]^2I^{-1}(\theta)
这个式子说明样本量提高也能降低估计量的方差的下界。

基于CRLB还可以定义估计量的效率,
e ( g ^ ) = lim n C R L B V a r ( g ^ ( X ) ) e(\hat{g}) = \lim_{n \to \infty} \frac{CRLB}{Var(\hat{g}(X))}
如果 e ( g ^ ) = 1 e(\hat{g})=1 ,称 g ^ ( X ) \hat{g}(X) 为渐近有效的无偏估计。

多个参数的情形

在多维的情况下,得分函数是
S ( x , θ ) = L ( θ ) S(x,\theta) = \nabla L(\theta)
且满足
E [ S ( X , θ ) ] = 0 ,    E [ S ( X , θ ) S T ( X , θ ) ] = I ( θ ) E[S(X,\theta)]=0,\ \ E[S(X,\theta)S^T(X,\theta)] = I(\theta)
I ( θ ) I(\theta) 是Fisher信息矩阵。

定理2 f ( x , θ ) f(x,\theta) 是Cramer-Rao分布族, g ^ ( X ) \hat{g}(X) θ ^ ( X ) \hat{\theta}(X) 分别是 g ( θ ) g(\theta) θ \theta 的无偏估计,其中 g ( θ ) g(\theta) 可导,它的Jacobi矩阵记为 D g ( θ ) Dg(\theta) ,则
V a r ( g ^ ( X ) ) D g ( θ ) I 1 ( θ ) [ D g ( θ ) ] T Var(\hat{g}(X)) \ge Dg(\theta)I^{-1}(\theta)[Dg(\theta)]^T

扫描二维码关注公众号,回复: 11342895 查看本文章

证明 思路和定理1证明类似,也是需要根据Cauchy-Schwarz不等式。计算
C o v ( g ^ ( X ) , S ( X , θ ) ) = E [ g ^ ( X ) S T ( X , θ ) ] E [ g ^ ( X ) ] E [ S ( X , θ ) ] = E [ g ^ ( X ) S T ( X , θ ) ] = g ^ ( x ) S T ( x , θ ) f ( x , θ ) d x = g ^ ( x ) f ( x , θ ) d x = D g ( θ ) Cov(\hat{g}(X),S(X,\theta)) = E[\hat{g}(X)S^T(X,\theta)]-E[\hat{g}(X)]E[S(X,\theta)]=E[\hat{g}(X)S^T(X,\theta)] \\ = \int \hat{g}(x)S^T(x,\theta)f(x,\theta)dx = \nabla \int \hat{g}(x)f(x,\theta)dx = Dg(\theta)
因此
V a r ( g ^ ( X ) ) [ C o v ( X , Y ) ] V a r ( S ( X , θ ) ) 1 [ C o v ( X , Y ) ] T V a r ( g ^ ( X ) ) D g ( θ ) I 1 ( θ ) [ D g ( θ ) ] T Var(\hat{g}(X))\ge [Cov(X,Y)]Var(S(X,\theta))^{-1}[Cov(X,Y)]^T \\ \Rightarrow Var(\hat{g}(X)) \ge Dg(\theta)I^{-1}(\theta)[Dg(\theta)]^T
根据Cauchy-Schwarz不等式取等的条件,上式取等需要 a ( θ ) \exists a(\theta)
S ( X , θ ) = a ( θ ) g ^ ( X ) , a . s . S(X,\theta) = a(\theta) \hat{g}(X),a.s.

猜你喜欢

转载自blog.csdn.net/weixin_44207974/article/details/106326457