多元正态分布的极大似然估计

多元正态分布的极大似然估计

1. 一元正态分布的密度函数

一元正态分布的密度函数表示为:

f ( x ) = 1 ( 2 π ) σ e ( x μ ) 2 2 σ 2
其中, σ > 0 。由于 x μ 均为一维的数值, ( x μ ) T ( x μ ) 是等价的,所以上述密度函数又可以写成如下形式:

f ( x ) = 1 ( 2 π ) 1 2 ( σ 2 ) 1 2 e 1 2 ( x μ ) T ( σ 2 ) 1 ( x μ )
将上式推广,就得到多元正态分布的定义。


2. 多元正态分布的密度函数

K 维随机向量 x = [ x 1 . . . x K ] 的密度函数为:

f μ , Σ ( x ) = f μ , Σ ( x 1 , . . . , x K ) = 1 ( 2 π ) K 2 1 | Σ | 1 2 e 1 2 ( x μ ) T Σ 1 ( x μ )
其中, K 表示向量 x 的维度。均值向量 μ K 维向量,协方差矩阵 Σ 是一个 K × K 的对称正定阵,则称 x 服从 K 元正态分布,也称 x K 维正态随机向量,简记为: x ~ N K ( μ , Σ ) 。显然当 K = 1 时,即为一元正态分布的密度函数。

注意,当 | Σ | = 0 时, Σ 1 不存在, x 也就不存在通常意义下的密度函数,然而可以形式的给出一个表达式。有些问题可以利用这一形式对 | Σ | 0 | Σ | = 0 的情况给出一个统一的处理。


3. 多元正态分布的极大似然估计

对于 N 个样本点: { x 1 , . . . , x N } ,其似然函数为:

L ( μ , Σ ) = f μ , Σ ( x 1 ) f μ , Σ ( x 2 ) . . . f μ , Σ ( x N )
= ( 2 π ) K N 2 | Σ | N 2 e 1 2 n = 1 N ( x n μ ) T Σ 1 ( x n μ )

对数似然函数:

ln L ( μ , Σ ) = K N 2 ln ( 2 π ) N 2 ln | Σ | 1 2 n = 1 N ( x n μ ) T Σ 1 ( x n μ )
= C N 2 ln | Σ | 1 2 n = 1 N ( x n μ ) T Σ 1 ( x n μ )

其中, C = K N 2 ln ( 2 π ) 为一个常数。


【矩阵代数】

一元微积分中,导数(标量对标量的导数)与微分有联系: d f = f ( x ) d x

多元微积分中,梯度(标量对向量的导数)也与微分有联系: d f = i = 1 n f x i d x i = f x T d x 。这里第一个等号是全微分公式,第二个等号表达了梯度与微分的联系:全微分 d f n × 1 梯度向量 f x n × 1 微分向量 d x 的内积。

据此,矩阵导数与微分也可建立联系: d f = i = 1 m j = 1 n f X i j d X i j = tr ( f X T d X ) 。其中, tr 代表迹(trace),是方阵对角线元素之和,满足性质:对尺寸相同的矩阵 A B tr ( A T B ) = i , j A i j B i j ,即 tr ( A T B ) 是矩阵 A B 的内积。与梯度相似,这里第一个等号是全微分公式,第二个等号表达了矩阵导数矩阵与微分的联系:全微分 d f m × n 导数 f X m × n 微分矩阵 d X 的内积。

矩阵微分的运算法则
  1. 加减法: d ( X ± Y ) = d X ± d Y
    矩阵乘法: d ( X Y ) = d X Y + X d Y
    转置: d ( X T ) = ( d X ) T
    迹: d tr ( X ) = tr ( d X )

  2. 逆: d X 1 = X 1 d X X 1 。此式可在 X X 1 = I 两侧求微分来证明

  3. 行列式: d | X | = tr ( X d X ) ,其中 X 表示 X 的伴随矩阵,在 X 可逆时又可以写作 d | X | = | X | tr ( X 1 d X ) 。此式可用Laplace展开来证明,详见张贤达《矩阵分析与应用》第279页

通过矩阵导数与微分的联系: d f = tr ( f X T d X ) ,在求出左侧的微分 d f 后,可以利用如下一些迹技巧(trace trick)写成右侧的形式并得到导数:

矩阵求导的运算法则
  1. X T A X X = ( A + A T ) X ,当 A 为实对称矩阵时, X T A X x = 2 A X

  2. A 为实对称矩阵时, ( X T A X ) A = X X T ln | A | A = A 1

  3. ( X 1 ) t = X 1 X t X 1


对数似然函数分别对 μ Σ 求偏导

由上,对数似然函数:

ln L ( μ , Σ ) = C N 2 ln | Σ | 1 2 n = 1 N ( x n μ ) T Σ 1 ( x n μ )

  • ln L ( μ , Σ ) μ 求偏导,并令偏导为 0 ,即求解 [ n = 1 N ( x n μ ) T Σ 1 ( x n μ ) ] μ = 0 ,记为 l 1 μ = 0

    1. l 1 = n = 1 N ( x n μ ) T Σ 1 ( x n μ ) 展开:

      n = 1 N [ ( x n ) T Σ 1 x n 2 ( x n ) T Σ 1 μ + μ T Σ 1 μ ]
      = n = 1 N ( x n ) T Σ 1 x n 2 n = 1 N ( x n ) T Σ 1 μ + N μ T Σ 1 μ

    2. 对第2项求微分:
      d ( 2 n = 1 N ( x n ) T Σ 1 μ ) = 2 n = 1 N ( x n ) T Σ 1 d μ = 2 n = 1 N t r ( ( x n ) T Σ 1 d μ )
      所以第2项对 μ 的偏导为:

      [ 2 n = 1 N ( x n ) T Σ 1 μ ] μ = 2 n = 1 N ( ( x n ) T Σ 1 ) T = 2 n = 1 N Σ 1 x n

      第3项对 μ 的偏导为:
      ( N μ T Σ 1 μ ) μ = 2 N Σ 1 μ

    3. l 1 μ 的偏导:

      l 1 μ = 2 n = 1 N Σ 1 x n + 2 N Σ 1 μ
      令其等于 0 ,解得极大似然估计为:
      μ ^ = 1 N n = 1 N x n = x ¯

  • ln L ( μ , Σ ) Σ 求偏导,并令偏导为 0 ,即求解 [ ln | Σ | + 1 N n = 1 N ( x n μ ) T Σ 1 ( x n μ ) ] Σ = 0 ,记为 l 2 Σ = 0

    1. 首先求微分,使用矩阵乘法、行列式、逆等运算法则
      第一项: d [ ln | Σ | ] = | Σ | 1 d | Σ | = tr ( Σ 1 d Σ )
      第二项:
      d [ 1 N n = 1 N ( x n μ ) T Σ 1 ( x n μ ) ]
      = 1 N n = 1 N ( x n μ ) T d Σ 1 ( x n μ )
      = 1 N n = 1 N ( x n μ ) T Σ 1 d Σ Σ 1 ( x n μ )

    2. 套上迹,作交换
      第一项不变 tr ( Σ 1 d Σ )
      第二项:
      tr ( 1 N n = 1 N ( x n μ ) T Σ 1 d Σ Σ 1 ( x n μ ) )
      = 1 N n = 1 N tr ( ( x n μ ) T Σ 1 d Σ Σ 1 ( x n μ ) )
      = 1 N n = 1 N tr ( Σ 1 ( x n μ ) ( x n μ ) T Σ 1 d Σ )
      = tr ( Σ 1 1 N n = 1 N ( x n μ ) ( x n μ ) T Σ 1 d Σ )
      其中,第一个等号先交换了 tr ,第二个等号将 d Σ 右边式子交换到左边,第三个等号再一次交换 tr

    3. 所以, d l 2 = tr ( ( Σ 1 Σ 1 1 N n = 1 N ( x n μ ) ( x n μ ) T Σ 1 ) d Σ ) ,对照导数与微分的联系有:

      l 2 Σ = ( Σ 1 Σ 1 1 N n = 1 N ( x n μ ) ( x n μ ) T Σ 1 ) T
      令其等于 0 ,解得极大似然估计为:
      Σ ^ = 1 N n = 1 N ( x n μ ) ( x n μ ) T
      μ ^ = x ¯ 代入上式得: Σ ^ = 1 N n = 1 N ( x n x ¯ ) ( x n x ¯ ) T

定义样本离差矩阵(又称为交叉乘积阵) V = n = 1 N ( x n x ¯ ) ( x n x ¯ ) T ,它是一个 K × K 的矩阵。

定义样本协差阵 S = 1 N V = 1 N n = 1 N ( x n x ¯ ) ( x n x ¯ ) T ,它也是一个 K × K 的矩阵。


计算结果

综上,多维正态分布的极大似然估计为:

μ ^ = x ¯ Σ ^ = S
其中, S = 1 N n = 1 N ( x n x ¯ ) ( x n x ¯ ) T N 为样本个数。


参考资料
矩阵代数_pdf
矩阵求导术(上)
第一章 矩阵代数_pdf
第二章 多元正态分布的参数估计_ppt
第二章 多元正态分布及参数的估计_pdf
多元正态分布参数的估计和数据的清洁与变换_pdf

猜你喜欢

转载自blog.csdn.net/Joyliness/article/details/80097491
今日推荐