多元正态分布的极大似然估计

1. 一元正态分布的密度函数

一元正态分布的密度函数表示为：

f (x) = \frac{1}{\sqrt{(2 π)} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}

$f(x) = \frac{1}{\sqrt {(2 \pi)} \sigma} e^{- \frac{(x - \mu)^2}{2 \sigma^2}}$ 其中，

σ > 0

$\sigma >0$ 。由于

x

$x$ 、

μ

$\mu$ 均为一维的数值，

(x - μ)^{T}

$(x - \mu)^T$ 与

(x - μ)

$(x - \mu)$ 是等价的，所以上述密度函数又可以写成如下形式：

f (x) = \frac{1}{(2 π)^{\frac{1}{2}} (σ^{2})^{\frac{1}{2}}} e^{- \frac{1}{2} (x - μ)^{T} (σ^{2})^{- 1} (x - μ)}

$f(x) = \frac{1}{(2 \pi)^{\frac{1}{2}} (\sigma^2)^\frac{1}{2} } e^{- \frac{1}{2} (x - \mu)^T (\sigma^2)^{- 1} (x - \mu)}$ 将上式推广，就得到多元正态分布的定义。

2. 多元正态分布的密度函数

设 $K$ 维随机向量 $x = \left[ \begin{matrix} x_1 \\ ... \\ x_K \end{matrix} \right]$ 的密度函数为：

f_{μ, Σ} (x) = f_{μ, Σ} (x_{1}, . . ., x_{K}) = \frac{1}{(2 π)^{\frac{K}{2}}} \cdot \frac{1}{| Σ |^{\frac{1}{2}}} \cdot e^{- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)}

$f_{\mu, \Sigma}(x) = f_{\mu, \Sigma}(x_1,...,x_K) = \frac{1}{(2 \pi)^{\frac{K}{2}}} \cdot \frac{1}{|\Sigma|^{\frac{1}{2}}} \cdot e^{- \frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu)}$ 其中，

K

$K$ 表示向量

x

$x$ 的维度。均值向量

μ

$\mu$ 是

K

$K$ 维向量，协方差矩阵

Σ

$\Sigma$ 是一个

K \times K

$K \times K$ 的对称正定阵，则称

x

$x$ 服从

K

$K$ 元正态分布，也称

x

$x$ 为

K

$K$ 维正态随机向量，简记为：

x

$x$ ~

N_{K} (μ, Σ)

$N_K (\mu, \Sigma)$ 。显然当

K = 1

$K = 1$ 时，即为一元正态分布的密度函数。

注意，当 $|\Sigma| = 0$ 时， $\Sigma^{-1}$ 不存在， $x$ 也就不存在通常意义下的密度函数，然而可以形式的给出一个表达式。有些问题可以利用这一形式对 $|\Sigma| \neq 0$ 及 $|\Sigma| = 0$ 的情况给出一个统一的处理。

3. 多元正态分布的极大似然估计

对于 $N$ 个样本点： $\{ x^1,...,x^N\}$ ，其似然函数为：

L (μ, Σ) = f_{μ, Σ} (x^{1}) f_{μ, Σ} (x^{2}) . . . f_{μ, Σ} (x^{N})

$L(\mu, \Sigma) = f_{\mu,\Sigma}(x^1) f_{\mu,\Sigma}(x^2)...f_{\mu,\Sigma}(x^N)$

= (2 π)^{- \frac{K N}{2}} \cdot | Σ |^{- \frac{N}{2}} \cdot e^{- \frac{1}{2} \sum_{n = 1}^{N} (x^{n} - μ)^{T} Σ^{- 1} (x^{n} - μ)}

$= (2 \pi)^{- \frac{KN}{2}} \cdot |\Sigma|^{- \frac{N}{2}} \cdot e^{- \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)}$

对数似然函数：

\ln L (μ, Σ) = - \frac{K N}{2} \ln (2 π) - \frac{N}{2} \ln | Σ | - \frac{1}{2} \sum_{n = 1}^{N} (x^{n} - μ)^{T} Σ^{- 1} (x^{n} - μ)

$\ln L(\mu, \Sigma) = - \frac{KN}{2} \ln (2 \pi) - \frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)$

= C - \frac{N}{2} \ln | Σ | - \frac{1}{2} \sum_{n = 1}^{N} (x^{n} - μ)^{T} Σ^{- 1} (x^{n} - μ)

$= C - \frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)$

其中， $C = - \frac{KN}{2} \ln (2 \pi)$ 为一个常数。

【矩阵代数】

一元微积分中，导数（标量对标量的导数）与微分有联系： $df = f^{'} (x) dx$ 。

多元微积分中，梯度（标量对向量的导数）也与微分有联系： $df = \sum_{i= 1}^n \frac{\partial f}{\partial x_i} dx_i = \frac{\partial f}{\partial \boldsymbol{x}}^T d \boldsymbol{x}$ 。这里第一个等号是全微分公式，第二个等号表达了梯度与微分的联系：全微分 $df$ 是 $n \times 1$ 梯度向量 $\frac{\partial f}{\partial \boldsymbol{x}}$ 与 $n \times 1$ 微分向量 $dx$ 的内积。

据此，矩阵导数与微分也可建立联系： $df = \sum_{i = 1}^m \sum_{j = 1}^n \frac{\partial f}{\partial X_{ij}} dX_{ij} = \text{tr} \left (\frac{\partial f}{\partial X}^T dX \right)$ 。其中， $\text{tr}$ 代表迹（trace），是方阵对角线元素之和，满足性质：对尺寸相同的矩阵 $A$ 、 $B$ 有 $\text{tr} (A^T B) = \sum_{i,j}A_{ij}B_{ij}$ ，即 $\text{tr} (A^T B)$ 是矩阵 $A$ 、 $B$ 的内积。与梯度相似，这里第一个等号是全微分公式，第二个等号表达了矩阵导数矩阵与微分的联系：全微分 $df$ 是 $m \times n$ 导数 $\frac{\partial f}{\partial X}$ 与 $m \times n$ 微分矩阵 $dX$ 的内积。

矩阵微分的运算法则

加减法： $d(X \pm Y) = dX \pm dY$
矩阵乘法： $d(XY) = dX Y + X dY$
转置： $d(X^T) = (dX)^T$
迹： $d \text{tr} (X) = \text{tr} (dX)$
逆： $dX^{-1} = -X^{-1}dX X^{-1}$ 。此式可在 $XX^{-1} = I$ 两侧求微分来证明
行列式： $d|X| = \text{tr}(X^* dX)$ ，其中 $X^*$ 表示 $X$ 的伴随矩阵，在 $X$ 可逆时又可以写作 $d|X|= |X|\text{tr}(X^{-1}dX)$ 。此式可用Laplace展开来证明，详见张贤达《矩阵分析与应用》第279页

通过矩阵导数与微分的联系： $df = \text{tr} \left (\frac{\partial f}{\partial X}^T dX \right)$ ，在求出左侧的微分 $df$ 后，可以利用如下一些迹技巧（trace trick）写成右侧的形式并得到导数：

矩阵求导的运算法则

$\frac{\partial X^T A X}{\partial X} = (A + A^T)X$ ，当 $A$ 为实对称矩阵时， $\frac{\partial X^T A X}{\partial x} = 2AX$
当 $A$ 为实对称矩阵时， $\frac{\partial (X^T A X)}{\partial A} = XX^T$ ， $\frac{\partial \ln |A|}{\partial A} = A^{-1}$
$\frac{\partial (X^{-1}) }{\partial t} =- X^{-1} \frac{\partial X}{\partial t} X^{-1}$

对数似然函数分别对 $\mu$ 、 $\Sigma$ 求偏导

由上，对数似然函数：

\ln L (μ, Σ) = C - \frac{N}{2} \ln | Σ | - \frac{1}{2} \sum_{n = 1}^{N} (x^{n} - μ)^{T} Σ^{- 1} (x^{n} - μ)

$\ln L(\mu, \Sigma) = C - \frac{N}{2} \ln |\Sigma| - \frac{1}{2} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)$

$\ln L(\mu, \Sigma)$ 对 $\mu$ 求偏导，并令偏导为 $0$ ，即求解 $\frac{\partial [\sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)]}{\partial \mu} = 0$ ，记为 $\frac{\partial l_1}{\partial \mu} = 0$
1. 将 $l_1 = \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)$ 展开：
  $\sum_{n = 1}^{N} [(x^{n})^{T} Σ^{- 1} x^{n} - 2 (x^{n})^{T} Σ^{- 1} μ + μ^{T} Σ^{- 1} μ]$ $\sum_{n = 1}^N [ (x^n)^T \Sigma^{-1} x^n - 2(x^n)^T \Sigma^{-1} \mu + \mu^T \Sigma^{-1} \mu ]$ $= \sum_{n = 1}^{N} (x^{n})^{T} Σ^{- 1} x^{n} - 2 \sum_{n = 1}^{N} (x^{n})^{T} Σ^{- 1} μ + N μ^{T} Σ^{- 1} μ$ $= \sum_{n = 1}^N (x^n)^T \Sigma^{-1} x^n - 2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} \mu + N \mu^T \Sigma^{-1} \mu$
2. 对第2项求微分：
  $d(- 2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} \mu) = -2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} d \mu = -2 \sum_{n = 1}^N tr((x^n)^T \Sigma^{-1} d \mu)$
  所以第2项对 $\mu$ 的偏导为：
  $\frac{\partial [- 2 \sum_{n = 1}^{N} (x^{n})^{T} Σ^{- 1} μ]}{\partial μ} = - 2 \sum_{n = 1}^{N} ((x^{n})^{T} Σ^{- 1})^{T} = - 2 \sum_{n = 1}^{N} Σ^{- 1} x^{n}$ $\frac{\partial [- 2 \sum_{n = 1}^N (x^n)^T \Sigma^{-1} \mu]}{\partial \mu} = -2 \sum_{n = 1}^N ((x^n)^T \Sigma^{-1})^T = -2 \sum_{n = 1}^N \Sigma^{-1} x^n$
  第3项对 $\mu$ 的偏导为： $\frac{\partial (N μ^{T} Σ^{- 1} μ)}{\partial μ} = 2 N Σ^{- 1} μ$ $\frac{\partial (N \mu^T \Sigma^{-1} \mu)}{\partial \mu} = 2N \Sigma^{-1} \mu$
3. $l_1$ 对 $\mu$ 的偏导：
  $\frac{\partial l_{1}}{\partial μ} = - 2 \sum_{n = 1}^{N} Σ^{- 1} x^{n} + 2 N Σ^{- 1} μ$ $\frac{\partial l_1}{\partial \mu} = -2 \sum_{n = 1}^N \Sigma^{-1} x^n + 2N \Sigma^{-1} \mu$ 令其等于 $0$ ，解得极大似然估计为： $\hat{μ} = \frac{1}{N} \sum_{n = 1}^{N} x^{n} = \bar{x}$ $\hat \mu = \frac{1}{N} \sum_{n = 1}^N x^n = \overline{x}$
$\ln L(\mu, \Sigma)$ 对 $\Sigma$ 求偏导，并令偏导为 $0$ ，即求解 $\frac{\partial [\ln |\Sigma| + \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)]}{\partial \Sigma} = 0$ ，记为 $\frac{\partial l_2}{\partial \Sigma} = 0$
1. 首先求微分，使用矩阵乘法、行列式、逆等运算法则
  第一项： $d [\ln |\Sigma|] = |\Sigma|^{-1} d |\Sigma| = \text{tr} (\Sigma^{-1} d \Sigma)$
  第二项：
  $d [\frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} (x^n - \mu)]$
  $= \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T d \Sigma^{-1} (x^n - \mu)$
  $= - \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} d \Sigma \Sigma^{-1} (x^n - \mu)$
2. 套上迹，作交换
  第一项不变 $\text{tr} (\Sigma^{-1} d \Sigma)$
  第二项：
  $\text{tr} \left (- \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)^T \Sigma^{-1} d \Sigma \Sigma^{-1} (x^n - \mu) \right)$
  $= - \frac{1}{N} \sum_{n = 1}^N \text{tr} ((x^n - \mu)^T \Sigma^{-1} d \Sigma \Sigma^{-1} (x^n - \mu))$
  $= - \frac{1}{N} \sum_{n = 1}^N \text{tr} (\Sigma^{-1} (x^n - \mu) (x^n - \mu)^T \Sigma^{-1} d \Sigma)$
  $= \text{tr} \left (- \Sigma^{-1} \frac{1}{N} \sum_{n = 1}^N (x^n - \mu) (x^n - \mu)^T \Sigma^{-1} d \Sigma \right)$
  其中，第一个等号先交换了 $\text{tr}$ 与 $\sum$ ，第二个等号将 $d \Sigma$ 右边式子交换到左边，第三个等号再一次交换 $\text{tr}$ 与 $\sum$ 。
3. 所以， $d l_2 = \text{tr} \left( (\Sigma^{-1} - \Sigma^{-1} \frac{1}{N} \sum_{n = 1}^N (x^n - \mu) (x^n - \mu)^T \Sigma^{-1}) d \Sigma \right)$ ，对照导数与微分的联系有：
  $\frac{\partial l_{2}}{\partial Σ} = (Σ^{- 1} - Σ^{- 1} \frac{1}{N} \sum_{n = 1}^{N} (x^{n} - μ) (x^{n} - μ)^{T} Σ^{- 1})^{T}$ $\frac{\partial l_2}{\partial \Sigma} = (\Sigma^{-1} - \Sigma^{-1} \frac{1}{N} \sum_{n = 1}^N (x^n - \mu) (x^n - \mu)^T \Sigma^{-1})^T$ 令其等于 $0$ ，解得极大似然估计为： $\hat{Σ} = \frac{1}{N} \sum_{n = 1}^{N} (x^{n} - μ) (x^{n} - μ)^{T}$ $\hat \Sigma = \frac{1}{N} \sum_{n = 1}^N (x^n - \mu)(x^n - \mu)^T$ 将 $\hat \mu = \overline{x}$ 代入上式得： $\hat \Sigma = \frac{1}{N} \sum_{n = 1}^N (x^n - \overline{x})(x^n - \overline{x})^T$ 。

定义样本离差矩阵（又称为交叉乘积阵） $V = \sum_{n = 1}^N (x^n - \overline{x})(x^n - \overline{x})^T$ ，它是一个 $K \times K$ 的矩阵。

定义样本协差阵 $S = \frac{1}{N} V = \frac{1}{N} \sum_{n = 1}^N (x^n - \overline{x})(x^n - \overline{x})^T$ ，它也是一个 $K \times K$ 的矩阵。

计算结果

综上，多维正态分布的极大似然估计为：

\hat{μ} = \bar{x} ， \hat{Σ} = S

$\hat \mu = \overline{x}，\hat \Sigma = S$ 其中，

S = \frac{1}{N} \sum_{n = 1}^{N} (x^{n} - \bar{x}) (x^{n} - \bar{x})^{T}

$S = \frac{1}{N} \sum_{n = 1}^N (x^n - \overline{x})(x^n - \overline{x})^T$ ，

N

$N$ 为样本个数。

参考资料：
矩阵代数_pdf
矩阵求导术（上）
第一章矩阵代数_pdf
第二章多元正态分布的参数估计_ppt
第二章多元正态分布及参数的估计_pdf
多元正态分布参数的估计和数据的清洁与变换_pdf