吴恩达机器学习中协方差矩阵的向量表示推导

一、多维随机变量的协方差矩阵

对多维随机变量 $X=[X_{1},X_{2},...,X_{n}]^{T}$ 列向量，我们往往需要计算各维度之间的协方差，这样协方差就组成了一个n×nn×n的矩阵，称为协方差矩阵。协方差矩阵是一个对角矩阵，对角线上的元素是各维度上随机变量的方差。我们定义协方差为 $\sum$ , 矩阵内的元素 $\sum ij$ 为

协方差矩阵为

$\bg_green \large \sum = E \left[ ( X - E ( X ) ) ( X - E ( X ) ) ^ { T } \right]$

$= \left[ \begin{array} { c c c c } { \operatorname { cov } \left( X _ { 1 } , X _ { 1 } \right) } & { \operatorname { cov } \left( X _ { 1 } , X _ { 2 } \right) } & { \cdots } & { \operatorname { cov } \left( X _ { 1 } , X _ { n } \right) } \\ { \operatorname { cov } \left( X _ { 2 } , X _ { 1 } \right) } & { \operatorname { cov } \left( X _ { 2 } , X _ { 2 } \right) } & { \cdots } & { \operatorname { cov } \left( X _ { 2 } , X _ { n } \right) } \\ { \vdots } & { \vdots } & { \vdots } & { \vdots } \\ { \operatorname { cov } \left( X _ { n } , X _ { 1 } \right) } & { \operatorname { cov } \left( X _ { n } , X _ { 2 } , \right) } & { \cdots } & { \operatorname { cov } \left( X _ { n } , X _ { n } \right) } \end{array} \right]$

二、样本的协方差矩阵

与上面的协方差矩阵相同，只是矩阵内各元素以样本的协方差替换。假设数据集 $\large T=\left \{ x_{i} \right \}_{i=1}^{m}$ 表示m个样本，每个样本表示为 $\LARGE x_{i}=\left \{ x_{i1}, x_{i2}, ....x_{in} \right \}^{T}$ 。所有样本可以组成一个 $\LARGE m*n$ 的矩阵。

$X _ { m \times n } = \left[ \begin{array} { c c c c } { x _ { 11 } } & { x _ { 12 } } & { \cdots } & { x _ { 1 n } } \\ { x _ { 21 } } & { x _ { 22 } } & { \cdots } & { x _ { 2 n } } \\ { \vdots } & { \vdots } & { \vdots } & { \vdots } \\ { x _ { m 1 } } & { x _ { m 2 } } & { \cdots } & { x _ { m n } } \end{array} \right] = \left[ c _ { 1 } , c _ { 2 } , \ldots , c _ { n } \right]$

每一行代表一个对象，每一列代表一个维度，协方差矩阵，是求维度之间的相关性，而不是对象之间的，所以协方差矩阵的大小与维度相关。表示第i维的随机变量。

假设 $\LARGE \bar{x}=(\bar{x_{1}},\bar{x_{2}},...\bar{x_{n}})$ ,则有 $\LARGE E(c_{i})=\bar{x_{i}}$

这里分母为m−1是因为随机变量的数学期望未知，以样本均值代替，自由度减一。

可以参考作者：http://www.cnblogs.com/terencezhou/p/6235974.html