协方差与协方差矩阵

引言

最近在看主成分分析（PCA），其中有一步是计算样本各维度的协方差矩阵。以前在看算法介绍时，也经常遇到，现找了些资料复习，总结如下。

协方差

通常，在提到协方差的时候，需要对其进一步区分。（1）随机变量的协方差。跟数学期望、方差一样，是分布的一个总体参数。（2）样本的协方差。是样本集的一个统计量，可作为联合分布总体参数的一个估计。在实际中计算的通常是样本的协方差。

随机变量的协方差

在概率论和统计中，协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量越线性相关，协方差越大，完全线性无关，协方差为零。定义如下。

cov (X, Y) = E [(X - E [X]) (Y - E [Y])]

当 XX， YY是同一个随机变量时， XX与其自身的协方差就是 XX的方差，可以说方差是协方差的一个特例。

cov (X, X) = E [(X - E [X]) (X - E [X])]

或

var (X) = cov (X, X) = E [(X - E [X]) 2]

由于随机变量的取值范围不同，两个协方差不具备可比性。如 XX， YY， ZZ分别是三个随机变量，想要比较 XX与 YY的线性相关程度强，还是 XX与 ZZ的线性相关程度强，通过 cov(X,Y)cov⁡(X,Y)与 cov(X,Z)cov⁡(X,Z)无法直接比较。定义相关系数 ηη为

η = cov ( X , Y ) var ( X ) \cdot var ( Y ) - - - - - - - - - - - - - \sqrt

通过 XX的方差 var(X)var⁡(X)与 YY的方差 var(Y)var⁡(Y)对协方差 cov(X,Y)cov⁡(X,Y)归一化，得到相关系数 ηη， ηη的取值范围是 [−1,1][−1,1]。 11表示完全线性相关， −1−1表示完全线性负相关， 00表示线性无关。线性无关并不代表完全无关，更不代表相互独立。

样本的协方差

在实际中，通常我们手头会有一些样本，样本有多个属性，每个样本可以看成一个多维随机变量的样本点，我们需要分析两个维度之间的线性关系。协方差及相关系数是度量随机变量间线性关系的参数，由于不知道具体的分布，只能通过样本来进行估计。

设样本对应的多维随机变量为X=[X1,X2,X3,...,Xn]T，样本集合为{x⋅j=[x1j,x2j,...,xnj]T|1⩽j⩽m}，m为样本数量。与样本方差的计算相似，a和b两个维度样本的协方差公式为，其中1⩽a⩽n，1⩽b⩽n，n为样本维度

q a b = \sum m j = 1 ( x a j - x ¯ a ) ( x b j - x ¯ b ) m - 1

这里分母为 m−1m−1是因为随机变量的数学期望未知，以样本均值代替，自由度减一。

协方差矩阵

多维随机变量的协方差矩阵

对多维随机变量X=[X1,X2,X3,...,Xn]T，我们往往需要计算各维度两两之间的协方差，这样各协方差组成了一个n×n的矩阵，称为协方差矩阵。协方差矩阵是个对称矩阵，对角线上的元素是各维度上随机变量的方差。我们定义协方差矩阵为Σ，这个符号与求和∑相同，需要根据上下文区分。矩阵内的元素Σij为

Σ i j = cov (X i, X j) = E [(X i - E [X i]) (X j - E [X j])]

这样这个矩阵为

Σ = E [(X - E [X]) (X - E [X]) T]

= ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ cov (X 1, X 1) cov (X 2, X 1) ⋮ cov (X n, X 1) cov (X 1, X 2) cov (X 2, X 2) ⋮ cov (X n, X 2) \dots \dots ⋱ \dots cov (X 1, X n) cov (X 2, X n) ⋮ cov (X n, X n) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

= ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ E [(X 1 - E [X 1]) (X 1 - E [X 1])] E [(X 2 - E [X 2]) (X 1 - E [X 1])] ⋮ E [(X n - E [X n]) (X 1 - E [X 1])] E [(X 1 - E [X 1]) (X 2 - E [X 2])] E [(X 2 - E [X 2]) (X 2 - E [X 2])] ⋮ E [(X n - E [X n]) (X 2 - E [X 2])] \dots \dots ⋱ \dots E [(X 1 - E [X 1]) (X n - E [X n])] E [(X 2 - E [X 2]) (X n - E [X n])] ⋮ E [(X n - E [X n]) (X n - E [X n])] ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

样本的协方差矩阵

与上面的协方差矩阵相同，只是矩阵内各元素以样本的协方差替换。样本集合为{x⋅j=[x1j,x2j,...,xnj]T|1⩽j⩽m}，m为样本数量，所有样本可以表示成一个n×m的矩阵。我们以Σ^表示样本的协方差矩阵，与Σ区分。

Σ^= ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ q 11 q 21 ⋮ q n 1 q 12 q 21 ⋮ q n 2 \dots \dots ⋱ \dots q 1 n q 2 n ⋮ q n n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

= 1 m - 1 ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \sum m j = 1 (x 1 j - x ¯ 1) (x 1 j - x ¯ 1) \sum m j = 1 (x 2 j - x ¯ 2) (x 1 j - x ¯ 1) ⋮ \sum m j = 1 (x n j - x ¯ n) (x 1 j - x ¯ 1) \sum m j = 1 (x 1 j - x ¯ 1) (x 2 j - x ¯ 2) \sum m j = 1 (x 2 j - x ¯ 2) (x 2 j - x ¯ 2) ⋮ \sum m j = 1 (x n j - x ¯ n) (x 2 j - x ¯ 2) \dots \dots ⋱ \dots \sum m j = 1 (x 1 j - x ¯ 1) (x n j - x ¯ n) \sum m j = 1 (x 2 j - x ¯ 2) (x n j - x ¯ n) ⋮ \sum m j = 1 (x n j - x ¯ n) (x n j - x ¯ n) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

= 1 m - 1 \sum j = 1 m (x \cdot j - x ¯) (x \cdot j - x ¯) T

公式中 mm为样本数量， x¯x¯为样本的均值，是一个列向量， x⋅jx⋅j为第 jj个样本，也是一个列向量。

在写程序计算样本的协方差矩阵时，我们通常用后一种向量形式计算。一个原因是代码更紧凑清晰，另一个原因是计算机对矩阵及向量运算有大量的优化，效率高于在代码中计算每个元素。

需要注意的是，协方差矩阵是计算样本不同维度之间的协方差，而不是对不同样本计算，所以协方差矩阵的大小与维度相同。

很多时候我们只关注不同维度间的线性关系，且要求这种线性关系可以互相比较。所以，在计算协方差矩阵之前，通常会对样本进行归一化，包括两部分：

y⋅j=x⋅j−x¯。即对样本进行平移，使其重心在原点；

zi⋅=yi⋅/σi。其中σi是维度i的标准差。这样消除了数值大小的影响。

这样，协方差矩阵Σ^可以写成

Σ^= 1 m - 1 \sum j = 1 m z \cdot j z T \cdot j

该矩阵内的元素具有可比性