协方差矩阵与相关系数矩阵

文章目录

前言

本篇博客主要介绍一下方差、协方差及相关系数的相关知识，进而引入了协方差矩阵与相关系数矩阵，并结合相关实例进行说明。

1. 方差、协方差与相关系数

在《概率论与数理统计》中，方差用来度量单个随机变量 $X$ 的离散程度，记为 $D X$ ，计算公式如下：
$\begin{aligned} DX &= E(X-EX)^2 \\[3pt] &= EX^2 - E^2X \end{aligned}$ 数学表达式为： $\sigma ^2(x) = \frac {1} {n-1}\sum _{i=1} ^N (x_i - \bar x)^2$

即方差 = 平方的期望 - 期望的平方

协方差用来度量两个随机变量 $X$ 和 $Y$ 间的相似程度，记为 $C o v (X, Y)$ ，计算公式为：
$\begin{aligned} Cov(X,Y) &= E[(X - EX) \cdot (Y - EY)] \\[3pt] &= E(XY) - EX \cdot EY \end{aligned}$ 数学表达式为： $\sigma (x, y) = \frac {1} {n-1}\sum _{i=1} ^N (x_i - \bar x) (y_i - \bar y)$

从公式上来看，协方差是两个变量与自身期望做差再相乘，然后对乘积取期望。也就是说，当其中一个变量的取值大于自身期望，另一个变量的取值也大于自身期望时，即两个变量的变化趋势相同，此时，两个变量之间的协方差取正值。反之，即其中一个变量大于自身期望时，另外一个变量小于自身期望，那么这两个变量之间的协方差取负值。

相关系数，也叫皮尔逊(Pearson)相关系数，用来度量两个随机变量 $X$ 和 $Y$ 间的相关程度，记为 $\rho_{XY}$ ，计算公式为：
$\rho_{XY} = \frac {Cov(X,Y)} {\sqrt {DX} \sqrt {DY}}$ 若 $\rho_{XY} > 0$ ，表示随机变量 $X$ 和 $Y$ 呈正相关；
若 $\rho_{XY} < 0$ ，表示随机变量 $X$ 和 $Y$ 呈负相关；
若 $\rho_{XY} = 0$ ，表示随机变量 $X$ 和 $Y$ 不相关，即相互独立；
若 $\rho_{XY} = \pm1$ ，表示随机变量 $X$ 和 $Y$ 呈线性相关；

相关系数也可以看成协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差，它消除了两个变量变化幅度的影响，而只是单纯反应两个变量每单位变化时的相似程度。

2. 协方差矩阵

在实际场景中，我们在描述一个物体时，并不会单单从一个或两个维度去描述，比如说，在描述一个神经网络模型的性能时，需要从模型的大小，精度，推理时间等多个维度来衡量。在进行多维数据分析时，不同维度之间的相关程度就需要协方差矩阵(covariance matrix)来描述，维度之间的两两相关程度就构成了协方差矩阵，而协方差矩阵主对角线上的元素即为每个维度上的数据方差。
协方差矩阵的表达式为： $\sum = \begin{bmatrix} \sigma (x_1, x_1) & \dots & \sigma (x_1, x_n) \\ \vdots & \ddots & \vdots \\ \sigma (x_n, x_1) & \dots & \sigma (x_n, x_n) \\ \end{bmatrix}$

3. 相关系数矩阵

顾名思义，就是由相关系数组成的矩阵(correlation matrix)，也叫系数矩阵，矩阵中的每个元素的取值范围为[-1, 1]。
相关系数矩阵的表达式为： $\begin{aligned} C &= \begin{bmatrix} \rho(x_1, x_1) & \dots & \rho(x_1, x_n) \\ \vdots & \ddots & \vdots \\ \rho(x_n, x_1) & \dots & \rho(x_n, x_n) \\ \end{bmatrix}\\[5pt] &= \begin{bmatrix} 1 & \dots & \rho(x_1, x_n) \\ \vdots & \ddots & \vdots \\ \rho(x_n, x_1) & \dots & 1 \\ \end{bmatrix} \end{aligned}$