方差和协方差机器学习中常见的两个概念，公式也几乎是随处可见，但是每见一次都像是初次见面，又去想半天各种公式、概念和意义，所以下定决心整理一下。

方差和协方差

定义

度量单个随机变量的离散程度，公式如下：
$\sigma^2_x = \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2$

度量两个随机变量（变化趋势）的相似程度，定义如下：
$\sigma(x,y)= \frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})$

$Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]$

以上两个公式就可以看出，方差和协方差的定义同宗。

那么方差是怎么衡量随机变量的离散程度的呢？协方差又怎么衡量变量的变化趋势的呢？

方差示意图

图1

离散程度具体来说衡量的是随机变量偏离均值的幅度大小，单个数据点x的偏离幅度为x与x均值的距离平方和。

上图中的右上图和右下图，两个随机变量的均值虽然都为0，但是很明显右下图中随机变量偏离均值的幅度更大，各自的方差为：
$(2*(70-0)^2+2*(-70-0)^2+(-200-0)^2+(200-0)^2)=99600$

$(2*(0.01-0)^2+2*(-0.01-0)^2+(-0.02-0)^2+(0.02-0)^2)=0.001$

所以右上图的离散变量分布的更紧凑。

对于变量X、Y，协方差的定义为每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”的均值（其实是求“期望”）。因此，如果x与x的均值差与y与y的均值差的符号相同，则协方差值大于0，符号相反，则协方差值小于0，总结如下：
在这里插入图片描述
图2

图3

图4

在图2、3、4中的区域（1）中，有 X>EX ，Y-EY>0 ，所以(X-EX)(Y-EY)>0；

在图2、3、4中的区域（2）中，有 X<EX ，Y-EY>0 ，所以(X-EX)(Y-EY)<0；

在图2、3、4中的区域（3）中，有 X<EX ，Y-EY<0 ，所以(X-EX)(Y-EY)>0；

在图2、3、4中的区域（4）中，有 X>EX ，Y-EY<0 ，所以(X-EX)(Y-EY)<0。

当X 与Y 正相关时，它们的分布大部分在区域（1）和（3）中，小部分在区域（2）和（4）中，所以平均来说，有E(X-EX)(Y-EY)>0 。

当 X与 Y负相关时，它们的分布大部分在区域（2）和（4）中，小部分在区域（1）和（3）中，所以平均来说，有(X-EX)(Y-EY)<0 。

当 X与 Y不相关时，它们在区域（1）和（3）中的分布，与在区域（2）和（4）中的分布几乎一样多，所以平均来说，有(X-EX)(Y-EY)=0 。

所以，我们可以定义一个表示X, Y 相互关系的数字特征，也就是协方差
cov(X, Y) = E(X-EX)(Y-EY)。

当 cov(X, Y)>0时，表明 X与Y 正相关；

当 cov(X, Y)<0时，表明X与Y负相关；

当 cov(X, Y)=0时，表明X与Y不相关。

在这里插入图片描述
图5

图6

而大多数情况下，变量X，Y的变化趋势不会像图一一样严格的同增大同减小，大多如图5和图6一样，这时只要求期望就可以了。