一、几个基本概念：均值、方差、标准差

统计学里最基本的概念就是样本的均值、方差、标准差。首先，我们给定一个含有n个样本的集合，下面给出这些概念的公式描述：

均值：，（在概率论和统计学中，数学期望(mean)（或均值，亦简称期望），一个意思，可用E(X)来表示，是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。）

标准差(Standard Deviation)：，又叫均方差。

方差(variance)：

标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

方差（variance) 是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

以这两个集合为例，[0, 8, 12, 20]和[8, 9, 11, 12]，两个集合的均值都是10，但显然两个集合的差别是很大的，计算两者的标准差，前者是8.3后者是1.8。显然后面这个集合里的元素分布较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不是n，是因为这样能使我们以较小的样本集更好地逼近总体的标准差，即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

二、协方差有什么用？

标准差和方差一般是用来描述一维数据的，但现实生活中我们常常会遇到含有多维数据的数据集。

协方差就是这样一种用来度量两个随机变量关系的统计量（即二维数据），我们可以仿照方差的定义：

来度量各个维度偏离其均值的程度，协方差可以这样来定义：

当cov(X,Y)>0时，X与Y正相关
当cov(X,Y)=0时，X与Y不相关
当cov(X,Y)<0时，X与Y负相关

当X=Y时，表示为方差

preview

协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。