带你深入理解期望、方差、协方差的含义

基本概念

先梳理一下概率论中的几个基本概念。

事件
事件指某种情况的“陈述”，通俗来讲，事件就是一些case，比如A事件定义为，掷出骰子为偶数点=(2,4,6)，这个case包含了多个结果，其中，每个结果叫做一个基本事件，一个事件是由若干基本事件构成的。由此可见，事件的本质是集合。

有了事件，自然就有事件之间的关系，因为事件的本质是集合，所以我们可以用集合的运算符号来表达事件之间的基本逻辑关系，以下关系都可以用集合中的韦恩图来理解，这里就不画了。
基本关系有：

蕴含与相等：如果当A发生时B必发生，记 $A\subset B$ ，当 $A ， B$ 相互蕴含时，称两事件相等，记 $A = B$

互斥与对立：在一次试验中不可能同时发生，但可以都不发生，有A就没有B，有B没有A，但是可以同时没有A和B。互斥事件的一个重要情况是“对立事件”，若 $A$ 为一事件，则事件 B={A不发生} ，记作 $B=\bar{A}$

事件和（或称并）： $A, B$ 中至少发生一个(并集)，记作 $C = A + B$

事件积（或称并）： $A$ 发生且 $B$ 发生(交集)，记作 $C = A B$

事件差： $A$ 发生且 $B$ 不发生，记作 $\bar{B}$

注意我们只是借用了算术中的运算符号来表达事件间的逻辑关系，算术的规则不一定能用于事件运算，这些符号不过是反映了事件间的一种逻辑关系，因而必须用逻辑思维的方式去验证。
由事件的基本关系可进一步定义出更复杂的关系，如条件概率、事件独立、全概率、贝叶斯等，其中相关公式可以自行查阅资料。

随机变量
随机变量就是试验结果的函数，它对试验结果的文字描述进行数字化，从而方便研究。比如抛一枚硬币，定义1=正面朝上，0=反面朝上，所以随机变量 $X$ 就代表抛硬币这个试验的结果，要么0要么1。
随机变量按其可能取的值的全体的性质，区分为两大类，一类是离散型随机变量，一类是连续型随机变量。

分布
研究一个随机变量的目的是为了进行预测，所以更重要的是它取各种值的概率如何，也就是分布如何，人们对生活中的现象进行规律总结，得到了一些比较常见的分布：
离散型随机变量常见的分布有：

伯努利分布（两点分布，Bernoulli distribution）
二项分布（binomial distribution）
几何分布（geometric distribution）
泊松分布（Poisson distribution）

连续型随机变量常见的分布有：

正态分布（normal distribution）
指数分布（exponential distribution）

这些分布之间相互做运算又有更加复杂的分布，这里墙裂推荐一本书 <<概率论与数理统计>> 陈希孺，看过的人都说棒！ヽ(ˋДˊ)ノ

分布是随机变量的概率性质最完整的刻画，而随机变量的数字特征，则是由随机变量的分布所决定的常数，它刻画了随机变量（或者说，刻画了其分布）的某一方面的性质，人们往往也比较关心这些指标，常见的有期望，方差、协方差，下面分别介绍公式。

期望

期望是随机变量取值的平均，以概率为权的对随机变量进行加权求和。

那么它和“平均数”有什么区别？
平均数是一个统计学的概念，是对一组已经观察到的样本进行统计的量，而期望是一个概率论的概念，是根据已经存在的概率分布来“预测”样本的平均值的量，由于概率是频率随样本趋于无穷的极限，所以期望其实就是平均数随样本趋于无穷的极限，两者是通过大数定理联系起来的。

性质
1. $E\left(X_{1}+X_{2}+\cdots+X_{n}\right)=E\left(X_{1}\right)+E\left(X_{2}\right)+\cdots+E\left(X_{n}\right)$ （无条件成立）

2. $E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right)$ （独立情况下成立）

计算
上述的定义是在我们知道概率分布的情况下计算期望的公式，但在实际应用中，我们往往是知道一组样本，我们需要通过样本来估计出总体，所以我们通常是用样本的统计量来估计这些数字特征。假如给定一个含有n个样本的集合，我们是通过样本平均值来估计期望：
$\bar{X}=\frac{\sum_{i=1}^{n} X_{i}}{n}$

方差

方差是用来衡量随机变量和其数学期望之间的偏离程度的量，通俗来说，就是用来衡量随机变量的波动程度，方差越大，那么这一组数据的波动幅度也就越大，稳定性就越小。

因为 $X$ 是随机的，所以偏离的量 $X - E X$ 本身也是随机的，为了避免正负相互抵消，对其取平方作为偏离量，很自然方差就是该偏离量的期望，定义为： $\operatorname{Var}(X)=E(X-E X)^{2}=E\left(X^{2}\right)-(E X)^{2}$
性质
1.常数的方差为0
2.若C为常数，则 $V a r (X + C) = V a r (X)$
3.若C为常数，则 $Var(CX)=C^2Var(X)$
4.独立情况下， $\operatorname{Var}\left(X_{1}+\cdots+X_{n}\right)=\operatorname{Var}\left(X_{1}\right)+\cdots+\operatorname{Var}\left(X_{n}\right)$ ，注意区别期望是无条件成立

计算
假如给定一个含有n个样本的集合，则方差计算为：
$\sigma^{2}=\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n-1}$
之所以除以n-1而不是除以n，是因为我们是用样本去估计总体，除n-1才是统计学上的“无偏估计”，这样能使我们以较小的样本集更好的逼近总体的标准差（有严格的数学推导，可以查阅资料）

标准化
在机器学习中，我们的数据经常是一个向量 $x$ ，也就是多维随机变量，每个位置是一个特征，为了消除数据特征间单位和量级差异的影响，往往需要对数据进行标准化，使每个特征的均值为 0、方差 1，这样特征间就是可比较的（以下符号都是向量）：
$x^{\prime}=\frac{x-\bar{x}}{\sigma}$

协方差

协方差是多维随机变量的数字特征。在生活中，我们往往会从多个角度对一个事物进行观察，这些角度也就是所谓的“特征”，比如对于“人”，有身高、体重、胸围、臂长等特征，协方差就是用来衡量特征之前有没有相关关系的量。以二维随机变量 $(X, Y)$ 为例，定义协方差为：
$\operatorname{Cov}(X, Y)=E\left[\left(X- EX\right)\left(Y-EY\right)\right]=E\left(XY\right)-(E X)(EY)$
可以看到它的形式和方差非常相似，不过是吧其中一项换成了 $(Y - E Y)$ ，由定义可得 $\operatorname{Cov}(X, X)={Var}(X)$

协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的，如果为负，则为负相关。从协方差可以引出“相关系数”的定义，衡量随机变量之相关程度更多的是用相关系数，可以看这篇文章相关系数——皮尔逊相关系数的公式及其理解

性质
1.若 $X, Y$ 独立,则 $\operatorname{Cov}(X, Y)=0$ ，反过来不一定成立
2.第一条的例外：当( $X, Y$ )为二维正态时, 由 $\operatorname{Cov}(X, Y)=0$ 能推出 $X, Y$ 独立
3.c为常数， $\operatorname{Cov}\left(c_{1} X+c_{2}, c_{3} Y+c_{4}\right)=c_{1} c_{3} \operatorname{Cov}(X, Y)$

计算
假如给定一个含有n个样本的集合，则协方差计算为：
$\operatorname{Cov}(x, y)=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)$

协方差矩阵
协方差也只能处理二维问题，维数多了就需要计算多个协方差，我们是用矩阵来进行组织，也就是协方差矩阵。以三维随机变量 $(x, y, z)$ 为例，则协方差矩阵为：
$C=\left(\begin{array}{ccc} \operatorname{cov}(x, x) & \operatorname{cov}(x, y) & \operatorname{cov}(x, z) \\ \operatorname{cov}(y, x) & \operatorname{cov}(y, y) & \operatorname{cov}(y, z) \\ \operatorname{cov}(z, x) & \operatorname{cov}(z, y) & \operatorname{cov}(z, z) \end{array}\right)$
可见，协方差矩阵是一个对称的矩阵，而且对角线是各个维度上的方差，协方差矩阵很有用，可以用来对数据进行更高级的分析，这里就不说了。

如果对你有帮助，请点个赞:-D

带你深入理解期望、方差、协方差的含义

基本概念

期望

方差

协方差

猜你喜欢