期望值、方差、协方差、相关系数

期望值、方差、协方差

1.期望值

在概率论和统计学中,期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是指在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和。
我们一般使用的平均值,是期望值的特殊情况,即样本值属性的每一种情况出现的概率是相等的。

  • 离散情况:
    E[X] = ΣPi * Xi

  • 连续情况:
    如果X是连续的随机变量,存在一个相应的概率密度函数 f(x),则X的期望值为:
    E[X] = ∫x f(x) dx

2.方差

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。
方差是衡量源数据和期望值相差的度量值。

1.在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:
在这里插入图片描述X为变量,u为总体均值,N为总体例数。

实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:
S^2= ∑(X - x_) ^2 / (n-1)
S^2为样本方差,X为变量,为样本均值,n为样本例数。

2.在概率分布中,离散型随机变量方差计算公式:
D(X) = E{[X-E(X)] ^ 2} = E(X ^ 2) - [ E(X)]^2
D(X)称为变量X的方差,而 σ = D(X) ^ (1/2) 称为标准差(或均方差)
方差刻画了随机变量的取值对于其数学期望的离散程度。(标准差、方差越大,离散程度越大)
若X的取值比较集中,则方差D(X)较小,若X的取值比较分散,则方差D(X)较大。
因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。

3.协方差

在概率论和统计学中,协方差用于衡量两个变量的总体误差,是一个衡量线性独立的无量纲的数。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

期望值分别为E(X) = u 与 E(Y) = ν 的两个实数随机变量X与Y之间的协方差定义为:COV(X,Y)=E[(X-E(X))(Y-E(Y))]

也可以用平均值来计算协方差:
Cov(X,Y)=1/(N−1)∑(Xi−Xi_)(Yi−Yi_)
Xi_,Yi_为平均值。这里,之所以除以 N-1 而不是 N 的原因是对总体样本期望的无偏估计。
在这里插入图片描述
直观上来看,协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的,那么二者之间的协方差就是0,反之则不成立

4.协方差矩阵

协方差也只能处理二维问题,那维数多了自然就需要计算多个协方差,比如n维的数据集就需要计算 n! / ((n-2)!*2) 个协方差,那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义:
在这里插入图片描述
这个定义还是很容易理解的,我们可以举一个简单的三维的例子,假设数据集有三个维度,则协方差矩阵为:
在这里插入图片描述
可见,协方差矩阵是一个对称的矩阵,而且对角线是各个维度上的方差。

5.协方差的相关系数

为了准确得到变量之间的相似程度,我们需要把协方差除以各自变量的标准差。这样就得到了相关系数的表达式:
ρ=Cov(X,Y) / σXσY
可见,相关系数就是在协方差的基础上除以变量 X 和 Y 的标准差。

为什么除以各自变量的标准差就能消除幅值影响呢?
这是因为标准差本身反映了变量的幅值变化程度,除以标准差正好能起到抵消的作用,让协方差标准化。这样,相关系数的范围就被归一化到 [-1,1] 之间了。

相关系数大于零,则表示两个变量正相关,且相关系数越大,正相关性越高;
相关系数小于零,则表示两个变量负相关,且相关系数越小,负相关性越高;
相关系数等于零,则表示两个变量不相关。

回过头来看一下协方差与相关系数的关系,其实,相关系数是协方差的标准化、归一化形式,消除了量纲、幅值变化不一的影响。实际应用中,在比较不同变量之间相关性时,使用相关系数更为科学和准确。协方差在机器学习的很多领域都有应用,而且非常重要!

参考:
CSDN博主「To be a 女学霸 」,原文链接:https://blog.csdn.net/YPP0229/article/details/100519343

发布了23 篇原创文章 · 获赞 6 · 访问量 1585

猜你喜欢

转载自blog.csdn.net/pentiumCM/article/details/103603757