期望、方差、协方差与相关系数

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/EngineerHe/article/details/100555313

期望、方差、协方差与相关系数

期望

定义: 设离散型变量 X X 的分布律为
P { X = x k } = p k , k = 1 , 2 ,   . P\{ X = {x_k}\} = {p_k},\begin{array}{c} {}&{k = 1,2, \cdots .} \end{array}
随机变量 X X 的数学期望为
E ( X ) = k = 1 x k p k E(X) = \sum\limits_{k = 1}^\infty {{x_k}{p_k}}
设连续型随机变量 X X 的概率密度为 f ( x ) f(x) X X 的数学期望为
E ( X ) = x f ( x ) d x E(X) = \int_{ - \infty }^\infty {xf(x)dx}
一般的期望也称均值,但是二者有不同。

期望和均值的不同?

期望 是一个概率论概念,均值是一个统计学概念。

均值是实验后根据实际结果统计得到的样本的平均值,期望是实验前根据概率分布来预测样本的均值。所以可以说期望是均值随样本趋于无穷的极限。

方差

方差用来度量随机变量 X X 与均值 E ( X ) E(X) 的偏离程度。

定义: X X 是一个随机变量,若 E { [ X E ( X ) ] 2 } E\{ {[X - E(X)]^2}\} 存在, 则称 E { [ X E ( X ) ] 2 } E\{ {[X - E(X)]^2}\} X X 的方差,记为 D ( X ) D(X) 或 Var(X),即
D ( X ) = V a r ( X ) = E { [ X E ( X ) ] 2 } {\rm{D(X) = Var(X) = }}E\{ {[X - E(X)]^2}\}
引入 D ( X ) \sqrt {{\rm{D(X)}}} ,记为 σ ( X ) \sigma (X) ,称为标准差或者均方差。

离散型随机变量:
D ( X ) = k = 1 [ x E ( X ) ] 2 p k {\rm{D(X) = }}\sum\limits_{k = 1}^\infty {{{[x - E(X)]}^2}{p_k}}
其中 p k p_k X X 的分布律

连续型随机变量:
D ( X ) = [ x E ( X ) ] 2 f ( x ) d x {\rm{D(X) = }}\int_{ - \infty }^\infty {{{[x - E(X)]}^2}f(x)dx}
f ( x ) f(x) X X 的概率密度。

随机变量 X X 的方差可以用下面的公式计算:
D ( X ) = E ( X 2 ) [ E ( X ) ] 2 D(X) = E(X^2)-[E(X)]^2

协方差与相关系数

定义: E { [ X E ( X ) ] [ Y E ( Y ) ] } E\{ [X - E(X)][Y - E(Y)]\} 称为随机变量 X X Y Y 的协方差,记为 C o v ( X , Y ) Cov(X,Y) 即:
C o v ( X , Y ) = E { [ X E ( X ) ] [ Y E ( Y ) ] } Cov(X,Y) = E\{ [X - E(X)][Y - E(Y)]\}

ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) {\rho _{XY}} = \frac{{Cov(X,Y)}}{{\sqrt {{\rm{D(X)}}} \sqrt {{\rm{D(Y)}}} }}
称为随机变量 X X Y Y 的相关系数。

协方差可以用于衡量数据直接的相关性,设有数据 X X 和 数据 Y Y , 通过计算二者的协方差可以有下面的三种情况:

  • C o v ( X , Y ) > 0 Cov(X,Y) > 0 时, X X Y Y 正相关,即两者有同时增加或者减少的倾向
  • C o v ( X , Y ) < 0 Cov(X,Y) < 0 时, X X Y Y 正相关,即两者有反向增加或者减少的倾向
  • C o v ( X , Y ) = 0 Cov(X,Y) = 0 时, X X Y Y 不相关

那么相关系数又是干嘛的呢,假如我们有身高、体重、年龄这三组数据,我们想比较一下到底是身高与体重的相关性大,还是年龄与体重的相关性大?那我们计算身高、体重会有一个单位(厘米.公斤)的度量,计算年龄、体重也会有一个单位(岁.公斤)度量,这样的话单位不统一就没有评价的标准。通过计算他们的相关系数,就可把单位消掉,忽略它们各自不同的度量,就可以归一化到 -1 和 1 之间的值进行比较。

猜你喜欢

转载自blog.csdn.net/EngineerHe/article/details/100555313