常用的统计量

1、期望 E(X) = \int_{-\infty }^{+\infty }xf(x)dx

反应变量的平均水平,各样本值的加权平均值

2、方差 D(X) = E[ (X - E(X))^2 ] = E(X^2) - E(x)^2 (二阶原点矩,一阶原点矩)

一种特殊的期望,每个样本观测值与该样本期望的差的平方的期望

样本的方差求最后期望的时候除以(n-1)而不是n,修正样本方差

 

反应的是变量围绕均值的变动情况,为了消除正负加了平方

3、标准差 D(X)^1/2

变量围绕均值的变动情况,为了消除方差的平方加了开放,比较常用

4、协方差 Cov(X,Y) = E( X-EX(X) Y-E(Y) ) = E(XY) - E(X)E(Y)  (方差是协方差在X=Y时的特殊情况 )

反应两个变量变化情况的相关性

从公式看假如协方差绝对值越大说明两个变量的变化趋势越相关,

协方差为0 则不相关,x变量远离其期望的时候,y正好在其均值周围,乘积很小

5、相关系数 rxy = Cov(x,y) / D(X)D(Y)^1/2

在协方差基础上除以两个变量的标准差,消除变量的变化幅度对相关性判断的影响 [-1,1]

当相关系数为1时,说明两个变量正相关相似度最大,你变大一倍我也变大一倍的形式,完全正相关,

在二维坐标系中可以画出一条斜率为正数的直线,所以两个变量线性关系

随着他们相关系数的减小,两个变量变化时的相似度也变小,

当相关系数为0时,两个变量的变化没有任何相似度,两个变量无关

系数继续变小时,负相关.-1时线性负相关

猜你喜欢

转载自blog.csdn.net/weilan100/article/details/73346916