期望、方差、协方差及相关系数的基本运算

期望、方差、协方差及相关系数的基本运算

前言: 随着研究深入,发现数学、概率和线代越来越重要。抽个时间积累下。


期望

定义

P ( x ) 是一个离散概率分布函数,自变量的取值范围为 { x 1 , x 2 , , x n } 。其期望被定义为:

E ( x ) = k = 1 n x k P ( x k )

p ( x ) 是一个连续概率密度函数。其期望为:

E ( x ) = + x p ( x ) d x

性质

1、线性运算规则

期望服从线性性质(可以很容易从期望的定义公式中导出)。因此线性运算的期望等于期望的线性运算:

E ( a x + b y + c ) = a E ( x ) + b E ( y ) + c

这个性质可以推广到任意一般情况:
E ( k = 1 n a i x i + c ) = k = 1 n a i E ( x i ) + c

2、函数的期望

f ( x ) 为x的函数,则 f ( x ) 的期望为:

离散:

E ( f ( x ) ) = k = 1 n f ( x k ) P ( x k )

连续:
E ( f ( x ) ) = + f ( x ) p ( x ) d x

一定要注意, 函数的期望不等于期望的函数,即 E ( f ( x ) ) f ( E ( x ) ) !。

3、乘积的期望

一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。因此,如果x和y相互独立,则 E ( x y ) = E ( x ) E ( y )

期望的运算构成了统计量的运算基础,因为方差、协方差等统计量本质上是一种特殊的期望


方差

定义

方差是一种特殊的期望,被定义为:

V a r ( x ) = E ( ( x E ( x ) ) 2 )

性质

1、展开表示

反复利用期望的线性性质,可以算出方差的另一种表示形式:

V a r ( x ) = E ( ( x E ( x ) ) 2 ) = E ( x 2 2 x E ( x ) + ( E ( x ) ) 2 ) = E ( x 2 ) 2 E ( x ) E ( x ) + ( E ( x ) ) 2 = E ( x 2 ) 2 ( E ( x ) ) 2 + ( E ( x ) ) 2 = E ( x 2 ) ( E ( x ) ) 2

2、常数的方差

常数的方差为0,由方差的展开表示很容易推得。

3、线性组合的方差

方差不满足线性性质,两个变量的线性组合方差计算方法如下:

V a r ( a x + b y ) = a 2 V a r ( x ) + b 2 V a r ( y ) + 2 C o v ( x , y )

其中 C o v ( x , y ) x y 的协方差,下一节讨论。

4、独立变量的方差

如果两个变量相互独立,则:

V a r ( a x + b y ) = a 2 V a r ( x ) + b 2 V a r ( y )

作为推论,如果x和y相互独立: V a r ( x + y ) = V a r ( x ) + V a r ( y )


协方差

定义

两个随机变量的协方差被定义为:

C o v ( x , y ) = E ( ( x E ( x ) ) ( y E ( y ) ) )

因此 方差是一种特殊的协方差。当 x = y 时, C o v ( x , y ) = V a r ( x ) = V a r ( y )

性质

1、独立变量的协方差

独立变量的协方差为0,可以由协方差公式推导出。

2、线性组合的协方差

协方差最重要的性质如下:

C o v ( i = 1 m a i x i , j = 1 n b j y j ) = i = 1 m j = 1 n a i b j C o v ( x i , y j )

很多协方差的计算都是反复利用这个性质,而且可以导出一些列重要结论。

作为一种特殊情况:

C o v ( a + b x , c + d y ) = b d C o v ( x , y )

另外当x=y时,可以导出方差的一般线性组合求解公式:
V a r ( k = 1 n a i x i ) = i = 1 n j = 1 n a i a j C o v ( x i , x j )


相关系数

定义

相关系数通过方差和协方差定义。两个随机变量的相关系数被定义为:

C o r r ( x , y ) = C o v ( x , y ) V a r ( x ) V a r ( y )

性质

1、有界性

相关系数的取值范围为-1到1,其可以看成是无量纲的协方差。

2、统计意义

值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。

参考链接:

CodingLabs

猜你喜欢

转载自blog.csdn.net/missxy_/article/details/80705828