L4-数字特征:期望、方差、协方差、相关系数等

数字特征是指能够刻画随机变量某些方面的性质特征的量。

(1)期望(mean)

期望也就是均值,是概率加权下的“平均值”,反映的是随机变量平均取值大小。
连续型: E ( X ) = x f ( x ) d x E(X)=\int_{-\infty}^{\infty} xf(x)\, dx 离散型: E ( X ) = i x i p i E(X) = \sum_{i} x_ip_i 期望的性质:假设C为一个常数,X和Y维两个随机变量,则

  • E ( C ) = C E(C)=C
  • E ( C X ) = C E ( X ) E(CX)=CE(X)
  • E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y)
  • X X Y Y 相互独立 ⇔ E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y)

(2)方差(Variance)

方差衡量随机变量或一组数据离散程度的度量,用来度量随机变量和其期望均值之间的偏离程度。
连续型: D ( X ) = a b ( x μ ) 2 f ( x ) d x D(X) = \int_{a}^{b} (x-\mu)^2 f(x)\, dx 离散型: D ( X ) = i = 1 n ( x i μ ) 2 p i D(X) = \sum_{i=1}^{n} (x_i-\mu)^2p_i 根据期望的定义,
D ( X ) = E ( ( X E ( X ) ) 2 ) = E ( X 2 ) ( E ( X ) ) 2 D(X)=E((X-E(X))^2 )=E(X^2 )-(E(X))^2

假设C为一个常数,X和Y是两个随机变量,那么方差有以下性质:

  • D ( C ) = 0 D(C)=0
  • D ( C X ) = C 2 D ( X ) D(CX)=C^2 D(X)
  • D ( C + X ) = D ( X ) D(C+X)=D(X)

常见分布的期望与方差

在这里插入图片描述

(3)标准差(Standard Deviation)

σ = ( D ( X ) ) \sigma = \sqrt{(D(X))}

(4)协方差(Covariance)

协方差用于衡量两个变量的总体误差;当两个变量相同时,协方差就是方差。

C o v ( X , Y ) = E { ( X E ( X ) ) ( Y E ( Y ) ) } = E [ X Y X E ( Y ) Y E ( X ) + E ( X ) E ( Y ) ] = E ( X Y ) E ( X ) E ( Y ) \begin{aligned}Cov(X,Y) & = E\{(X-E(X))(Y-E(Y))\} \\ & = E[XY-XE(Y)-YE(X)+E(X)E(Y)] \\ & = E(XY)-E(X)E(Y) \end{aligned}

协方差是两个随机变量具有相同方向变化趋势的度量:

  • C o v ( X , Y ) > 0 Cov(X,Y)>0 ,则 X X Y Y 变化趋势相同;
  • C o v ( X , Y ) > 0 Cov(X,Y)>0 ,则 X X Y Y 变化趋势相反;
  • C o v ( X , Y ) = 0 Cov(X,Y)=0 ,则 X X Y Y 不相关。

假设 C C 为一个常数, X X Y Y 是两个随机变量,那么方差有以下性质:

  • C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X)
  • C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX,bY)=abCov(X,Y)
  • C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)

根据方差定义, D ( X ± Y ) = D ( X ) + D ( Y ) ± 2 C o v ( X , Y ) D(X±Y)=D(X)+D(Y)±2Cov(X,Y)

  • 如果X和Y相互独立,则 C o v ( X , Y ) = 0 Cov(X,Y)=0 ,此时 D ( X ± Y ) = D ( X ) + D ( Y ) D(X±Y)=D(X)+D(Y)
  • 如果 C o v ( X , Y ) = 0 Cov(X,Y)=0 ,则 X X Y Y 不相关(不能推出不独立)。

协方差矩阵

n n 个随机向量 { X 1 , X 2 , X 3 , , X n } \{X_1,X_2,X_3,…,X_n\} ,任意两个元素 x i x_i x j x_j 都可以得到一个协方差,从而形成一个 n n n*n 的矩阵,该矩阵称为协方差矩阵,协方差矩阵为对称矩阵。

C = [ c 11 c 12 . . . c 1 n c 11 c 12 . . . c 1 n c n 1 c n 2 . . . c n n ] C = \begin{bmatrix}c_{11} & c_{12}& ... & c_{1n}\\ c_{11} & c_{12}& ... & c_{1n} \\ \vdots & \vdots& \ddots & \vdots \\ c_{n1} & c_{n2}& ... & c_{nn}\end{bmatrix}

c i j = E { [ X i E ( X i ) ] [ X j E ( X j ) ] } = C o v ( X i , X j ) c_{ij}=E\{[X_i-E(X_i )][X_j-E(X_j )]\}=Cov(X_i,X_j)

(5)Pearson相关系数

ρ ( X , Y ) = C o v ( X , Y ) ( σ X σ Y ) \rho (X,Y)= \frac{Cov(X,Y)}{(\sigma_X \sigma_Y )}
1 ρ ( X , Y ) 1 -1 \leq \rho(X,Y) \leq 1

  • ρ ( X , Y ) > 0 \rho(X,Y)>0 ,则 X X Y Y 正相关;
  • ρ ( X , Y ) = 0 \rho(X,Y)=0 ,则 X X Y Y 相互独立,并且不存在相关性;
  • ρ ( X , Y ) < 0 \rho(X,Y)<0 ,则 X X Y Y 负相关。

(6)原点矩与中心矩

假设 X X Y Y 是随机变量,若 E ( X k ) , k = 1 , 2 , E(X^k ),k=1,2,… 存在,则称它为 X X k k 阶原点矩,简称 k k 阶矩。

  • E [ X E ( X ) ] k , k = 1 , 2 , E{[X-E(X)]^k },k=1,2,… 存在,则称它为 X X k k 阶中心矩。
  • E [ X c ] k , k = 1 , 2 , E{[X-c]^k },k=1,2,… 存在,则称它为 X X 关于点 c c k k 阶矩。
  • E X k Y p , k p = 1 , 2 , E{X^k Y^p },k、p=1,2,… 存在,则称它为 X X Y Y k + p k+p 阶混合原点矩。
  • E [ X E ( X ) ] k [ Y E ( Y ) ] p , k p = 1 , 2 , E{[X-E(X)]^k [Y-E(Y)]^p },k、p=1,2,… 存在,则称它为 X X Y Y k + p k+p 阶混合中心矩。

E ( X ) E(X) X X 的一阶原点矩; D ( X ) D(X) X X 的二阶中心矩; C o v ( X , Y ) Cov(X,Y) X X Y Y 的二阶混合中心矩。

(7)峰度(peakedness; kurtosis)

峰度又称峰态系数。表示了概率密度分布曲线在平均值处峰值高低的特征数,反映了峰部的尖度。
k u r t o s i s = i = 1 N ( x x ˉ ) 4 ( N 1 ) σ 4 kurtosis= \frac {\sum_{i=1}^N(x-\bar{x})^4}{(N-1)\sigma^4}
σ \sigma 为方差。

(8)偏度(skewness)

偏度描述分布偏离对称性程度的特征数,当分布左右对称时,偏度系数为0;当偏度系数大于0时,即重尾在右侧时,该分布为右偏;当偏度系数小于0时,即重尾在左侧时,该分布为左偏。
s k e w n e s s = i = 1 N ( x x ˉ ) 3 ( N 1 ) σ 3 skewness=\frac {\sum_{i=1}^N(x-\bar{x})^3}{(N-1)\sigma^3}
σ \sigma 为方差。

猜你喜欢

转载自blog.csdn.net/apr15/article/details/105748887