浅尝辄止_数学建模(笔记_皮尔逊相关系数的计算以及数据的描述性统计)

相关系数

一、基础知识(总体)

皮尔逊相关系数是用来衡量两个变量线性相关程度的指标,也就是说在使用皮尔逊相关系数之前,需要提前确定两个变量是线性相关的。


1.总体和样本

  1. 所要考察对象的全部个体叫做总体
  2. 从总体中所抽取的一部分个体叫做总体的一个样本

使用样本均值、样本标准差来评估总体的均值(平均水平)和总体的标准差(偏离程度)


2.均值和协方差

在这里插入图片描述

3.直观理解协方差

X和Y的变化方向 Cov(X,Y)
变化趋势一致
变化趋势相反
X和Y统计独立 0

补充资料:
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。

X,Y独立,那么E(XY)=E(X)E(Y),于是COV(XY)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)=0。

但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。

协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。而取决于协方差的相关性,是一个衡量线性独立的无量纲的数。

协方差的大小和两个变量的量纲有关,因此不适合比较。

二、总体皮尔逊Person相关系数

在这里插入图片描述
皮尔逊相关系数也可以看成剔除了两个变量量纲影响,即将X和Y标准化后的协方差。


三、基础知识(样本)

在这里插入图片描述


四、样本皮尔逊Person相关系数

在这里插入图片描述

样本皮尔逊相关系数算法的分母为n-1


五、注意点

  1. 非线性相关也会导致线性相关系数很大
  2. 离群点,也就是误差点,对相关系数影响很大
  3. 如果两个变量的相关系数很大,也不能说明两者相关
  4. 相关系数计算结果为0,只能说明两者不是线性相关,但是有可能存在更为复杂的相关关系

六、结论

  1. 如果两个变量是线性的关系,则系数绝对值越大,相关性越强,反之,则越小
  2. 倘若不确定两个变量的关系,则皮尔逊相关系数没有具体实际意义

    散点图尤为关键,直观上判断是否具有线性关系,使用SPSS绘图(图形—旧对话框—散点图/点图—矩阵散点图)

描述性统计

Matlab中基本统计量的函数

函数名称 作用
min 提选数组的最小元素
max 提选数组的最大元素
mean 计算数组的均值
median 计算数组的中位数值
skewness 计算数组的偏度
kurtosis 计算数组的峰度
std 计算数组的标准差
var 计算数组的方差
  1. 函数默认按照列计算,如果令第二个参数为1,则变为按行计算
  2. Excel也有数据分析的功能,计算结果还需要排版优化一下
  3. 最好的选择是SPSS在这里插入图片描述

load函数:

如果文件名中有空格,需要加引号
例如:load ‘physical fitness test’


corrcoef函数:

作用是为了计算两个变量之间的相关系数

例:R=corrcoef(A)
返回值是A的相关系数的矩阵,其中A的列表示随机变量(指标),行表示观测值(样本)

例:R=corrcoef(A,B)
返回两个随机变量A和B(两个同维变量)之间的系数

猜你喜欢

转载自blog.csdn.net/ICISTRUE/article/details/108068590