文章目录
相关系数
一、基础知识(总体)
皮尔逊相关系数是用来衡量两个变量线性相关程度的指标,也就是说在使用皮尔逊相关系数之前,需要提前确定两个变量是线性相关的。
1.总体和样本
- 所要考察对象的全部个体叫做总体
- 从总体中所抽取的一部分个体叫做总体的一个样本
使用样本均值、样本标准差来评估总体的均值(平均水平)和总体的标准差(偏离程度)
2.均值和协方差
3.直观理解协方差
X和Y的变化方向 | Cov(X,Y) |
---|---|
变化趋势一致 | 正 |
变化趋势相反 | 负 |
X和Y统计独立 | 0 |
补充资料:
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。
X,Y独立,那么E(XY)=E(X)E(Y),于是COV(XY)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)=0。
但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。而取决于协方差的相关性,是一个衡量线性独立的无量纲的数。
协方差的大小和两个变量的量纲有关,因此不适合比较。二、总体皮尔逊Person相关系数
皮尔逊相关系数也可以看成剔除了两个变量量纲影响,即将X和Y标准化后的协方差。
三、基础知识(样本)
四、样本皮尔逊Person相关系数
样本皮尔逊相关系数算法的分母为n-1
五、注意点
- 非线性相关也会导致线性相关系数很大
- 离群点,也就是误差点,对相关系数影响很大
- 如果两个变量的相关系数很大,也不能说明两者相关
- 相关系数计算结果为0,只能说明两者不是线性相关,但是有可能存在更为复杂的相关关系
六、结论
- 如果两个变量是线性的关系,则系数绝对值越大,相关性越强,反之,则越小
- 倘若不确定两个变量的关系,则皮尔逊相关系数没有具体实际意义
散点图尤为关键,直观上判断是否具有线性关系,使用SPSS绘图(图形—旧对话框—散点图/点图—矩阵散点图)
描述性统计
Matlab中基本统计量的函数
函数名称 | 作用 |
---|---|
min | 提选数组的最小元素 |
max | 提选数组的最大元素 |
mean | 计算数组的均值 |
median | 计算数组的中位数值 |
skewness | 计算数组的偏度 |
kurtosis | 计算数组的峰度 |
std | 计算数组的标准差 |
var | 计算数组的方差 |
- 函数默认按照列计算,如果令第二个参数为1,则变为按行计算
- Excel也有数据分析的功能,计算结果还需要排版优化一下
- 最好的选择是SPSS
load函数:
如果文件名中有空格,需要加引号
例如:load ‘physical fitness test’
corrcoef函数:
作用是为了计算两个变量之间的相关系数
例:R=corrcoef(A)
返回值是A的相关系数的矩阵,其中A的列表示随机变量(指标),行表示观测值(样本)
例:R=corrcoef(A,B)
返回两个随机变量A和B(两个同维变量)之间的系数