主成分分析之基本概念—降维技术
假设一下场景:
- 一百多个自变量做聚类分析
- 两个变量做线性回归存在多重共线性,去掉其中一个又损失了回归的精度
这种情况下,最优的解法就是将多个变量融合为一个新的变量,使得变量的个数大大降低(降维),并且能够将有相关关系的几个指标合并为一个,消除变量之间的多重共线性, 这种 设法将原先众多的具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标的技术,称为主成分技术。
例子:
y1 x1 x2 x3
3 6 0 100
5 9 0 100
7 15 0 100
4 9 0 100
8 15 0 100
9 7 0 100
10 19 0 100
2 3 0 100
6 13 0 100
1、回归就是通过自变量的变化来解释因变量的变化!!!
2、Y和x做回归时,x2和x3本身不发生任何变化(本身无方差),无法用来及时y的回
归(因为用一个不变的量来解释变的量是不可能的),主成分分析就是 用有方差且
方差够大的变量来做组合。
3、 主成分分析-降维:以尽可能小的牺牲精度为代价来去因子,用更少的变量来解释事实;
4、 主成分分析的数据概念---方差最大
a) 自变量的方差足够大,才有可能解释因变量的方差足够大;
案例: 身高x1,体重x2,胸围x3,坐高x4 分析
####用数据框形式输入数据:
X1=c(148,139,160,……148)
X2=c(41,34,45,….,66)
X3=c(72,71,77,…,70)
X4=c(78,76,86,..)
#做主成分分析,显示分析效果
Student.pr<-princomp(student,cor=TRUE)
Summary(student.pr,loadings=TRUE)
## 做预测
Predict(student.pr)
##做碎石图
Screeplot(student.pr,type=”lines”)