09-30 主成分分析--降维

主成分分析之基本概念—降维技术

假设一下场景:

  1. 一百多个自变量做聚类分析
  2. 两个变量做线性回归存在多重共线性,去掉其中一个又损失了回归的精度

这种情况下,最优的解法就是将多个变量融合为一个新的变量,使得变量的个数大大降低(降维),并且能够将有相关关系的几个指标合并为一个,消除变量之间的多重共线性, 这种 设法将原先众多的具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标的技术,称为主成分技术。

例子:

	y1	x1	x2	x3
	3	6	0	100
	5	9	0	100
	7	15	0	100
	4	9	0	100
	8	15	0	100
	9	7	0	100
	10	19	0	100
	2	3	0	100
	6	13	0	100

1、回归就是通过自变量的变化来解释因变量的变化!!!

2、Y和x做回归时,x2和x3本身不发生任何变化(本身无方差),无法用来及时y的回

归(因为用一个不变的量来解释变的量是不可能的),主成分分析就是 用有方差且

方差够大的变量来做组合。

3、	主成分分析-降维:以尽可能小的牺牲精度为代价来去因子,用更少的变量来解释事实;

4、	主成分分析的数据概念---方差最大

a)	自变量的方差足够大,才有可能解释因变量的方差足够大;

案例: 身高x1,体重x2,胸围x3,坐高x4 分析

####用数据框形式输入数据:
X1=c(148,139,160,……148)
X2=c(41,34,45,….,66)
X3=c(72,71,77,,70)
X4=c(78,76,86,..)

 #做主成分分析,显示分析效果
Student.pr<-princomp(student,cor=TRUE)
Summary(student.pr,loadings=TRUE)

## 做预测
Predict(student.pr)

##做碎石图
Screeplot(student.pr,type=”lines”)

猜你喜欢

转载自blog.csdn.net/weixin_46400833/article/details/108878758