《统计学习方法》笔记——PCA(未完待更)

16.1 总体主成分分析

16.1.1 基本想法

数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的大部分信息

主成分分析中,

  • 首先对给定数据进行规范化,使得数据每一变量的平均值为0,方差为1
  • 之后,对数据进行正交变换,原来由线性相关变量表示的数据,通过正交变换成由若干个线性无关的新变量表示的数据。新变量是可能的正交变换中变量的方差和最大的,方差表示在新变量上信息的大小
  • 最终,将新变量依次称为第一主成分,第二主成分等

数据集合集合中的样本由实数空间中的点表示,空间的一个坐标轴表示一个变量,规范化处理后得到的数据分布在原点附近。对原坐标系中的数据进行主成分分析等价于坐标系旋转变换,将数据投影到新的坐标轴上,新的坐标系的第一坐标轴、第二坐标轴等分别表示第一主成分、第二主成分等,数据在每一轴上的坐标值的平方表示相应变量的方差;并且,这个坐标系是在所有可能的新的坐标系中,坐标轴上的方差的和最大的

对方差最大的解释:

y 1 = O A 2 + O B 2 + O C 2 样本在变量y_1上的方差和 = OA'^2+OB'^2 + OC'^2
O A 2 + O B 2 + O C 2 = c o n s t v a r i a b l e \because OA^2+OB^2 + OC^2 = const variable
m a x   O A 2 + O B 2 + O C 2 = m i n   A A 2 + B B 2 + C C 2 \therefore max \ OA'^2+OB'^2 + OC'^2 = min \ AA'^2+BB'^2 + CC'^2

故,在旋转坐标中选取离样本点的距离平方和最小的轴
在这里插入图片描述
在数据总体上进行的主成分分析成为总体主成分分析,在有限样本上进行的主成分分析成为样本主成分分析

16.1.2 定义和导出

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

16.1.3 主要性质

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

16.1.4 主成分的个数

先给出一个定理,说明选择 k 个主成分是最优选择
在这里插入图片描述
定理16.2表明,当 x \mathbf x 的线性变化 y \mathbf y B = A q B=A_q 时,其协方差矩阵 Σ y \Sigma_{\mathbf y} 的迹 t r ( Σ y ) tr(\Sigma_{\mathbf y}) 取得最大值。换句话说,当取 A A 的前 q q 列取 x \mathbf x 的前 q q 个主成分时,能够最大限度地保留原有变量方差的信息

在这里插入图片描述
定理16.3可以理解为,当舍弃 A A 的后 p p 列,即舍弃变量 x \mathbf x 的后 p p 个主成分时,原有变量的方差的信息损失最少

以上两个定理可以作为选择 k k 个主成分的理论依据。具体选择 k k 的方法,通常利用方差贡献率

在这里插入图片描述
在这里插入图片描述

16.1.5 规范化变量的总体主成分

在实际问题中,不同变量可能有不同的量纲,直接求主成分有时会产生不合理的结果。为了消除这个影响,常常对各个随机变量实施规范化,使其均值为 0,方差为 1

在这里插入图片描述
显然,规范化随机变量的协方差矩阵就是相关矩阵 R R ,主成分分析通常在规范化随机变量的协方差矩阵,即相关矩阵上进行

在这里插入图片描述

16.2 样本主成分分析

发布了152 篇原创文章 · 获赞 22 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/qq_38204302/article/details/105012084
今日推荐