PCA主成分分析理解

一、理论概述

1)问题引出

先看如下几张图:

  从上述图中可以看出,如果将3个图的数据点投影到x1轴上,图1的数据离散度最高,图3其次,图2最小。数据离散性越大,代表数据在所投影的维度上具有越高的区分度,这个区分度就是信息量。如果我们用方差来形容数据的离散性的话,就是数据方差越大,表示数据的区分度越高,也就是蕴含的信息量是越大的。

  基于这个知识,如果对数据进行降维的话,图1投影到x1轴上面,数据的离散度最大;图2投影到x2轴上离散度最大,图3呢?图3需要找到一个新的坐标轴,使其投影到上面的数据方差最大,如下图所示:

从上面图中可以看出,在新的坐标轴上进行投影的话,图3可以选择一个离散度最大的轴进行投影,在尽量保留最多信息量的情况下,进行了数据降维。

如何找到这样的坐标轴呢?

经过数学上的推导的可以知道,特征值对应的特征向量就是理想中想取得正确的坐标轴,而特征值就等于数据在旋转之后的坐标上对应维度上的方差。也就是说,直接求出矩阵A的特征值及其对应的特征向量,就能找到旋转后正确的坐标轴。例如取前k个最大特征值对应的特征向量作为新轴的话,就是将数据降维到k维空间,特征值描述对应特征向量方向上包含的信息量,前k个特征值之和除以总的特征值之和,就是降维后保留原信息的比例。

猜你喜欢

转载自www.cnblogs.com/gczr/p/10348446.html