机器学习之发明PCA之路

为什么要降维?

在一些信息表中,常常一件物品它的特征属性有很多很多,往夸张的说可能成千上万甚至几千万个,这样就会造成维度爆炸,计算机负荷不了,并且对资源的消耗也非常大,这时候我们就需要降维,但只要降维那必然会造成信息的丢失,所以我们需要在降维的同时让我们信息丢失尽可能的小,这样对总体信息不会造成丢失并且还节省了资源不是很棒棒吗。

举一个极端的例子,假如某学籍数据有两列M和F,其中M列的取值是如何此学生为男性取值1,为女性取值0;而F列是学生为女性取值1,男性取值0。此时如果我们统计全部学籍数据,会发现对于任何一条记录来说,当M为1时F必定为0,反之当M为0时F必定为1。在这种情况下,我们将M或F任意去掉一列实际上没有任何信息的损失,因为只要保留一列就可以完全还原另一列

当然在现实生活中这种极端的例子应该很少,淘宝大家都用过把,每天的后台都会记载各种数据,从经验我们可以知道,‘浏览量’和‘访客数’往往具有较强的关系,不难思考一个商品如果‘浏览量’高(低)那么‘访客数’也会高(低),反之‘访客数’高(低)那么‘浏览量’也应该高(低),这种情况表明我们删除‘浏览量’或‘访客数’任意一列,并不会丢失我们太多的信息。因此我们可以删除一个,降低机器学习算法的复杂度(这里还并未降维)提出疑问:我们到底删除哪一列会让信息损失的少或者根本不是单纯的删除某一列,而是通过某些变换使得原始数据的列变得更少的同时丢失的信息最小,这才是我们的目的。

下面我将要讲几个我要用到的几个数学知识,大家认真理解

 

简单理解:內积与投影

內积,两个维度相同的向量的內积被定义为:(a_1,a_2,...,a_n)^T\cdot (b_1,b_2,...,b_n)=a_1b_1+a_2b_2+...+a_nb_n

內积运算其实就是将两个向量映射为一个实数(对应位置相乘相加)。

上面只是简单理解內积的运算过程,我们更应该理解內积的几何意义,为了简单我设置了两个二维向量如图所示A(x_1,y_1),B(x_2,y_2),图中我们 从A点引一条垂线到B。我们知道原点到垂线与B的交点线段叫做A在B上的投影,再设A与B的夹角是a,则投影的长度是|\overrightarrow{A}|cos(\alpha),其中|\overrightarrow{A}|=\sqrt{x_1^2+y_1^2}是向量A的模,也就是A的长度。

內积还有我们熟悉的一种形式: \overrightarrow{A}\cdot\overrightarrow{B}=|\overrightarrow{A}||\overrightarrow{B}|cos(\alpha) 再将该式子变形以下:\overrightarrow{A}\cdot\overrightarrow{B}=|\overrightarrow{B}||\overrightarrow{A}|cos(\alpha)

从上式可以明显看出来:A与B的內积等于A到B的投影长度乘上B的模。为了方便后续运算我这里假设(注意这里是假设)B的模长是1,即让|\overrightarrow{B}|=1,带入到上式化简为:\overrightarrow{A}\cdot\overrightarrow{B}=|\overrightarrow{A}|cos(\alpha)

重要结论:当我们的B向量模长是1的时候,A与B的內积值相当于A在B上的投影长度。(后面要用)

简单理解:基的概念

我们知道一个向量可以描述为从原点出发到某个点的有向线段。例如下图这个向量:

在代数表示方面,我们经常用线段终点的点坐标表示向量,从图我们可以明确的看出该点的向量是(3,2),这个3是如何得出来的我们可以假设有一条单位向量从x轴的正方向出发,图中的向量向这条单位向量做投影是不是刚好就是3(利用上面刚将的內积与投影的知识理解),这个2同理假设有一条单位向量从y轴的正方向出发,图中向量向这条单位向量做投影刚好也是2,整个过程可以配合下图理解:

 这样我是否能这样表示(3,2)这个向量:3(1,0)^T+2(0,1)^T  (说明一下,这里得明白向量加法)

(中文描述:3倍(1,0)加上2倍(0,1),数学上一般我们用一列表示向量,所以转置一下将一行变为一列)

那么(x,y)这样的向量是不是可以表示为:x(1,0)^T+y(0,1)^T

不难证明所有的二维向量都可以表示为这样的一个形式(术语叫线性组合)。此处的(1,0)和(0,1)就叫做二维空间的一组基。 

所以这里总结出一点:要准确描述向量,要先确定一组基,然后给出基所在直线上的投影值,就可以了。

只不过在二维空间中我们习惯了直接默认使用(1,0)和(0,1)作为一组基而已,我们之所以默认使用(1,0)和(0,1)为基,当然是因为方便了,因为它们分别是x和y轴正方向上的单位向量,因此就使得二维平面上点坐标和向量一一对应,非常方便。当然任何一组线性无关的向量都可以作为基,所谓线性无关直观理解就是两条向量不在一条直线上。

例如我们使用(1,1)和(-1,1)作为一组基,首先一般我们将向量单位化,因为上面我们可以看出来基的模长是1方便我们计算出向量在这组基上的坐标!根据我们学的数学知识很容易可以知道我们只要将这组基除以自身的模长就可以将这组基单位化,例如(1,1)和(-1,1)除以它们自身的模变为(\frac{1}{\sqrt2},\frac{1}{\sqrt2})(-\frac{1}{\sqrt2},\frac{1}{\sqrt2})

现在我们想要获得(3,2)在新基上的坐标,根据內积的几何意义,我们只需要计算(3,2)与两个基的內积,不难的到新的坐标为(\frac{5}{\sqrt2},-\frac{1}{\sqrt2}),结合图我再分析一下:

图中蓝色线就是我们的这组新基(\frac{1}{\sqrt2},\frac{1}{\sqrt2})(-\frac{1}{\sqrt2},\frac{1}{\sqrt2})。我们在新基上再去看原先的(3,2)坐标,明显发现它在新基的第四象限内,也正好证明了我们的新坐标(\frac{5}{\sqrt2},-\frac{1}{\sqrt2})是没有错的。

上面我提到过只要是线性无关就可以作为一组基,但为什么都是使用的正交基,这个问题保留我们继续往下探索。

简单理解:基变换的矩阵表示

 还是拿上面的例子,想一下,将(3,2)变换为新基上的坐标,第一个新的坐标分量就是用(3,2)与第一个基做內积运算,第二个新的坐标分量就是用(3,2)与第二个基做內积运算。这里我带入矩阵来表示这一运算:

                                                                       \begin{pmatrix} 1/\sqrt2 & 1/\sqrt2 \\ -1/\sqrt2 & 1/\sqrt2 \end{pmatrix}\begin{pmatrix} 3 \\ 2 \end{pmatrix}=\begin{pmatrix} 5/\sqrt2 \\ -1/\sqrt2 \end{pmatrix}

不难看出,其中矩阵的两行分别为两个基,乘以原向量,其结果刚好为新基的坐标。在这里我假设有m个二维向量,也用同样的方式也很容易计算出这m个二维向量在新基上的坐标。例如(1,2),(2,3),(3,4)想变换到刚才那组基上:

                                                         \begin{pmatrix} 1/\sqrt2 & 1/\sqrt2 \\ -1/\sqrt2 & 1/\sqrt2 \end{pmatrix}\begin{pmatrix} 1&2&3 \\ 2&3&4 \end{pmatrix}=\begin{pmatrix} 3/\sqrt2 &5/\sqrt2&7/\sqrt2\\ 1/\sqrt2&1/\sqrt2&1/\sqrt2 \end{pmatrix}

于是向量一组基变换被干净的表示为矩阵的相乘

小结结论:一般地,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个基按照行组成组成A,然后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB的第m列为B中第m列变换后的结果

为了方便理解,我将这一数学形式给各位写出来:(这里的a字母代表一个特征,不同的下标只是表示该特征的不同值而已,后面的b字母也是同样的意义)

                                                        \begin{pmatrix} p_1\\ p_2\\ \vdots\\p_R \end{pmatrix}\begin{pmatrix} a_1&a_2&\cdots&a_M \end{pmatrix}=\begin{pmatrix} p_1a_1&p_1a_2&\cdots&p_1a_M\\ p_2a_1&p_2a_2&\cdots&p_2a_M\\ \vdots&\vdots&\ddots&\vdots\\p_Ra_1&p_Ra_2&\cdots&p_Ra_M \end{pmatrix}

                                                           A                        B              =                     AB

如果各位还有不理解我这里补充几个点方便各位理解。

p_i是一个行向量,表示第i个基,a_j是一个列向量,代表第j个原始数据

维度分析,我们的A是一个R×N,B是N×M,AB是R×M(矩阵相乘必须前面矩阵列与后面矩阵行相等才能相乘),我们可以看出原始数据时N个,变为了R个,所以变换后的维度取决于基的数量,这个大家没有异议吧。那当我们的R小于N时,是不是就达到了一种降维的效果呢。好了,这一小节结束,相信大家已经有了自己的一丝想法了。

简单理解:协方差矩阵及优化目标

理解的好上面讲完的内容的同志,跟着节奏,上面提到如果基的维度少于原始数据本身的维度,就可以达到降维的效果。

引出问题:如何选择基最优?或者说我们将N维的原始数据降维到小于N维的K维,如何选择这K个基原始数据信息损失最少。

为了方便理解,我以一个具体的实例展开。假设有五条数据,写成矩阵如下:

                                                                                    \begin{pmatrix} 1 & 1&2&4&2 \\ 1&3&3&4&4 \end{pmatrix}

相信有一点底子的同学清楚一行是代表一个特征,为了方便后续处理我将这些数据进行中心化(每个值减去他们该行特征的均值),中心化后的数据均值为0(这样做的好处后面在做运算的时候大家会体会到)。

我们看上面的数据,第一个特征的的均值是2,第二个特征的均值是3(再次强调一行代表一个特征),所以变换后的数据:

                                                                                   \begin{pmatrix} -1 & -1&0&2&0 \\ -2&0&0&1&1 \end{pmatrix}

我们将这五条数据可视化让大家仔细瞅瞅:

现在我想将这些二维数据变为一维数据,通过上一节的基变换我们知道,这个问题实际就是在二维平面中选择一个方向(也能说是一条直线),让所有数据都投影到这个方向的直线上,用投影值表示原始数据记录。

如果这些数据向x轴投影,你会发现从5个点变为了3个点,向y轴投影,也是同样的结果,这样大的信息损失肯定是不允许的,所以x轴和y轴都不是好的投影选择。直观目测y=x这条直线作为投影线,投影后的五个点还是可以区分的。

我要讲个抽象的东西了,希望各位发挥想象,如果我们就以x轴偏移一点作为投影线,会发现有2对点离的很近,那它们表示的信息岂不是就差不多,所以我们希望投影后的点尽可能分散,在数学上这叫做离散程度,用 方差来表示,也就是说我们希望投影后值的方差越大越好。(怕大家想象力不够我手绘了一份图供大家参考,红色线就是x轴偏移一点的投影线)

方差

上文说到我们希望投影后的方差尽可能大,此处,一个特征的方差可以看做是每个元素与特征均值差的平方和的均值,公式为:

                                                                           Var(a)=\frac{1}{m}\sum_{i=1}^{m}{(a_i-\mu)^2}   (\mu代表该特征均值)

由于上面我们已经将每个特征进行了均值化了,那么每个特征自身的均值都是为0的,因此方差可以直接使用每个元素的平方和除以元素个数表示:

                                                                           Var(a)=\frac{1}{m}\sum_{i=1}^{m}{a_i^2}

于是上面的问题被转化为:寻找一个一维基,使得所有数据变换为这个基上的坐标后,方差最大。

协方差

对于上面二维降成一维的问题来说,找到那个使得方差最大的方向就可以了。不过对于更高维,还有一个问题需要解决。考虑三维降到二维问题。与之前相同,首先我们希望找到一个方向使得投影后方差最大,这样就完成了第一个方向的选择,继而我们选择第二个投影方向。

如果我们还是单纯只选择方差最大的方向,很明显,这个方向的直线几乎与第一个方向上选择的直线几乎重合,显然这样的维度是没有用的,因此,应该有其他约束条件。从直观上说,让两个特征尽可能表示更多的原始信息,我们是不希望它们会表示出一样的信息来,这样我们有了一个约束条件,这两个特征间完全相互独立,也就是完全线性无关(这里大家要明白线性相关和线性无关的概念),因为相关性意味着两个特征不是相互独立,必然存在重复表示的信息。

数学上用协方差表示两个特征间的相关性,公式为:

                                                                        Cov(a,b)=\frac{1}{m}\sum_{i=1}^{m}{(a_i-\mu_a)(b_i-\mu_b)}

由于上面已经将每个特征进行了均值化,所以各特征自身的均值是为0的,将上式可以化简为:

                                                                        Cov(a,b)=\frac{1}{m}\sum_{i=1}^{m}{a_ib_i}

可以看到,在字段均值为0的情况下,两个字段的协方差简洁的表示为其内积除以元素数m。

当协方差为0时,表示两个特征完全独立。为了让协方差为0,我们选择第二个基时只能在与第一个基正交的方向上选择。因此最终选择的两个方向一定是正交的。(两个向量內积为0代表两个向量 是垂直的这个各位应该知道的吧)

至此,我们得到了降维问题的优化目标:将一组N维向量降为K维(K大于0,小于N),其目标是选择K个单位(模为1)正交基,使得原始数据变换到这组基上后,各特征两两间协方差为0,而特征自身的方差则尽可能大。

 

协方差矩阵

从上我们看到,最终要达到的目的与字段内方差及字段间协方差有密切关系。

假设我们只有a和b两个字段,那么我们将它们按行组成矩阵X:

                                                                 X=\begin{pmatrix} a_{1} & a_{2}&\cdots&a_m \\ b_{1} & b_{2}&\cdots&b_m \end{pmatrix}

然后我们用X乘以X的转置,并乘上系数1/m:

                                                                \frac{1}{m}XX^T=\begin{pmatrix} \frac{1}{m}\sum_{i=1}^{m}{a_i^2} & \frac{1}{m}\sum_{i=1}^{m}{a_ib_i} \\ \frac{1}{m}\sum_{i=1}^{m}{a_ib_i} & \frac{1}{m}\sum_{i=1}^{m}{b_i^2} \end{pmatrix}

奇迹出现了!这个矩阵对角线上的两个元素分别是两个特征的方差,而其它元素是a和b的协方差。两者被统一到了一个同一个矩阵当中(说奇迹有点夸张,数学家的结论直接引用)

这里大家还要明白一点就是XX^T相乘出来的矩阵一定是一个方阵,而且还是一个实对称矩阵。对称矩阵的意思就是一个矩阵等该矩阵的逆。(还想知道更多的细节,大家可以百度一下)

这样得出了这一小节的结论:设我们有M个N维数据记录,将其按列排成N×M的矩阵X,设C=\frac{1}{m}XX^T,则C是一个对称矩阵,其对角线分别是各个特征自身的方差,而第i行j列和j行i列元素相同,表示i和j两个字段的协方差

协方差矩阵对角化

根据上述推导,我们发现要达到优化目的,等价于将协方差矩阵对角化:对角化的意思是除对角线外的其它元素化为0。如果之后再将对角线上的元素按大小从上到下排列,那这样我们就达到了优化目的。这样说可能还不是很明晰,我们进一步看下原矩阵与基变换后矩阵协方差矩阵的关系:

案例一:设原始数据矩阵X对应的协方差矩阵为C,而P是一组基按行组成的矩阵,设Y=PX,则Y为X对P做基变换后的数据。设Y的协方差矩阵为D,我们推导一下D与C的关系:

                                                                              D=\frac{1}{m}YY^T

                                                                                   =\frac{1}{m}(PX)(PX)^T

                                                                                   =\frac{1}{m}PXX^TP^T

                                                                                   =P(\frac{1}{m}XX^T)P^T

                                                                                   =PCP^T

这个案例先放在这,我带大家明白几个需要掌握的基础定理:

1.实对称矩阵分解出来的特征向量必然正交,正交也就意味着所有的特征向量线性无关。(提示:可以作为基来使用)

2.正交矩阵的逆矩阵等于该正交矩阵的转置矩阵:A^{-1}=A^T

3.若存在可逆矩阵P,使得P^{-1}AP=\Lambda,其中\Lambda是对角矩阵,则称A可相似对角化。(下面有我手写方便各位理解,这里需要大家明白特征值和特征向量的概念)

4.从上面图中得出定理:设A为n阶对称矩阵,则必有正交矩阵P,使P^{-1}AP=\Lambda,其中\Lambda是以A的n个特征值为对角元素组成的对角矩阵,P是A的特征向量组成的矩阵。

(数学这里我有两个链接专门讲的特征值和特征向量与矩阵的相似对角化,希望可以看一看方便你理解这里的数学知识,一个也就十几分钟:       链接: https://pan.baidu.com/s/1ZnhNxVpgEiJDE5zCtHOaLw 提取码: zk9w)

案例二:

由上面几条定理可知,一个n行n列的实对称矩阵A一定可以找到n个正交特征向量,设这n个特征向量为e_1,e_2,\cdots,e_n,我们将其按列组成矩阵:E=(e_1,e_2,\cdots,e_n)

则可以对A进行相似对角化:

                                                                 E^{-1}AE=\Lambda=\begin{pmatrix} \lambda_{1} & & \\ & \ddots & \\ & & \lambda_{n} \end{pmatrix}

上面几条定理说了如果A是实对称矩阵那么分解出来的特征向量是正交特征向量,正交特征向量组成的矩阵是正交矩阵,正交矩阵有A^{-1}=A^T,这里为了大家理解方便,改为一样的表达E^{-1}=E^T,那么上式可以改为:

                                                               E^{T}AE=\Lambda=\begin{pmatrix} \lambda_{1} & & \\ & \ddots & \\ & & \lambda_{n} \end{pmatrix}

综合案例一和案例二,我们会发现它们最后的式子只是将P转置一下就可以得到另外一个,那么若P=E^T时两个式子是不是就可以认为完全相等。

(下面的结论就看大家理解了多少了)

经过上面一系列描述我们可以看出,我们要找的P不是别的,而是可以使原始协方差矩阵C对角化的P。这里的P也就是C自身的特征向量组成的矩阵,再将对角元素按从大到小排列(这里要注意特征值从大到小排列时,每个特征值对应的特征向量也要跟着一起变化),再将每个特征向量单位化变成模长1的向量(这个是方便计算,前面说过了),那么P的前k行就们要寻找的基,用P的前k行组成的矩阵乘以矩阵X就使得X矩阵 从N维降到了K维。

没了,结束了,我们一起发明了PCA,降维,术语叫主成分分析。

总结下大致步骤:

1.将原始数据按列组成n行m列的矩阵X

2.将X的每一行(代表一个特征)进行零均值化,即减去这一行的均值

3.求协方差矩阵C=\frac{1}{m}XX^T

4.求出协方差矩阵的特征值及对应的特征向量(记得将特征向量单位化)

5.将特征向量按对应特征值,大小从上到下按行排列成矩阵,取前k行矩阵P

6.Y=PX的Y即为我们将为后的数据。

发布了3 篇原创文章 · 获赞 1 · 访问量 83

猜你喜欢

转载自blog.csdn.net/qq_45079973/article/details/104010933
今日推荐