周志华《机器学习》 学习笔记
最近开始学习机器学习,参考书籍西瓜书,做点笔记。
第十章 降维与度量学习
本章学习过程参考博客:
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用:
连接:SVD奇异值分解
10.1 k临近学习
k临近学习(kNN):监督学习方法。给定测试样本,基于某种距离度量找出训练集中最近的k个样本,然后根据k个样本的信息进行预测;
预测方式:投票(分类)、平均(回归);
通过书上推导,最邻近分类器虽然简单,但是泛化错误率不超过贝叶斯最优分类器的错误率的两倍;
10.2 低维嵌入
在高维情形下,出现数据样本稀疏、距离计算困难等问题,被称为维数灾难;
缓解维数灾难的途径:降维;
多维缩放(MDS):原始空间中央本之间的距离在低维空间中得以保持,即保持距离不变;
目标是获得样本在低维空间的表示Z;
令B=Z^T*Z,其中B是将为后的样本内积矩阵:
降维后的样本Z被中心化(即减去平均值),则
=========》
综合上面得到bij的公式:
用上面的公式可以得到内积矩阵B;
对B做特征值分解,并假定有d*个非零特征值,则Z的表达式为:
MDS算法:根据公式计算内积矩阵B,再对B做特征值分解,取d个最大特征值构成对角矩阵,并取相应的特征向量矩阵求得Z;
10.3 主成分分析
PCA可从两方面推导:最近重构性(样本点到这个超平面的距离都足够近)、最大可分性(样本点在这个超平面上的投影能尽可能分开,即方差大);
用第二种方式推导更好理解,这里使用在网上找到的一个动态图展示,
从图中可以看出,PCA是一种利用线性变换的降维方式;
PCA过程:对样本进行中心化,计算协方差矩阵,对协方差矩阵做特征值分解,去最大d个特征值对应的特征向量,输出投影矩阵;
更多的理解分析可以参考开头链接;
10.4 核化线性降维
从书上例子,直接使用线性降维方法对三维空间观察到的样本点进行降维,则将丢失原本的低维结构。
非线性降维的常用方法:核主成分分析(KPCA);
投影后的坐标:
KPCA计算开销较大;
10.5 流形学习
流形学习借鉴拓扑流形概念的降维方法;
在高维空间中两点的距离是测地线距离,即沿着曲面走的距离;
测地线距离计算:从起点开始向终点方向,选出最近的欧氏距离点,然后再以该点向终点方向选出最近欧氏距离点,以此类推,直到包含终点为止;
得到距离后,可通过Isomap算法获得样本点在低维空间的坐标;
后面的内容由于时间关系不再深究,待使用时再回过头来学习;
第十章降维与度量学习,这一章确实挺难的,公式推导、矩阵的理解等等,花了较多时间复习矩阵,目前对PCA和SVD有了一定的理解,需要在以后实践中更进一步的学习。总体来说本章有一定难度,笔记做的也有点凌乱,以后还需要花很大功夫研究这一块。
我的笔记做的比较粗糙,还请见谅。