机器学习笔记14-特征选择

为什么要进行特征选择：（1）减轻维数灾难的问题，这与降维的动机相似；（2）去除不相关的特征会降低学习难度。
如何构建特征选择子集：（1）前向搜索：逐个添加特征；（2）后向搜索：从所有特征中逐个剔除特征。
如何评价特征选择子集：信息增益
常见的特征选择方法大致可分为三类：过滤式、包裹式、和嵌入式。
过滤式：先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。
包裹式：包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之，包裹式特征选择的目的就是为了给定学习器选择最有利于其性能、量身定做的特征子集。
嵌入式：嵌入式特征选择是将特征选择过程与学习器训练过程融为一体，两者在一个优化过程中完成。比如正则化时，用 $L_1$ 正则化，它可以得到稀疏解
——————————————————————————————————————————————————————
压缩感知
在现实任务中，我们常希望根据部分信息来恢复全部信息。假定有长度为m的离散信号，以远小于奈奎斯特采样定理要求的采样率进行采样，得到长度为n的采样后信号y， $n \ll m$ ，即 $y=\Phi x$ 。 $\Phi \in R^{n \times n}$ 是对信号x的测量矩阵。在已知离散信号x和测量矩阵 $\Phi$ 时要得到测量值y很容易。然而，若将测量值和测量矩阵传输出去，能否恢复原信号？一般是不可能的，因为 $n \ll m$ ，方程是一个欠定方程，无法轻易求出数值解。
假设存在某个线性变换 $\psi$ ，使得 $x$ 可表示为 $\psi s$ ，于是 $y = \phi \psi s$ 。当 $s$ 具有稀疏性时，则可以恢复出 $x$ 。这时因为稀疏性使得未知因素的影响大大减小。此时 $\psi$ 为稀疏基，而 $\phi \psi$ 的作用相当于字典，能将信号转换为稀疏表示。
在很多应用中均可获得具有稀疏性的 $s$ ，例如图像或声音的数字信号通常在时域上不具有稀疏性，但经过傅里叶变换、余弦变换、小波变换等处理后会转化为频域上的稀疏信号。
压缩感知关注的是如何利用信号本身所具有的稀疏性，从部分观测样本中恢复原信号。压缩感知分为感知测量和重构恢复两个阶段。感知测量关注原始信号如何获得稀疏样本表示，包括傅里叶变换、字典学习、稀疏编码等。重构恢复关注的是如何基于稀疏性从少量观测中恢复原信号，这是压缩感知的精髓。

参考：
周志华《机器学习》

机器学习笔记14-特征选择

机器学习笔记14-特征选择

猜你喜欢