特征选择与稀疏学习

将特征子集搜索机制与子集评价机制相结合，即可得到特征选择方法。

常见的特征选择方法大致可分为三类：过滤式（filter）、包裹式（wrapper）和嵌入式（embedding）

过滤式选择

先用特征选择过程对初始特征进行“过滤”，再用过滤后的特征来训练模型。

Relief: 设计了一个“相关统计量”来度量特征的重要性。该统计量是一个向量，其每个分量分别对应一个初始特征，而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。Relief的关键是如何确定相关统计量。

猜中近邻（Xi,nh）

猜错近邻（Xi，nm）

Xi在j上等于Xi,nh，不等于Xi，nm，diff=1, 对区分A，B类有益

Xi在j上不等于Xi,nh，等于Xi，nm，diff=-1, 对区分A，B类无益

Xi在j上不等于Xi,nh，不等于Xi，nm，diff=0 对区分A，B类无益

Xi在j上等于Xi,nh，等于Xi，nm，diff=0, 对区分A，B类无益

若Xi与其猜中近邻Xi,nh在属性j上的距离小于Xi与其猜错近邻Xi，nm的距离，则说明属性j对区分同类与异类样本是有益的。于是，增大属性j所对应的统计量分量，反之，说明属性j起负面作用，于是减小属性j所对应的统计量分量。最后，对基于不同样本得到的估计结果进行平均，就得到各属性的相关统计量分量，分量值越大，则对应属性的分类能力就越强。

Relief只需在数据集采样上而不必在整个数据集上估计相关统计量，Relief的时间开销随采样次数以及原始特征数线性增长，因此是一个运行效率很高的过滤式特征选择算法。

Relief是为二分类问题设计的，其扩展变体Relief-F能处理多分类问题。

最终只需指定一个阈值R，选择比R大的相关统计量所对应的特征，也可指定欲选取的特征个数k，然后选择相关统计量分量最大的k个特征。

包裹式选择

直接把最终将要使用的学习器的性能作为特征子集的评价准则。

LVW（1996）：它在拉斯维加斯方法框架下使用随机策略来进行子集搜索，并以最终分类器的误差为特征子集评价准则。

补充： 拉斯维加斯方法

从最终学习器性能来看，包裹式特征选择比过滤式特征选择更好，但由于LVW算法中特征子集搜索采用了随机策略，而每次特征子集评价都需要训练学习器，计算开销很大，因此算法设置了停止条件控制参数T，然而整个LVW算法是基于拉斯维加斯方法框架，若初始特征数很多，T设置很大，则算法可能运行很长时间都达不到停止条件。

嵌入式选择

将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动进行了特征选择。

稀疏表示与字典学习

若将数据集D看作一个矩阵，特征选择所考虑的问题是特征具有‘稀疏性’，即矩阵中的许多列与当前学习任务无关，通过特征选择去除这些列，则学习器训练过程仅需在较小的矩阵上进行，学习任务的难度可能有所降低，涉及的计算和存储开销会减少，学得模型的可解释性也会提高。另一种稀疏性：D所对应的矩阵中存在很多0元素，但这些0元素并不是以整行、整列形式存在的。