11.1 子集搜索与评价
11.2 过滤式选择
过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。看起来像是先对特征进行过滤,再用过滤后的特征来训练模型。
Relief(Relevant features) 算法
11.3 包裹式选择
包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。 包裹式特征选择的目的就是为给定学习器选择最有利于其性能,量身定做的特征子集。
LVW(Las Vegas Wrapper)算法
11.4 嵌入式选择与L1正则化
嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
L1范数与L2范数正则化都有助于降低过拟合风险,但L1范数还会带来一个额外的好处,其比L2更易获得稀疏解,即它求得的w会有更少的非零分量。
11.5 稀疏表示与字典学习
为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式,从而使学习任务得以简化,模型复杂度降低,通常称为“字典学习”,亦称稀疏编码。
字典学习更侧重于学得字典的过程,稀疏编码更侧重于对样本进行稀疏表达的过程。
11.6 压缩感知