机器学习笔记——特征选择

常见的特征选择方法大致可分为三类:

过滤式:过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”,再用过滤后的特征来训练模型。

包裹式:包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价标准。换言之,包裹式特征选择的目的就是为给定学习器选择最有利于其性能,量身定做的特征子集。

嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动进行了特征选择。

这篇笔记重点记录一下嵌入式特征选择

给定数据集D = {(x1,y1),(x2,y2),...,(xm,ym)},其中x∈Rd,y∈R。考虑最简单的线性回归模型,以平方误差为损失函数,则优化目标为:

当样本特征很多,而样本数相对较少时,上式很容易陷入过拟合。为了缓解过拟合问题,引入正则化项。

若用L2范数正则化,则有:

其中正则化参数λ > 0.上式称为“岭回归”,通过引入L2范数正则化,确能显著降低过拟合的风险。

若使用L1范数,则有:

其中正则化参数λ > 0.上式称为LASSO.

L1范数和L2范数正则化都有助于降低过拟合风险,但是前者还会带来一个额外的好处:它比后者更易于获得稀疏解,即它求得的w会有更少的非零量。

注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零量的特征才会出现在最终模型中,于是,求解L1范数正则化的结果是得到了仅采用一部分初始特征的模型。

换言之,基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程与学习器训练过程融为一体,同时完成。

猜你喜欢

转载自blog.csdn.net/qq_36309480/article/details/82970474