机器学习笔记——特征选择 - 代码天地

机器学习笔记——特征选择

其他 2018-11-07 07:56:04 阅读次数: 0

常见的特征选择方法大致可分为三类：

过滤式：过滤式方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。这相当于先用特征选择过程对初始特征进行“过滤”，再用过滤后的特征来训练模型。

包裹式：包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价标准。换言之，包裹式特征选择的目的就是为给定学习器选择最有利于其性能，量身定做的特征子集。

嵌入式特征选择是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动进行了特征选择。

这篇笔记重点记录一下嵌入式特征选择。

给定数据集D = {(x1,y1),(x2,y2),...,(xm,ym)}，其中x∈Rd,y∈R。考虑最简单的线性回归模型，以平方误差为损失函数，则优化目标为：

当样本特征很多，而样本数相对较少时，上式很容易陷入过拟合。为了缓解过拟合问题，引入正则化项。

若用L2范数正则化，则有：

其中正则化参数λ > 0.上式称为“岭回归”，通过引入L2范数正则化，确能显著降低过拟合的风险。

若使用L1范数，则有：

其中正则化参数λ > 0.上式称为LASSO.

L1范数和L2范数正则化都有助于降低过拟合风险，但是前者还会带来一个额外的好处：它比后者更易于获得稀疏解，即它求得的w会有更少的非零量。

注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零量的特征才会出现在最终模型中，于是，求解L1范数正则化的结果是得到了仅采用一部分初始特征的模型。

换言之，基于L1正则化的学习方法就是一种嵌入式特征选择方法，其特征选择过程与学习器训练过程融为一体，同时完成。

猜你喜欢

转载自blog.csdn.net/qq_36309480/article/details/82970474

机器学习笔记——特征选择

《机器学习》笔记--5 特征选择

机器学习笔记14-特征选择

机器学习笔记10---特征选择

[机器学习笔记] 特征（Feature）和特征选择(Feature Selection)

机器学习：特征选择

机器学习---特征选择

机器学习--特征选择

机器学习-特征选择

机器学习 - 特征选择

机器学习特征选择

机器学习特征选择

特征选择机器学习之特征选择

机器学习入门学习笔记（八）特征选择与稀疏学习

机器学习笔记之决策树的特征选择

机器学习之特征选择

机器学习面试—特征选择

机器学习特征选择方法

【机器学习】特征选择方法

机器学习——08、特征选择

机器学习8 特征选择

机器学习8特征选择

机器学习03:特征选择

机器学习（1）特征选择与特征抽取

【机器学习】特征降维-特征选择

【机器学习】机器学习之特征选择

机器学习（11） -- 特征选择与稀疏学习

《机器学习》周志华西瓜书学习笔记（十一）：特征选择与稀疏学习

机器学习笔记—特征工程

机器学习笔记 - 特征分解

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)