L1为什么具有稀疏性 - 代码天地

L1为什么具有稀疏性

其他 2018-11-18 03:04:12 阅读次数: 0

解释一：

假设费用函数 L 与某个参数 x 的关系如图所示：

则最优的 x 在绿点处，x 非零。

现在施加 L2 regularization，新的费用函数（ $L + Cx^2$ ）如图中蓝线所示：

最优的 x 在黄点处，x 的绝对值减小了，但依然非零。

而如果施加 L1 regularization，则新的费用函数（ $L + C|x|$ ）如图中粉线所示：

最优的 x 就变成了 0。这里利用的就是绝对值函数的尖峰。

两种 regularization 能不能把最优的 x 变成 0，取决于原先的费用函数在 0 点处的导数。
如果本来导数不为 0，那么施加 L2 regularization 后导数依然不为 0，最优的 x 也不会变成 0。
而施加 L1 regularization 时，只要 regularization 项的系数 C 大于原先费用函数在 0 点处的导数的绝对值，x = 0 就会变成一个极小值点。

上面只分析了一个参数 x。事实上 L1 regularization 会使得许多参数的最优值变成 0，这样模型就稀疏了。

解释二：

很多人贴PRML书里的那个图，但是感觉很多人有疑问，原本我要优化的是包含正则项的损失，这两个应该是一起优化的，为什么在图里把它们拆解了，其实PRML书里也说得很明白，我再说得具体点。

首先，我们要优化的是这个问题 $\min\limits_w E_D(w) + \lambda E_R(w)$ 。

其次， $\min\limits_w E_D(w) + \lambda E_R(w)$ 和 $\min\limits_w E_D(w) \\s.t. E_R(w) \leqslant \eta$

这个优化问题是等价的，即对一个特定的 $\lambda$ 总存在一个 $\eta$ 使得这两个问题是等价的（这个是优化里的知识）。

最后，下面这个图表达的其实 $\min\limits_w E_D(w) \\s.t. E_R(w) \leqslant \eta$

这个优化问题，把 $w$ 的解限制在黄色区域内，同时使得经验损失尽可能小。

解答三：直观上来理解一下, 对损失函数施加 L0/L1/L2 范式约束都会使很多参数接近于0. 但是在接近于0的时候约束力度会有差别. 从导数的角度看, L1正则项在0附近的导数始终为正负1, 参数更新速度不变. L2 在0附近导数接近于0, 参数更新缓慢. 所以 L1 相比 L2 更容易使参数变成0, 也就更稀疏

个人最喜欢第二种解释

猜你喜欢

转载自blog.csdn.net/ningyanggege/article/details/84071910

L1为什么具有稀疏性

为什么L1正则具有稀疏性

L1正则化使得模型参数具有稀疏性的原理。

为什么L1稀疏，L2平滑？

【机器学习】：L1为什么能产生稀疏性

L1正则化与稀疏性

机器学习 l1 相比于 l2 为什么容易获得稀疏解？

l1 相比于 l2 为什么容易获得稀疏解？

L1和L2正则化。L1为什么能产生稀疏值，L2更平滑

L1正则化与稀疏性、L1正则化不可导问题

为什么L1正则化比L2正则化更容易获得稀疏解

为什么L1正则项产生稀疏的权重，L2正则项产生相对平滑的权重

机器学习知识点总结 - 为什么L1正则化比L2正则化更稀疏

L1相较于L2的稀疏性

专家观点：L1正则稀疏？

smooth L1 loss为什么好？

Google TensorFlow课程编程笔记（7）———稀疏性和 L1 正则化

【学习笔记】稀疏性正则化(l1正则化)

为什么CPU缓存会分为一级缓存L1、L2、L3？有什么意义？

L1比L2更稀疏

L1,L2正则化为什么能解决过拟合问题

L1、L2、Batch Normalization、Dropout为什么能够防止过拟合呢？

为什么说Filecoin具有划时代的伟大性？

L1正则化为什么可以进行特征选择

CNN中的小tips（3）---《l1,l2正则化为什么可以减轻过拟合现象》

L1正则化产生稀疏模型，L2正则防止过拟合

l1正则化的稀疏表示和l2正则化的协同表示

从来源的角度解析l1稀疏，l2平滑

L1相对于L2较稀疏的原因

l1约束比l2约束更容易获得稀疏解

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)