【傻瓜攻略】深入学习入门之正则化（七）

其他 2018-06-07 05:17:45 阅读次数: 2

上一章写了很多损失函数，其实大多数是我直接复制粘贴整理过来的……是各个神经网络所用到的损失函数的整理。但是我还是没有一些更深一点的理解，可能在后面整理到各种神经网络的时候会用到。

这章博客的主要内容一是分享一个有趣的关于logistic分类的推到，二则是开始聊一聊损失函数中的正则项。这章也是转载的较多，我会标注出原网址的。如果有疏漏就劳烦看官提醒了。虽然感觉确实没人看……

那么现在开始我看到的第一个分享。

1.第一个分享

参考网址：https://blog.csdn.net/v_july_v/article/details/7624837

这个博客的1.1的关于logistic回归的推导很有意思，而且作者的措辞也很好玩，建议大家看看他的博客。

下面是我的个人总结：

其中，简化为概率。

将y的标签改为-1，+1，然后令，即将一维数据，该变为二维矩阵的乘法。

然后令=b,则，再对于式子进行简化，。

2.正则化项

正则化项的加入，顾名思义，是为了正则化神经网络，解决机器学习过程中过拟合的问题。（以下的话出自网址：https://www.cnblogs.com/weizc/p/5778678.html 用于解释正则化项的出现甚好。）规则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。

2.0.0 关于正则化如何缓解过拟合问题的原因：

扫描二维码关注公众号，回复： 1508448 查看本文章

正则化是对于模型参数添加先验，使得模型复杂度较小，对于噪声以及离群点的输入扰动相对较小。

2.0.1 关于正则化项如何正则化神经网络：

，这是一个监督学习希望得到目标权重值的式子，即最小化损失函数得到最优解。

其中Ω(w)就是正则化项，λ为正则化系数。当λ越大的时候，Ω(w)所占的权重越大，即所得到的函数越光滑，也就意味着我们所选择的样本越没有用。反之，样本的权重越大，即函数越容易过拟合。（鄙人根据各种书本以及网址总结得到的通俗化解释。参考书和网址过多，不一一列举了。）

一般来说，正则化项可以是L1范数，L2范数，L0范数，迹范数，Frobenius范数和核范数等。

向量的范数可以简单形象的理解为向量的长度，或者向量到零点的距离，或者相应的两个点之间的距离。

向量的范数定义：向量的范数是一个函数||x||,满足非负性||x|| >= 0，齐次性||cx|| = |c| ||x|| ，三角不等式||x+y|| <= ||x|| + ||y||。

2.0.2 关于正则化项如何稀疏：

下面开始介绍各种范数。

参考网址：https://blog.csdn.net/gshgsh1228/article/details/52199870

P-范数式子：

2.1 L0范数

即p=0代入上述式子中，得到L0-范式

L0范数来规则化参数矩阵W，即希望W的大部分元素都是0。

缺点：很难优化求解（NP难）。这句话，我在各个网站看到很多次了，就是不知道是什么意思，若是有大佬看到，希望能指点一二，跪谢。

关于L0/L1/L2范数的联系和区别，参考网址：https://www.cnblogs.com/little-YTMM/p/5879093.html

2.2 L1范数

矩阵形式：，即向量元素绝对值之和。也称“稀疏规则算子”。

L1是L0的最优凸近似，比L0更容易优化求解。

相当于加入了一个laplacean先验

2.3 L2范数

为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或者Frobenius范数。又叫“岭回归”。相当于加入了一个gaussian 先验

，L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，而这些特征都会接近于0。

好处：1、解决过拟合问题。2、有助于处理Condition number 不好的情况下矩阵求逆很困难的问题。

关于Condition number：

用于衡量系数过敏感问题的数值。参考网址：https://blog.csdn.net/zouxy09/article/details/24971995

简单来说，就是系统对于误差太敏感，以至于解的误差更大，也就是说，系统对于样本的误差的容忍度太低，容易造成输入稍微改变，输出就发生很大变化的状况。。

Condition number就是用于衡量这种铭感度的数值，Condition number越小系统越好。大的Condition number会拖慢迭代的收敛速率，因为的收敛速度与Condition number有关。规则化项则是把目标函数变成λ-strongly convex。

实际上，L1和L2可以写成一下形式：

将代价函数转化为二维情况，上述式子的约束条件就是其正则化项。L1的约束条件是菱形，L2的约束条件变成圆形。等高线和约束条件首次相交的地方就是最优解。

可以看到，L1在和每个坐标轴相交的地方都有“角”出现，目标函数大部分都会在角的地方相交。注意到在角的位置就会出现稀疏性。而L2没有角，所以第一次相交的地方出现具有稀疏性的位置的概率就变得非常小。

总结：L2在特征选择时候非常有用。

猜你喜欢

转载自blog.csdn.net/lyy_sha/article/details/80496134

【傻瓜攻略】深入学习入门之正则化（七）

【傻瓜攻略】深入学习入门之优化算法（八）

【傻瓜攻略】深入学习入门之损失函数（六）

【傻瓜攻略】深入学习入门之激活函数（四）

【傻瓜攻略】深入学习入门之激活函数（三）

【傻瓜攻略】深入学习入门之池化层及激活函数（二）

【傻瓜攻略】深入学习入门之全连接层以及分类（五）

【傻瓜攻略】深入学习入门之卷积层以及大体框架（一）

pytorch深入学习（七）

Redis深入学习之数据持久化

再续前缘之深入学习正则表达式

openstack入门至深入学习

MySQL索引从入门到深入学习

深入学习Java序列化

深入学习Redis（2）：持久化

深入学习 Java 序列化

【深入学习Redis】持久化

深入学习 Redis（2）：持久化

深入学习Redis：持久化

spring深入学习（七）IOC 之解析 bean 标签：BeanDefinition

【傻瓜攻略】深度学习之海森矩阵（九）

hadoop深入学习之SequenceFile

深入学习Java之Vector

深入学习Java之PriorityQueue

深入学习Java之LinkedList

JavaScript 深入学习之Array

深入学习JavaScript之闭包

深入学习JavaScript之提升

深入学习JavaScript之对象

Nginx深入学习之配置详解

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)