【傻瓜攻略】深入学习入门之正则化(七)

上一章写了很多损失函数,其实大多数是我直接复制粘贴整理过来的……是各个神经网络所用到的损失函数的整理。但是我还是没有一些更深一点的理解,可能在后面整理到各种神经网络的时候会用到。

这章博客的主要内容一是分享一个有趣的关于logistic分类的推到,二则是开始聊一聊损失函数中的正则项。这章也是转载的较多,我会标注出原网址的。如果有疏漏就劳烦看官提醒了。虽然感觉确实没人看……敲打

那么现在开始我看到的第一个分享。

1.第一个分享

参考网址:https://blog.csdn.net/v_july_v/article/details/7624837

这个博客的1.1的关于logistic回归的推导很有意思,而且作者的措辞也很好玩,建议大家看看他的博客。

下面是我的个人总结:

其中,简化为概率

将y的标签改为-1,+1,然后令,即将一维数据,该变为二维矩阵的乘法。

然后令=b,则,再对于式子进行简化,

2.正则化项

正则化项的加入,顾名思义,是为了正则化神经网络,解决机器学习过程中过拟合的问题。(以下的话出自网址:https://www.cnblogs.com/weizc/p/5778678.html 用于解释正则化项的出现甚好。)规则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。

2.0.0 关于正则化如何缓解过拟合问题的原因:

扫描二维码关注公众号,回复: 1508448 查看本文章

正则化是对于模型参数添加先验,使得模型复杂度较小,对于噪声以及离群点的输入扰动相对较小。

2.0.1 关于正则化项如何正则化神经网络:

,这是一个监督学习希望得到目标权重值的式子,即最小化损失函数得到最优解。

其中Ω(w)就是正则化项,λ为正则化系数。当λ越大的时候,Ω(w)所占的权重越大,即所得到的函数越光滑,也就意味着我们所选择的样本越没有用。反之,样本的权重越大,即函数越容易过拟合。(鄙人根据各种书本以及网址总结得到的通俗化解释。参考书和网址过多,不一一列举了。)

一般来说,正则化项可以是L1范数,L2范数,L0范数,迹范数,Frobenius范数和核范数等。

向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。

向量的范数定义:向量的范数是一个函数||x||,满足非负性||x|| >= 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| <= ||x|| + ||y||。

2.0.2 关于正则化项如何稀疏:

下面开始介绍各种范数。

参考网址:https://blog.csdn.net/gshgsh1228/article/details/52199870

P-范数式子:

2.1 L0范数

即p=0代入上述式子中,得到L0-范式

L0范数来规则化参数矩阵W,即希望W的大部分元素都是0。

缺点:很难优化求解(NP难)。这句话,我在各个网站看到很多次了,就是不知道是什么意思,若是有大佬看到,希望能指点一二,跪谢。

关于L0/L1/L2范数的联系和区别,参考网址:https://www.cnblogs.com/little-YTMM/p/5879093.html

2.2 L1范数

   矩阵形式:,即向量元素绝对值之和。也称“稀疏规则算子”。

L1是L0的最优凸近似,比L0更容易优化求解。

相当于加入了一个laplacean先验

2.3 L2范数

为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或者Frobenius范数。又叫“岭回归”。相当于加入了一个gaussian 先验

,L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,而这些特征都会接近于0。

好处:1、解决过拟合问题。2、有助于处理Condition number 不好的情况下矩阵求逆很困难的问题。

关于Condition number:


用于衡量系数过敏感问题的数值。参考网址:https://blog.csdn.net/zouxy09/article/details/24971995

简单来说,就是系统对于误差太敏感,以至于解的误差更大,也就是说,系统对于样本的误差的容忍度太低,容易造成输入稍微改变,输出就发生很大变化的状况。。

Condition number就是用于衡量这种铭感度的数值,Condition number越小系统越好。大的Condition number会拖慢迭代的收敛速率,因为的收敛速度与Condition number有关。规则化项则是把目标函数变成λ-strongly convex。

实际上,L1和L2可以写成一下形式:

将代价函数转化为二维情况,上述式子的约束条件就是其正则化项。L1的约束条件是菱形,L2的约束条件变成圆形。等高线和约束条件首次相交的地方就是最优解。 


可以看到,L1在和每个坐标轴相交的地方都有“角”出现,目标函数大部分都会在角的地方相交。注意到在角的位置就会出现稀疏性。而L2没有角,所以第一次相交的地方出现具有稀疏性的位置的概率就变得非常小。

总结:L2在特征选择时候非常有用。

猜你喜欢

转载自blog.csdn.net/lyy_sha/article/details/80496134