最终的损失函数可以表示为:min f(x;w)+lamada*J(w)
为什么要进行正则化?(可以分为L1、L2正则化,有不同的效果)
控制模型复杂度,避免过拟合[^2]
从统计学或者从实际应用的角度来说还有很多其他原因:
(1)变量选择(目前课题相关,不就是降维么?)
(2)降维
(3)以上是统计学中的说辞,机器学习中,我们比较常说的是,稀疏化
关于正则化项J(w)的选择
L1范数,(其实就是统计学中大名鼎鼎的LASSO)
L2范数的正则项,其实就是岭回归
上面的分析过于笼统,关于L1、L2正则的区别与分析,下面的一篇文章讲的很好:
机器学习中正则化项L1和L2的直观理解