- 如果是Square loss,那就是最小二乘了;
- 如果是Hinge Loss,那就是著名的SVM了;
- 如果是exp-Loss,那就是牛逼的 Boosting了;
- 如果是log-Loss,那就是Logistic Regression了;
https://blog.csdn.net/luojun2007/article/details/78136615
L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。换句话说,让参数W是稀疏的。(NP-hard,其中,NP是指非确定性多项式(non-deterministic polynomial,缩写NP))
L1范数是指向量中各个元素绝对值之和。L1范数是L0范数的最优凸近似。任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。W的L1范数是绝对值,|w|在w=0处是不可微。
L2范数是指向量中各元素的平方和然后开根。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。
https://www.cnblogs.com/little-YTMM/p/5879093.html
一个是绝对值最小,一个是平方最小:
L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。