数学基础-损失函数

一、损失函数的种类

损失函数是机器学习中求解模型参数最优化问题的目标函数,损失函数主要有以下几种类型。
1、0-1损失函数

L ( Y , f ( X ) ) = { 1 Y f ( X ) 0 Y = f ( X )

2、平方损失函数
L ( Y , f ( X ) ) = ( Y f ( X ) ) 2

3、绝对损失函数
L ( Y , f ( X ) ) = | Y f ( X ) |

4、对数损失函数
L ( Y , P ( Y | X ) ) = l o g P ( Y | X )

5、交叉信息熵
H ( p , q ) = i p ( i ) log 1 q ( i )

6、合页损失函数
[ 1 y f ( x ) ] +

7、逻辑斯蒂损失函数
l o g [ 1 + e x p ( y f ( x ) ) ]

8、指数损失函数
e x p ( y f ( x ) )

合页损失函数、逻辑斯蒂损失函数、指数损失函数是0-1损失函数的上界,他们的关系如下图所示。
这里写图片描述
回归模型的损失函数是平方损失函数和绝对损失函数,分类问题的损失函数是0-1损失函数或者交叉信息熵损失函数,概率模型的损失函数是对数损失函数。最小二乘模型损失函数是平方损失函数;支持向量机损失函数是合页损失函数;Boosting的损失函数是指数损失函数;逻辑回归的损失函数是逻辑斯蒂损失函数;决策树的损失函数是对数损失函数;神经网络的损失函数是交叉信息熵损失函数。

二、经验风险和结构风险

1、经验风险
经验风险最小化如下式所示

m i n 1 N i = 1 N L ( y i , f ( x i ) )

经验风险值越小,模型的效果“可能”越好,这里说的是可能,不是一定,因为当样本容量很小的时候,经验风险最小化的学习效果不一定好,可能出现过拟合。过拟合是模型复杂度高,参数过多,对已知数据预测的好,对未知数据预测的差,模型对未知数据的预测能力叫做模型的泛化能力,过拟合导致模型的泛化能力差。

2、结构风险
结构风险最小化是解决模型过拟合的方法,结构风险在经验风险上加上罚项,用以权衡经验风险和模型复杂度,如下式所示

m i n 1 N i = 1 N L ( y i , f ( x i ) ) + λ J ( f )

三、正则化

1、L1正则化
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。L1范数可以实现特征的选择,将无用的信息或者噪声信号的参数置为0,避免干扰;L范数使模型具有可接受性,参数的大小表明了特征和目标的相关性大小。
2、L2正则化
L2范数: ||W||2 “岭回归”(Ridge Regression),也叫“权值衰减weight decay”,是指向量各元素的平方和然后求平方根。L2范数会选择更多的特征,成分峰值大的参数。L2范数不但可以防止过拟合,还可以让我们的优化求解变得稳定和快速,解决了ill-condition现象。假设我们有个方程组AX=b,我们需要求解X。如果A或者b稍微的改变,会使得X的解发生很大的改变,那么这个方程组系统就是ill-condition。
3、范数最大值约束
限定参数的二范数取值小于c, w 2 < c ,c的取值是3或者4
4、dropout
dropout以一个概率值来控制网络神经元的活性。
在实际应用中经常使用L2范数、L2范数结合dropout的正则化方法。

写博客的目的是学习的总结和知识的共享,如有侵权,请与我联系,我将尽快处理
详细内容进一步参考:
李航的《统计机器学习》
http://cs231n.github.io/neural-networks-2/#reg
http://blog.csdn.net/zouxy09/article/details/24971995/

猜你喜欢

转载自blog.csdn.net/weixin_37801695/article/details/80680493