-
Logistic Regression
对于一个二分类问题而言
表示样本 label为1的概率,取值范围为。
其中,
Note:
则通过上述模型可以得出
- 另一个角度
一个事件发生的概率与不发生的概率的比值称为该事件的几率 (odds)。
逻辑斯蒂回归模型即的对数几率是输入 的线性函数(统计学习方法)。
-
Loss Function
一般经验来说,使用均方误差(mean squared error)来衡量Loss Function: .
但是,对于logistic regression 来说,一般不适用均方误差来作为Loss Function,这是因为:
- 上面的均方误差损失函数一般是非凸函数(non-convex),其在使用梯度下降算法的时候,容易得到局部最优解,而不是全局最优解。因此要选择凸函数(二阶导大于等于0)。
- 使用MSE的另一个缺点就是其偏导值在输出概率值接近0或者接近1的时候非常小,这可能会造成模型刚开始训练时,偏导值几乎消失。
这里选择的损失函数交叉熵(信息论)损失函数:
网上找了很多博客也没有推导交叉熵损失函数的凸性的博文,所以下面我来推导一下:
这里为了推导方便,假设
- 首先我们推导为什么MSE不是凸函数
不能保证大于等于0
同理对于有,
不能保证大于等于0
证毕。
再推导为什么交叉熵损失函数是凸函数:
对于同理有,
证毕。