前言

神经网络的输出通常为Z=wTx+b，为了后续分类，需要将编码Z转换为概率。因此需要满足两个条件：一是概率应该为0~1，二是分类的概率总和为1。

Logistic Regression

Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题，Logistic函数（或称为Sigmoid函数）。
在这里插入图片描述
逻辑斯蒂回归的先验分布是伯努利分布，softmax的先验分布是多项式分布。在多分类的情形下，即为softmax变换。softmax满足了上述两个条件，虽sigmoid只满足条件一，但是可以用于多标签问题，如图所示：

Logistic Loss

Logistic Loss利用了最大似然的想法，其中p是Sigmoid函数的输出，y表示是否存在该类(列如上图中：[cat,dog]=[0,1]或[bird,cat,dog]=[0,1,1]，这里标签类别是y∈{0,1})

在这里插入图片描述
当然，类别标签也可以不用0,1代表，公式则表示为：

取对数将连乘变成连加：

如果此时优化此损失函数，可见是让L越大越好。(比如输出[0.8,0.1]，而真实对应标签为[1,0]，带入公式可知L越大，预测得越准确)
然后，我们在利用梯度下降算法来反向传播优化的时候，都是希望L越小越好。所以，在前面取负号，被称为负对数似然损失
在这里插入图片描述