1.2.11 【Deep Learning翻译系列】Explanation of Logistic Regression Cost Function 对数几率回归代价函数的说明

视频地址

本视频给出在对数几率回归使用这个成本函数的理由。
在之前的对数几率回归中，预测 $\hat y=\sigma(\omega^Tx+b),$
其中， $\sigma(z)=\frac 1 {1+e^{-z}}$ 。
作者对此的解释是： $\hat y=P(y=1|x)$ 。即对于给定的一组输入的特征量 $x$ ，其对应的 $y=1$ 的机会。
另一种说法是，如果 $y=1$ ，那么 $P(y|x)=\hat y$ 。
反之，如果如果 $y=1$ ，那么 $P(y|x)=1-\hat y$ 。
所以综合考虑这两种情况， $P(y|x)=\hat y^y(1-\hat y)^{1-y}$ 。

因为 $\log$ 函数是单调递增的，对 $P(y|x)$ 取对数，得到
$\log P(y|x)=y\log\hat y+(1-y)\log(1-\hat y)=-L(y,\hat y),$ 这是单个样本的成本函数。

至于在 $M$ 个样本上的整体的损失函数，如果假设训练实例独立抽取或独立同分布（IID），那么，
$P(training)=\Pi_{i=1}^nP(y^{(i)}|x^{(i)}).$

所以，如果你想进行最大似然估计，那么最大化 $P(training)$ 与最大化它的对数是等同的。即最大化以下式子：
$\log P(training)=\sum_{i=1}^n\log P(y^{(i)}|x^{(i)})=-\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)}).$

统计学中有一个被称为“极大似然估计”的原理，它选择能够最大化 $\log P(training)$ 的参数。
对数几率回归要最小化的的代价函数 $J(\omega,b)=\frac 1 N\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)})$ 就相当于在各个样本被独立同分布（IID）抽取情况下概率的极大似然估计。

1.2.11 【Deep Learning翻译系列】Explanation of Logistic Regression Cost Function 对数几率回归代价函数的说明

猜你喜欢