1.2.11 【Deep Learning翻译系列】Explanation of Logistic Regression Cost Function 对数几率回归代价函数的说明

视频地址

本视频给出在对数几率回归使用这个成本函数的理由。
在之前的对数几率回归中,预测 y ^ = σ ( ω T x + b ) , \hat y=\sigma(\omega^Tx+b),
其中, σ ( z ) = 1 1 + e z \sigma(z)=\frac 1 {1+e^{-z}}
作者对此的解释是: y ^ = P ( y = 1 x ) \hat y=P(y=1|x) 。 即对于给定的一组输入的特征量 x x ,其对应的 y = 1 y=1 的机会。
另一种说法是,如果 y = 1 y=1 ,那么 P ( y x ) = y ^ P(y|x)=\hat y
反之,如果如果 y = 1 y=1 ,那么 P ( y x ) = 1 y ^ P(y|x)=1-\hat y
所以综合考虑这两种情况, P ( y x ) = y ^ y ( 1 y ^ ) 1 y P(y|x)=\hat y^y(1-\hat y)^{1-y}

因为 log \log 函数是单调递增的,对 P ( y x ) P(y|x) 取对数,得到
log P ( y x ) = y log y ^ + ( 1 y ) log ( 1 y ^ ) = L ( y , y ^ ) , \log P(y|x)=y\log\hat y+(1-y)\log(1-\hat y)=-L(y,\hat y), 这是单个样本的成本函数。

至于在 M M 个样本上的整体的损失函数,如果假设训练实例独立抽取或独立同分布(IID),那么,
P ( t r a i n i n g ) = Π i = 1 n P ( y ( i ) x ( i ) ) . P(training)=\Pi_{i=1}^nP(y^{(i)}|x^{(i)}).

所以,如果你想进行最大似然估计,那么最大化 P ( t r a i n i n g ) P(training) 与最大化它的对数是等同的。即最大化以下式子:
log P ( t r a i n i n g ) = i = 1 n log P ( y ( i ) x ( i ) ) = i = 1 n L ( y ( i ) , y ^ ( i ) ) . \log P(training)=\sum_{i=1}^n\log P(y^{(i)}|x^{(i)})=-\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)}).

统计学中有一个被称为“极大似然估计”的原理,它选择能够最大化 log P ( t r a i n i n g ) \log P(training) 的参数。
对数几率回归要最小化的的代价函数 J ( ω , b ) = 1 N i = 1 n L ( y ( i ) , y ^ ( i ) ) J(\omega,b)=\frac 1 N\sum_{i=1}^n-L(y^{(i)},\hat y^{(i)}) 就相当于在各个样本被独立同分布(IID)抽取情况下概率的极大似然估计。

猜你喜欢

转载自blog.csdn.net/u014625530/article/details/83247542