李宏毅ML+DL学习记录:逻辑回归

逻辑回归的整体步骤:

step1 :function set(即model)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

step2: goodness of function:

在这里插入图片描述
即评判function好坏的标准(也就是这组w,b好坏的标准)就是这组参数能否使似然函数最大。

用y_hat表示类别:用y_hat表示类别
把原始问题转化成对偶问题:把原始问题转化成对偶问题
在这里插入图片描述
(ps: (1-f(x3))的原因是x3对应的类别是C2)
在这里插入图片描述
那么我们的评判标准就转化成:使这个交叉熵越小越好的一组参数,即我们的loss function变成了上面那个交叉熵形式。

step3: find the best function:

那么,我们已经知道的评判标准,如何找到最好的一组参数呢?
依旧是gradient descent,经过计算,得到以下结果
在这里插入图片描述
在这里插入图片描述
(wi是w矩阵中的某一行,xi是x矩阵中的某一列)
wi的更新如下:
在这里插入图片描述
依次对所有wi进行以上操作,那么就完成一次iteration。

以上三步就是logistic regression的整体思路。

逻辑回归与线性回归的区别:

在这里插入图片描述

逻辑回归的loss function 不和线性回归一样,使用square error?

若loss function变成square error,则:
在这里插入图片描述
在这里插入图片描述
如果看cross entropy 和square error的图像更好理解:
在这里插入图片描述
可以看出,当w1为3,w2为-4(看图大概是这么多)的时候,两种loss function 都相对于自己的最低值来说是比较大的(说明目前的参数值离最优的参数值还挺远的,在这种情况下,我们希望参数能更新的比较快。(而在参数值接近最优的参数时,我们希望它更新的比较缓慢)),我们的目标是使loss function越小越好,那么就得使w1\w2按照蓝色箭头进行更新,我们可以看到,cross entropy在此时变化的很快,而square error则变化的很慢,说不定它迭代了很多次都还是离最优的参数很远,而cross entropy可能迭代较少次数就比较接近最优解了。

逻辑回归的局限:

在这里插入图片描述
在这里插入图片描述
可以看出,无论w1,w2,b取什么值,都无法解决黄色表格中的分类问题。
那么如何解决呢?→ 特征转换:
在这里插入图片描述
那么完成本例的分类问题的步骤就变成了:
在这里插入图片描述
是不是似曾相识???看下面:
在这里插入图片描述
因此,我们也可以把深层神经网络看成:前面的layers都是在搞future transformation,最后一层在搞classification。

发布了2 篇原创文章 · 获赞 0 · 访问量 34

猜你喜欢

转载自blog.csdn.net/weixin_41391619/article/details/104448975
今日推荐