2.9 Logistic 回归的梯度下降法-深度学习-Stanford吴恩达教授

Logistic 回归的梯度下降法 (Logistic Regression Gradient Descent)

本节我们讨论怎样通过计算偏导数来实现逻辑回归的梯度下降算法。它的关键点是几个重要公式,其作用是用来实现逻辑回归中梯度下降算法。但是在本节视频中,我将使用计算图对梯度下降算法进行计算。我必须要承认的是,使用计算图来计算逻辑回归的梯度下降算法有点大材小用了。但是,我认为以这个例子作为开始来讲解,可以使你更好的理解背后的思想。从而在讨论神经网络时,你可以更深刻而全面地理解神经网络。接下来让我们开始学习逻辑回归的梯度下降算法。

假设样本只有两个特征 x 1 x_1 x 2 x_2 ,为了计算 z z ,我们需要输入参数 w 1 w_1 w 2 w_2 b b ,除此之外还有特征值 x 1 x_1 x 2 x_2 。因此 z z 的计算公式为: z = w 1 x 1 + w 2 x 2 + b z=w_1x_1+w_2x_2+b 回想一下逻辑回归的公式定义如下: y ^ = a = σ ( z ) \hat{y}=a=\sigma(z) 其中 z = w T + b ,   σ ( z ) = 1 1 + e z z=w^T+b,\ \sigma(z)=\frac{1}{1+e^{-z}} 损失函数: L ( y ^ ( i ) , y ( i ) ) = y ( i ) log y ^ ( i ) ( 1 y ( i ) ) log ( 1 y ^ ( i ) ) L(\hat{y}^{(i)},y^{(i)})=-y^{(i)}\log\hat{y}^{(i)}-(1-y^{(i)})\log(1-\hat{y}^{(i)}) 代价函数: J ( w , b ) = 1 m i m L ( y ^ ( i ) , y ( i ) ) J(w,b)=\frac1m\sum_i^mL(\hat{y}^{(i)},y^{(i)}) 假设现在只考虑单个样本的情况,单个样本的代价函数定义如下: L ( a , y ) = ( y log ( a ) + ( 1 y ) log ( 1 a ) ) L(a,y)=-(y\log(a)+(1-y)\log(1-a)) 其中 a a 是逻辑回归的输出, y y 是样本的标签值。现在让我们画出表示这个计算的计算图。 这里先复习下梯度下降法, w w b b 的修正量可以表达如下:

w : = w α J ( w , b ) w , b : = b α J ( w , b ) b w:=w-\alpha \frac{\partial J(w,b)}{\partial w},\quad b:=b-\alpha \frac{\partial J(w,b)}{\partial b}

在这里插入图片描述

如图:在这个公式的外侧画上长方形。然后计算: y ^ = a = σ ( z ) \hat{y}=a=\sigma(z) 也就是计算图的下一步。最后计算损失函数 L ( a , y ) L(a,y) 。 有了计算图,我就不需要再写出公式了。因此,为了使得逻辑回归中最小化代价函数 L ( a , y ) L(a,y) ,我们需要做的仅仅是修改参数 w w b b 的值。前面我们已经讲解了如何在单个训练样本上计算代价函数的前向步骤。现在让我们来讨论通过反向计算出导数。 因为我们想要计算出的代价函数 L ( a , y ) L(a,y) 的导数,首先我们需要反向计算出代价函数 L ( a , y ) L(a,y) 关于 a a 的导数,在编写代码时,你只需要用 d a da 来表示 d L ( a , y ) d a \frac{dL(a,y)}{da} 。 通过微积分得到: d L ( a , y ) d a = y / a + ( 1 y ) / ( 1 a ) \frac{dL(a,y)}{da}=-y/a+(1-y)/(1-a) 如果你不熟悉微积分,也不必太担心,我们会列出本课程涉及的所有求导公式。那么如果你非常熟悉微积分,我们鼓励你主动推导前面介绍的代价函数的求导公式,使用微积分直接求出 L ( a , y ) L(a,y) 关于变量 a a 的导数。如果你不太了解微积分,也不用太担心。现在我们已经计算出 d a da ,也就是最终输出结果的导数。 现在可以再反向一步,在编写Python代码时,你只需要用 d z dz 来表示代价函数 L L 关于 z z 的导数 d L d z \frac{dL}{dz} ,也可以写成 d L ( a , y ) d z \frac{dL(a,y)}{dz} ,这两种写法都是正确的。 d L d z = a y \frac{dL}{dz}=a-y 。 因为 d L ( a , y ) d z = d L d z = ( d L d a ) ( d a d z ) \frac{dL(a,y)}{dz}=\frac{dL}{dz}=(\frac{dL}{da})\cdot(\frac{da}{dz}) , 并且 d a d z = a ( ˙ 1 a ) \frac{da}{dz}=a\dot(1-a) , 而 d L d a = ( y a + ( 1 y ) ( 1 a ) ) \frac{dL}{da}=(-\frac ya+\frac{(1-y)}{(1-a)}) ,因此将这两项相乘,得到:

d z = d L ( a , y ) d z = d L d z = ( d L d a ) ( d a d z ) = ( y a + ( 1 y ) ( 1 a ) ) a ( 1 a ) = a y dz=\frac{dL(a,y)}{dz}=\frac{dL}{dz}=(\frac{dL}{da})\cdot(\frac{da}{dz})=(-\frac ya+\frac{(1-y)}{(1-a)})\cdot a(1-a)=a-y

视频中为了简化推导过程,假设 n x n_x 这个推导的过程就是我之前提到过的链式法则。如果你对微积分熟悉,放心地去推导整个求导过程,如果不熟悉微积分,你只需要知道 d z = ( a y ) dz=(a-y) 已经计算好了。

现在进行最后一步反向推导,也就是计算 w w b b 变化对代价函数 L L 的影响,特别地,可以用: d w 1 = 1 m i m x 1 ( i ) ( a ( i ) y ( i ) ) dw_1=\frac1m\sum_i^mx_1^{(i)}(a^{(i)}-y^{(i)}) d w 2 = 1 m i m x 2 ( i ) ( a ( i ) y ( i ) ) dw_2=\frac1m\sum_i^mx_2^{(i)}(a^{(i)}-y^{(i)}) d b = 1 m i m ( a ( i ) y ( i ) ) db=\frac1m\sum_i^m(a^{(i)}-y^{(i)}) 视频中, d w 1 dw_1 表示 L w 1 = x 1 d z \frac{\partial L}{\partial w_1}=x_1\cdot dz d w 2 dw_2 表示 L w 2 = x 2 d z \frac{\partial L}{\partial w_2}=x_2\cdot dz d b = d z db = dz 。 因此,关于单个样本的梯度下降算法,你所需要做的就是如下的事情: 使用公式 d z = ( a y ) dz=(a-y) 计算 d z dz , 使用 d w 1 = x 1 d z dw_1=x_1 \cdot dz 计算 d w 1 dw_1 , 计算 d w 2 = x 2 d z dw_2=x_2 \cdot dz 计算 d w 2 dw_2 d b = d z db=dz 计算 d b db ,然后: 更新 w 1 = w 1 α   d w 1 w_1=w_1-\alpha\ dw_1 , 更新 w 2 = w 2 α   d w 2 w_2=w_2-\alpha\ dw_2 , 更新 b = b α   d b b=b-\alpha\ db 。 这就是关于单个样本实例的梯度下降算法中参数更新一次的步骤。

在这里插入图片描述

现在你已经知道了怎样计算导数,并且实现针对单个训练样本的逻辑回归的梯度下降算法。但是,训练逻辑回归模型不仅仅只有一个训练样本,而是有 m m 个训练样本的整个训练集。因此在下一节视频中,我们将这些思想应用到整个训练样本集中,而不仅仅只是单个样本上。

课程PPT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

发布了172 篇原创文章 · 获赞 6 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/weixin_36815313/article/details/105314355