神经网络为什么需要非线性激活函数

刚开始接触深度学习的小伙伴一定会有一个疑问:我们为什么需要设置激活函数呢?为什么这个激活函数需要是非线性的呢?

本文会就这个问题做一些探讨!

首先来看一个最简单的神经网络:
在这里插入图片描述

首先,神经网络需要经过前向传播,于是在每一个节点上,我们要经历的是一次线性变化,和一次非线性激活。

给定输入 x:
z [ 1 ] = W [ 1 ] x + b [ 1 ] z^{[1]} = W^{[1]}x + b^{[1]}
a [ 1 ] = g [ 1 ] ( z [ 1 ] ) a^{[1]} = g^{[1]}(z^{[1]})
z [ 2 ] = W [ 2 ] x + b [ 2 ] z^{[2]} = W^{[2]}x + b^{[2]}
a [ 2 ] = g [ 2 ] ( z [ 2 ] ) a^{[2]} = g^{[2]}(z^{[2]})

z表示线性变换,a表示非线性变换。
这里我们用的非线性函数 g [ 1 ] ( ) g^{[1]}( ) 可以是ReLU,可以是 tanh ,有或者是 sigmoid。

那假设我们不再设置非线性函数,那表达式会变为:
z [ 1 ] = W [ 1 ] x + b [ 1 ] z^{[1]} = W^{[1]}x + b^{[1]}
a [ 1 ] = z [ 1 ] a^{[1]} = z^{[1]}
z [ 2 ] = W [ 2 ] x + b [ 2 ] z^{[2]} = W^{[2]}x + b^{[2]}
a [ 2 ] = z [ 2 ] a^{[2]} = z^{[2]}

经过推导,可得:
a [ 2 ] = ( W [ 2 ] W [ 1 ] ) x + ( W [ 2 ] b [ 1 ] + b [ 2 ] ) a^{[2]} = (W^{[2]}W^{[1]})x + (W^{[2]}b^{[1]}+b^{[2]})
其实就等于:
a [ 2 ] = W x + b a^{[2]} = W^{'}x + b^{'}
也就是说,我们的多层神经网络被简化成了单层的线性回归网络!我们设置神经网络隐藏层的意义也就消失了!

发布了44 篇原创文章 · 获赞 0 · 访问量 1714

猜你喜欢

转载自blog.csdn.net/qq_42067550/article/details/105244538
今日推荐