激励函数和tensorflow中的几个激励函数

这下子的解释牛逼了，我之前一直在想，你这个激励函数有什么用呢，看完下面一段话好像明白了一些..........

当我们提到线性方程的时候,我们会不得不想到非线性方程,在这个时候我们可以假设,女生长得越漂亮,越多的男生越喜欢,其实这个问题就可以当做一个线性问题,但是如果我们假设这个问题发生在校园里,现在校园里的男生是有限的,现在就算女生再漂亮,女生再漂亮,也不会有无穷多的男生去喜欢他,所以,在这个时候,这个问题就变成了一个非线性问题.再说,女生也不可能是无穷漂亮的吧（emm....yuanwen）

还有另外一段话

神经网络中激励函数的作用通俗上讲就是将多个线性输入转换为非线性的关系。如果不使用激励函数的话，神经网络的每层都只是做线性变换，即使是多层输入叠加后也还是线性变换。通过激励函数引入非线性因素后，使神经网络的表示能力更强了。

1、sigmoid 函数

这应该是神经网络中使用最频繁的激励函数了

它把一个实数压缩至0到1之间，当输入的数字非常大的时候，结果会接近1，当输入非常大的负数时，则会得到接近0的结果

在早期的神经网络中使用得非常多，因为它很好地解释了神经元受到刺激后是否被激活和向后传递的场景

（0：几乎没有被激活，1：完全被激活）

不过近几年在深度学习的应用中比较少见到它的身影，因为使用sigmoid函数容易出现梯度弥散或者梯度饱和。当神经网络的层数很多时，如果每一层的激励函数都采用sigmoid函数的话，就会产生梯度弥散的问题，因为利用反向传播更新参数时，会乘以它的导数，所以会一直减小。如果输入的是比较大或者比较小的数（例如输入100，经Sigmoid函数后结果接近于1，梯度接近于0），会产生饱和效应，导致神经元类似于死亡状态。

2、tanh 函数

tanh函数将输入值压缩至-1到1之间。该函数与Sigmoid类似，也存在着梯度弥散或梯度饱和的缺点。

3、ReLU函数

ReLU是修正线性单元（The Rectified Linear Unit）的简称，近些年来在深度学习中使用得很多，可以解决梯度弥散问题，因为它的导数等于1或者就是0。相对于sigmoid和tanh激励函数，对ReLU求梯度非常简单，计算也很简单，可以非常大程度地提升随机梯度下降的收敛速度。（因为ReLU是线性的，而sigmoid和tanh是非线性的）。
但ReLU的缺点是比较脆弱，随着训练的进行，可能会出现神经元死亡的情况，例如有一个很大的梯度流经ReLU单元后，那权重的更新结果可能是，在此之后任何的数据点都没有办法再激活它了。如果发生这种情况，那么流经神经元的梯度从这一点开始将永远是0。也就是说，ReLU神经元在训练中不可逆地死亡了。

4、Leaky ReLU 函数

Leaky ReLU主要是为了避免梯度消失，当神经元处于非激活状态时，允许一个非0的梯度存在，这样不会出现梯度消失，收敛速度快。它的优缺点跟ReLU类似。

5、ELU 函数

ELU在正值区间的值为x本身，这样减轻了梯度弥散问题（x>0区间导数处处为1），这点跟ReLU、Leaky ReLU相似。而在负值区间，ELU在输入取较小值时具有软饱和的特性，提升了对噪声的鲁棒性
下图是ReLU、LReLU、ELU的曲线比较图：

6、Maxout 函数

Maxout也是近些年非常流行的激励函数，简单来说，它是ReLU和Leaky ReLU的一个泛化版本，当w1、b1设置为0时，便转换为ReLU公式。

因此，Maxout继承了ReLU的优点，同时又没有“一不小心就挂了”的担忧。但相比ReLU，因为有2次线性映射运算，因此计算量也会翻倍。