「Deep Learning」Note on GELU(Gaussian Error Linear Unit)

Sina Weibo:小锋子Shawn
Tencent E-mail:[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/80209816

Sigmoid激活函数虽然具有概率解释(probabilistic interpretation),但是具有如下缺点:1、使得网络收敛较慢(slow);2、使得网络参数解收敛不准确(inaccurate)。
ReLU激活函数虽然性能好于Sigmoid,但是缺乏概率解释。
文中提出GELU高斯误差线性单元bridge确定性激活函数ReLU和随机正则子Dropout之间的gap,也就是希望GELU这种随机性激活函数替代ReLU。文中提到,在几个任务中,GELU好于ReLU和ELU。
GELU定义如下:

G E L U ( x ) = x P ( X x ) X N ( μ , σ 2 )

文中使用 μ = 0 σ = 1
如图1所示。蓝线表示GELU,非凸和非单调。在正半轴,GELU不是线性的,在所有点上具有一定的曲率。橙线ReLU和绿线ELU,在正半轴,是凸和单调的,缺乏曲率。GELU具有较好的性能,可能是由于具有一定的曲率和非单调,更容易逼近复制函数。另外,GELU具有概率解释,它的期望是SOI图(stochastic 0-I map),结合了dropout和zoneout。
这里写图片描述

图 1

[1] Bridging Nonlinearities and Stochastic Regularizers with Gaussian Error Linear Units 2016 [paper]

猜你喜欢

转载自blog.csdn.net/dgyuanshaofeng/article/details/80209816