「Deep Learning」Note on Swish

Sina Weibo:小锋子Shawn
Tencent E-mail:[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/80208944

这篇博客介绍比较新的激活函数——Swish,是ICLR2018 Workshop的文章。
文章的结论就是“在任意神经网络,可以使用Swish单元替换ReLU单元。”

Swish的定义和导数

定义:

S w i s h = f ( x ) = x × s i g m o i d ( β x ) = x 1 + e β x

导数:
f ( x ) = 1 × ( 1 + e β x ) x × ( 1 + e β x ) ( 1 + e β x ) 2 = 1 + e β x x ( e β x ) ( β ) ( 1 + e β x ) 2 = 1 1 + e β x + β x ( e β x + 1 ) β x ( 1 + e β x ) 2 = 1 1 + e β x + β x 1 + e β x β x ( 1 + e β x ) 2
= s i g m o i d ( β x ) + β x s i g m o i d ( β x ) β x ( s i g m o i d ( β x ) ) 2
= s i g m o i d ( β x ) ( 1 β x s i g m o i d ( β x ) ) + β S w i s h
= s i g m o i d ( β x ) ( 1 β S w i s h ) + β S w i s h

如果熟悉sigmoid的求导,就可以快速求得。

猜你喜欢

转载自blog.csdn.net/dgyuanshaofeng/article/details/80208944
今日推荐