【论文笔记】Xception(下)

四、实验评估

由于它们在规模上的相似性,我们选择将Xception与Inception V3架构进行比较:Xception和Inception V3具有几乎相同数量的参数,因此任何性能差距都不能归因于网络参数量的差异。我们对两个图像分类任务进行了比较:一个是ImageNet数据集上著名的1000类单标签分类任务,另一个是大规模JFT数据集上17000类多标签分类任务。

  1. JFT数据集
    JFT是用于大型图像分类数据集的内部Google数据集,其中包括超过3.5亿张高分辨率图像,这些图像带有来自17,000个类别的标签的注释。 为了评估在JFT上训练的模型的性能,我们使用了辅助数据集FastEval14k。
    FastEval14k是14,000张图像的数据集,具有来自6,000个类别的密集注释(平均每张图像36.5个标签)。在此数据集上,我们使用mAP对前100个预测(MAP @100)进行评估,并对每个类别对MAP@100的贡献进行加权,并给出一个分数,以估算该类别在社交媒体图像中的普遍程度(因此很重要)。此评估程序旨在从社交媒体上捕获频繁出现的标签上的效果,这对于Google的生产模型至关重要。

  2. 优化器配置
    ImageNet:Optimizer=SGD,Momentum=0.9,Initial learning rate=0.045,Learning rate decay=decay of rate 0.94 every 2 epochs
    JFT:Optimizer=RMSprop,Momentum=0.9,Initial learning rate=0.001,Learning rate decay=decay of rate 0.9 every 3,000,000 samples

  3. 正则化配置
    Weight decay:Inception v3为0.00004,Xception为0.00001
    Dropout:ImageNet为0.5,JFT无,因为数据太多,不太可能过拟合
    Auxiliary loss tower:没有使用

  4. 训练配置
    所有网络均使用TensorFlow框架实施,并分别在60个NVIDIA K80 GPU上进行了培训。 对于ImageNet,我们使用具有同步梯度下降的数据并行性来获得最佳的分类性能,而对于JFT,我们使用异步梯度下降来加快训练速度。 ImageNet实验每个大约花费3天,而JFT实验每个大约花费一个月。 JFT模型没有经过完全收敛的训练,而每个实验将花费三个月以上的时间。

  5. 与Inception V3相比
    在分类性能上,Xception在ImageNet领先较小,但在JFT上领先很多。
    在这里插入图片描述
    在这里插入图片描述
    在参数量和速度,Xception参数量少于Inception,但速度更快。
    在这里插入图片描述
    作者还比较了residual connections,有了性能更强;还有点卷积之后要不要激活函数,没有非线性层效果最好。
    在这里插入图片描述

五、未来方向

前面我们注意到,在常规卷积和深度可分离卷积之间存在discrete spectrum,其参数是用于执行空间卷积的独立通道空间段的数量。初始模块是这一范围的重点。我们在经验评估中表明,与常规的Inception模块相比,Inception模块的极端情况(深度可分离卷积)可能具有优势。但是,没有理由相信深度可分离卷积是最佳的。可能是discrete spectrum上的中间点位于常规的Inception模块与深度可分离的卷积之间,具有其他优势。这个问题留待将来调查。

六、总结

我们展示了卷积和深度可分离卷积如何位于discrete spectrum的两个极端,而Inception模块是两者之间的中间点。这种观察导致我们提出在神经计算机视觉体系结构中用深度可分离卷积替换Inception模块。我们基于此思想提出了一种新颖的架构,名为Xception,它的参数计数与Inception V3相似。与Inception V3相比,Xception在ImageNet数据集上的分类性能提高很小,而在JFT数据集上的分类性能提高了很多。我们期望深度可分离卷积在将来成为卷积神经网络体系结构设计的基石,因为它们提供与Inception模块相似的属性,但与常规卷积层一样容易使用。

七、观后感

如果 ResNet 是为了更深,那么 Inception 家族就是为了更宽。Inception 的作者对训练更大型网络的计算效率尤其感兴趣。换句话说:我们怎样在不增加计算成本的前提下扩展神经网络?
一些有趣的事实:

  1. 最早的 Inception 论文确实引用了来自电影《盗梦空间(Inception)》的「我们需要更深」的互联网双关作为其名字的来源,参见:We-need-to-go-deeper。这肯定是 knowyourmeme.com 第一次出现在一篇谷歌论文的参考文献里。
  2. 第二篇 Inception 论文(提出 v2 和 v3)是在最早的 ResNet 论文发布之后的第二天发布的。2015 年 12 月真是深度学习的好日子。
  3. Xception 的作者也是 Keras 的作者。Francois Chollet 是真正的大神。

参考文献

[1] 【论文笔记】Xception
[2] 无需数学背景,读懂ResNet、Inception和Xception三大变革性架构

猜你喜欢

转载自blog.csdn.net/qq_41731507/article/details/113833383