Colorization as a Proxy Task for Visual Understanding论文解读

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sunpeng19960715/article/details/77400653

Abstract

我们调查和改进自我监督,作为ImageNet预培训的替代品,重点是自动化着色作为代理任务。与其他传统的无人监督的学习方法相比,自我监督的训练显示出更有利于利用未标记的数据。我们在这个成功的基础上,在多个环境中评估自我监督网络的能力。在VOC分段和分类任务中,我们提出了不使用ImageNet标签进行预处理表示的方法中的最新技术。

此外,我们首先通过着色对自我监督进行了深入的分析,得出结论:损失的形成,培训细节和网络架构在其有效性方面发挥重要作用。通过重新思考ImageNet预训练范式进一步扩大了这一调查,提出了以下问题:需要多少训练数据?需要多少个标签?fine-tuning后feature有多大改变?我们将这些问题与自我监督联系起来,显示着色可以提供与各种风味的ImageNet预培训相似的强大监控信号。

1. Introduction

深入的前馈网络的成功植根于他们扩大更多培训数据的能力。 更多数据的可用性通常可以提高模型复杂性。 然而,这种昂贵,乏味和容易出错的人工标注的数据的需要是严重的限制,降低了为新领域建立模型的能力,以及注释特别昂贵的域(例如,图像分割)。 同时,我们可以获得大量的未标注的视觉数据,这基本上是免费的。 这项工作是试图改善利用这种丰富的手段。 我们设法使使用标签数据的结果更接近一步,但自我监督的最终长期目标可能是完全取代监督的预训练。

不需要标签数据的监督培训的替代方案取得有限的成功。 无监督的学习方法,例如通过最小化重建误差训练的压缩嵌入,在图像合成中已经取得了更多的成功[18],和表示学习相比来说。 半监督学习,联合培训监督和无监督的损失,提供了中间地带[7,35]。 然而,最近的作品倾向于倾向于顺序组合(无监督的预训练,监督微调)[4,5],可能是因为它阻止了无人监控的损失在训练的后期受到破坏。 与无监督学习相关的努力正在开发出较弱形式监督工作的model[2,40]。 这样就减少了人力负担,并且在模型性能上付出了代价。

最近,自我监督已经成为无监督学习的新风味[4,38]。
关键的观察是,标签数据的一部分好处可能是导致使用discriminative的损失。 这种类型的损失可能更适合于表示学习,而不是例如重建或基于可能性的损失。 自我监督是通过将每个输入样本分成两部分来预测部分关联的方式,对未标记的数据使用歧视性损失。 我们专注于自我监督的着色[20,42],其中每个图像被分解为其强度和颜色,使用前者预测后者。

我们对自我监督的主要贡献是:
在不使用ImageNet标签的方法中,VOC 2007分类和VOC 2012分段的最先进的结果。
第一次通过着色深入分析自我监督。 我们研究损失,网络架构和培训细节的影响,显示影响结果的重要方面有很多。
对ImageNet预训练的各种规划(构想)进行实证研究,以及如何与自我监督相比较。

在我们关于为下游监督任务更换基于分类的预训练的工作中,首先要考虑的是clever的网络初始化。 初始化以促进层间激活的网络均匀,更容易和更快地收敛[6,9]。 然而,统一的规模只有在广泛的数据假设的情况下才能进行统计预测,所以通过观察实际数据的激活和正规化,这一想法可以进一步进行[23]。 使用一些训练数据来初始化权重会使初始化和无监督预训练之间的界限模糊。 例如,使用层次k均值聚类[3,19]应该被认为是无监督的预训练,即使它可能是特别快的。

无监督的预训练可用于促进优化或将网络暴露于数量级更大的未标记数据。 前者曾经是一个普遍的动机,但是由于改进的训练技术(例如引入非饱和激活[27],更好的初始化[6]和训练算法[32,17]),这是不必要的。 利用更多数据的第二个动机也可以实现为半监督训练,这是目前在竞争性视觉系统中很少使用的最佳方法的开放问题。

近来自我监督特征学习的方法已经看到了几种形式,大致分为在自然视觉数据中利用时间或空间结构的方法:

  • 时间。存在使用相邻视频帧之间的相关性作为学习信号的各种各样的方法。一种方法是尝试预测未来帧,这是一种类似于语言建模的任务,并且经常使用基于RNN和LSTM的类似技术[36,33]。也可以训练在时间上接近的帧被认为是相似的嵌入.(使用pairs[25,14,15]或三元组[38])。另一种使用三元组损失的方法呈现三帧并尝试预测它们是否被正确排序[24]。 Pathak等人[30]通过预测基于光流的显着性来学习通用表示。 Owens等人[29],有些从时间类别中分离出来的,在单个视频帧上运行,以预测来自整个剪辑的音频的统计摘要。第一个基于视频的自我监督方法是基于独立成分分析(ICA)[37,10]。最近的后续工作将其推广到非线性设置[11]。

  • 空间。 在单帧输入上运行的方法通常使用空间维度来分割样本进行自我监视。 给出了一对图像的补丁,Doerch等人 [4]通过预测两个补丁具有的八个可能的空间组合中的哪一个来训练表示。 Noroozi&Favaro [28]进一步通过解决一个3乘3拼图来学习表示。 修复任务(删除一些像素,然后预测它们)用于Pathak等人的表示学习。[31]。 还使用双向生成广告网络(BiGAN)来学习表示[5]。 这不是我们通常认为是自我监督,但它也类似地对未标记的数据构成监督学习任务(实际与合成),以驱动表示学习.

  • 彩色化。 最后有着色[20,42,43]。 一般来说,以前的两个类别沿着空间 - 时间线分割输入样本,或者预测一个给定另一个或预测线本身。 自动着色偏离这一点,因为它要求在与其输入中心相同的像素上预测颜色,而不会丢弃任何空间信息。 我们推测,这可能使它更适合类似性质的任务,如语义分割; 我们在这个基准上表现出强劲的结果.

通过着色进行表示学习是两种自动着色论文的一部分被首先提出[20,42]。 张等人 [42]在所有PASCAL任务中呈现结果,并显示着色作为自我监督的前沿。 然而,像大多数自我监督论文一样,它仅限于AlexNet,因此与最近的监督方法相比,显示出适度的结果。 Larsson等人 [20]提出了PASCAL VOC语义分段的最先进的结果,我们从50.2%提高了近10个百分点至60.0%。 两篇论文都没有分析或调查结果。

3.Colorization as the target task

培养自动着色器,以便将灰度照片转换为色彩是一个活跃的研究领域[20,42,12]。 最近的方法训练深卷积神经网络来预测颜色[12]或颜色分布[20,42]。 后一种方法是从直方图预测中实例化一种颜色,以产生最终结果。 为了获得最佳的着色结果,这些网络将使用基于分类的网络进行初始化,以便利用其高级特征,从而更好地预测颜色。 在本节中,我们将介绍如何训练色彩,重新审视制作美学彩色图像的一些设计决策,并考虑其对学习表现的影响。

3.1. Training

我们的实验计划从Larsson等人大量借鉴。 [20],使用Caffe [16]和他们的公共源代码版本来培训着色网络。 对于下游任务,我们使用TensorFlow [1],并提供测试代码以及经过培训的模型。

  • Loss. 我们考虑L * a * b颜色值[20,42,12]的回归损耗以及色相/色度直方图的KL发散损失[20]。 对于后者,直方图是从围绕每个目标像素的7×7窗口计算的,并被放置在32个色相中,用于色度和32个色标。 我们评估他们学习表达的能力,而不考虑他们进行着色的能力。 在我们的比较中,我们确保损失的规模相似,以使其有效的学习率尽可能接近。

  • Hypercolumn。 网络使用具有稀疏训练的超级列[22,26,8] [20]。 这意味着对于每个图像,只计算一个小样本的超列。 这减少了内存需求,并允许我们训练更大的图像。 请注意,超列可用于着色预培训,也可用于作为下游任务进行segmentation。 由于我们有理由认为Hypercolumn training可能会破坏残差训练,因此我们不会对ResNet colorizer使用Hypercolumn训练。

  • 数据集。 我们通过将ImageNet [34]的1.3M与Places205 [45]的2.4M相结合,对3.7M的未标记图像进行训练。 数据集包含一些灰度图像,但是我们并没有努力对它们进行排序,因为没有办法从去饱和的图像中分辨合法的消色差图像。

  • 训练。 所有的训练都是用标准随机梯度下降,动量设为0.9。 着色网络使用Xavier初始化[6]进行初始化,并通过批量归一化进行训练,无需重新调整参数[13]。 每次处理图像时,都会随机镜像图像,并随机缩放图像,使最短边在352和600之间。最后,提取352×352 patch,然后通过网络进行补充。 在我们的比较研究中,我们训练使用3个epochs的着色损失(在初始学习率上花费2个epochs)。 在我们长时间运行的实验中,我们训练了大约10个epochs。 对于我们最好的ResNet模型,我们训练了更长的时间(35个epochs),尽管较小的输入(224比224); 我们发现大量的输入尺寸在下游培训期间更为重要。

4. Colorization as a proxy task

我们将重点放在使用纯粹的视觉表征的着色网络,我们描述如何帮助改进分类和分割的结果。

4.1. Training
The downstream task is trained by initializing weights from the colorization-from-scratch network. Some key con- siderations follow:
Early stopping. Training on a small sample size is prone to overfitting. We have found that the most effective method of preventing this is carefully cross validating the learning rate schedule. Models that initialize differently (random, colorization, classification), need very different early stop- ping schedules. Finding a method that works well in all these settings was key to our study. We split the training data 90/10 and only train on the 90%; the rest is used to monitor overfitting. Each time the 10% validation score (not surrogate loss) stops improving, the learning rate is dropped. After this is done twice, the training is concluded. For our most competitive experiments (Tab. 1), we then re- train using 100% of the data with the cross-validated learn- ing rate schedule fixed.

  • 感受野.以前的语义分割工作已经表明了大容量感受野的重要性[26,41]。 实现这一点的一个方法是使用扩张卷积[41,39],然而这重新定义了过滤器的解释,因此需要重新训练。 相反,我们在网络顶部增加了两个附加块(步长2的2×2最大池,3×3卷积与1,024个特征),每个块扩展每个块160个像素的感受野。 我们训练大型输入图像(448×448),以充分了解扩大的感受野。

  • Hypercolumn。 注意,当下游任务是语义分割时使用超级列表是一个单独的设计选择,不需要在着色预培训期间与超级列的使用相结合。 在任何一种情况下,后期超级参数权重都不会重复使用。 对于ResNet,我们使用完整超级列的一个子集。

  • 批量归一化. 从零开始训练的模型使用无参数批次标准化。 然而,对于下游训练,我们将均值和方差吸收到权重和偏差中,并且不进行批量归一化(除了ResNet,在我们的经验中有帮助)。 对于没有经过批处理规范训练并且跨层次规模不均衡的网络(例如ImageNet预训练的VGG-16),我们重新平衡网络,使每一层的激活都具有单位差异[20]。

  • 填充。 对于我们的ImageNet预训练实验,我们观察到从分类网络到完全卷积网络可能会引起由于每个层的零填充引起的边缘效应。 原来的VGG-16没有出现问题,导致我们怀疑这可能是由于引入批量归一化。 对于新近训练的网络,尽管接收领域越来越多地挂在图像的边缘,激活增加了接近边缘,减少了语义信息的数量。 纠正这个3使活动表现良好,这是重要的,以适当地可视化的顶级激活。 然而,它不能对下游任务提供可测量的改进,这意味着网络可以在微调阶段纠正这一点。

  • 颜色。 由于着色网络的领域是灰度级的,除非另有说明,否则我们的下游实验操作在灰度输入。 当重新引入着色时,我们将conv1 1中的灰度滤波器转换为RGB(复制到所有三个通道,除以3),并让它们在下游任务上进行微调。

5. Results

We first present results on two established PASCAL VOC benchmarks, followed in Section 6 by an investigation into different design choices and pretraining paradigms.

5.1. PASCAL

VOC 2012 Semantic Segmentation. We train on the standard extended segmentation data (10,582 samples) and test on the validation set (1,449 samples). We sample ran- dom crops at the original scale. Using our ResNet-152 model with extended field-of-view we achieve 60.0% mIU (see Tab. 1), the highest reported results on this bench- mark that do not use supervised pretraining. It is notice- able that this value is considerably higher than the AlexNet- based FCN [21] (48.0%) and even slightly higher than the VGG-16-based FCN (59.4%4), both methods trained on Im- ageNet.
VOC 2007 Classification. We train on the trainval (5,011 samples) and test on the test set (4,952 samples). We use the same training procedure with 10-crop testing as in [5]. Our results at 77.3% mAP (see Tab. 1) are state- of-the-art when no ImageNet labels are used.

未完待续…

猜你喜欢

转载自blog.csdn.net/sunpeng19960715/article/details/77400653