An Empirical Study of Remote Sensing Pretraining(遥感预训练的实证研究)(一)

首先介绍几个预训练模型:
①IMP: ImageNet pretraining. (ImageNet预训练)
②RSP: remote sensing supervised pretraining on the MillionAID.(在MillionAID上进行遥感监督预训练)
③MAE: MAE unsupervised pretraining on the MillionAID.(在MillionAID上进行无监督的MAE预训练)

1.提出remote sensing supervised pretraining on the MillionAID(RSP)遥感监督预训练

提出的原因:大多数现有的深度模型都是用ImageNet预训练的权重初始化的。由于自然图像相对于航空图像不可避免地存在较大的域间隙,可能限制了下游航空场景任务的微调性能。
解决的方法:借助迄今为止最大的RS场景识别数据集——MillionAID,从头开始训练不同的网络,获得一系列RS预训练的骨干网络,包括卷积神经网络(CNN)和视觉Transformer(如Swin和ViTAE),它们在计算机视觉任务中表现出了很好的性能。然后,利用这些CNN和视觉Transformer主干研究了RSP对代表性下游任务的影响,包括场景识别、语义分割、目标检测和变化检测。
研究表明:RSP可以在场景识别任务和感知RS相关语义(如“桥”和“飞机”)中提供独特的性能。
结论:尽管RSP减轻了传统ImageNet预训练在RS图像上的数据差异,但它仍然可能受到任务差异的影响,其中下游任务需要与场景识别任务不同的表示。这些发现需要进一步研究大规模的预训练数据集和有效的预训练方法。
RSP是航空图像理解中一个新兴的研究方向,但在视觉Transformer的背景下仍未得到充分的探索。我们希望这项研究能够填补这一空白,并为未来的研究提供有用的见解。

文章的三个贡献:
①利用传统的CNN、竞争视觉Transformer模型和先进的ViTAETransformer三种骨干网络,研究了遥感预训练对大规模遥感数据集的影响。
②在场景识别、语义分割、目标检测和变化检测等四种任务上,我们使用遥感或ImageNet预训练权值对上述模型进行了进一步的微调,并与其他方法进行了比较。
③实验结果表明,典型的视觉变压器模型可以获得具有竞争力的性能或优于CNN。特别是,即使与现有的最先进的方法相比,ViTAE在几乎所有设置下也能达到最佳性能。此外,还将介绍遥感预训练的一系列研究成果,包括与传统ImageNet预训练的比较以及在不同下游任务上的性能。

2.相关工作

①CNN的一些方法和优缺点
②Transformer的一些先进方法的优缺点
③Remote Sensing Pretraining 遥感预训练

使用RS数据集进行航拍场景识别的预训练是一个非常直观的想法。然而,据我们所知,由于ImageNet等大规模遥感数据集的不足,这方面的探索很少。然而,研究人员试图从其他资源中获得RS表示。例如,GeoKR利用全球土地覆盖产品作为标签,他们使用mean-teacher框架来缓解RS图像与地理图像成像时间和分辨率差异的影响。
然而,由于数据分布的内在差异,强制不同数据集的对齐不可避免地会带来误差。大容量遥感数据的稀缺性主要表现在分类标签方面,而不是图像方面。在本研究中,由于采用的MillionAID数据集具有专家标注的ground truth标签,并且不包含任何时间信息,因此我们像传统IMP一样直接进行监督预训练。

3.遥感预训练和ViTAE Transformer

3.1MillionAID数据集

MillionAID是迄今为止RS领域最大的数据集。它包含1000848个非重叠场景。fMoW和BigEarthNet是多光谱数据集,而MillionAID是RGB数据集,更适合现有的深度视觉模型。
MillionAID的分类是由位于第二层28个母节点上的51个叶子组成的分层树,28个组属于农业用地、商业用地、工业用地、公共用地、住宅用地、交通用地、未利用土地、水域等8个基本类别,每个叶子类别约有2000 ~ 4.5万张图像。该数据集来自谷歌地球,由多种传感器组成,包括但不限于SPOT、IKONOS、WorldView和Landsat系列,导致不同的分辨率。最大分辨率可达0.5m,最小分辨率为153m。图像尺寸范围为110 × 110 ~ 31,672 × 31,672。

3.2 ViTAE

原始的ViTAE遵循T2T-ViT的深窄设计,发现简单地减小通道尺寸和增加层深度可以提高ViT的特征丰富度,在提高性能的同时减小模型尺寸和计算成本。因此,原始ViTAE首先通过三个还原单元将输入图像降采样到1/16大小。与ViT类似,在添加元素正弦波位置编码之前,将类标记与第三个约简单元的输出连接起来。然后,对多个正常单元进行叠加,特征大小一直保持到最后。最后一个正常单元的类标记特征用于通过线性层进行分类。

虽然原始的ViTAE在ImageNet分类上表现良好,但由于它不能在不同尺度上生成丰富的中间特征,因此不适合转移到分割、检测、姿态估计等其他任务中。因此,作者提出了ViTAEv2变体,该变体采用了ResNet和Swin等流行骨干网的经典分阶段设计。图2显示了原始ViTAE和ViTAEv2的比较。

在ViTAEv2中,网络分为多个阶段,通常为4个阶段。在每个阶段中,第一个单元是用于下采样的还原单元,然后是堆叠的正常单元。在最后一个普通单元格之后使用平均池化层来替换类令牌。当对下游任务进行微调时,这个池化层被移除,剩下的网络与相应的任务解码器连接。
 

图2 ViTAE模型示意图(a)原始ViTAE (b) ViTAEv2

 3.3实现

1.确定预训练网络

我们首先确定用于RSP的深度模型的类型。为此,我们从官方训练集出发,构造了一个mini-training set和一个mini-evaluation set,分别有9775张和225张图像。注意,后一组是通过从每个类别中随机选择5张图像来平衡类别而形成的。CNN采用经典的ResNet-50。由于本研究主要探讨基于RSP的视觉变压器模型的性能,因此本文还对一系列典型的基于视觉变压器的网络进行了评价,包括DeiT-S、PVT-S和Swin-T。选择特定版本是为了保证这些模型与ViTAE-S模型相比具有相似数量的参数。此外,我们还纳入了ViT- b供参考,因为ViT是视觉变压器最基本的模型。

不同模型在微评价集上的结果。他们在百万援助的迷你训练集上接受训练。

对于ViTAE模型,在采用RSP时,我们选择最强的模型,即ViTAEv2-S,以期望在航拍场景识别等下游任务中具有良好的性能。为了比较,我们选择ResNet-50作为传统CNN的代表网络,RS预训练后的ResNet50也可以在一系列航空数据集上提供一组新的CNN相关基线。DeiT-S和vitb由于精度低、参数多而被淘汰,并且由于堆叠变压器的设计,它们难以转移到下游任务中。Swin可以看作是建立在PVT的基础上,将全局MHSA替换为可移动的WMHSA。由于Swin的top-1准确率大于PVT,并且Swin- t需要较少的训练时间,所以我们在后续的实验中也选择了Swin- t。

2.确定合适的权重

选择的网络模型为ResNet-50、Swin-T、ViTAEv2-S。在确定候选模型后,我们进行RSP以获得预训练的权重。

不同训练代数设置下的ViTAEv2-S在百万辅助验证集上的结果。
候选模型在百万辅助验证集上的后续调优实验结果。

最终选择ResNet-50的epoch-300作为ResNet-50的RSP预训练模型,
选择Swin-T的epoch-300作为Swin-T的RSP预训练模型,但是epoch-120的acc比epoch-300的高,没有选择epoch-120的原因是epoch-300可能在下游任务中具有更好的泛化性;
选择ViTAEv2-S的epoch-100作为ViTAEv2-S的RSP预训练模型。

猜你喜欢

转载自blog.csdn.net/weixin_42715977/article/details/130830217
今日推荐