S2MAE: A Spatial-Spectral Pretraining Foundation Model for Spectral Remote Sensing Data
CVPR 2024
摘要:
在计算机视觉的广阔领域中,我们可以使用无数预先训练的模型。 然而,这些模型大多数是针对自然 RGB 图像而设计的,并被证明不足以用于光谱遥感 (RS) 图像。 光谱遥感图像具有两个主要特征:(1) 多波段捕获不同的特征信息,(2) 空间光谱维度内的空间对齐和一致的光谱排序。 在本文中,我们介绍了 Spatial-SpectralMAE (S2MAE),这是一种专门用于光谱 RS 图像的预训练架构。 S2MAE 采用 3D 转换器进行掩蔽自动编码器建模,将可学习的频谱空间嵌入与 90% 掩蔽率集成在一起。 该模型使用紧凑的立方体标记有效地捕获局部光谱一致性和空间不变性,展示了对不同输入特征的多功能性。 这种适应性有助于对广泛的光谱数据集进行渐进式预训练。 S2MAE 的有效性通过对两个相当大的数据集(总计超过一百万训练图像)的连续预训练得到验证。 预训练的模型随后应用于三个不同的下游任务,并进行深入的消融研究以强调其功效。
INTRODUCTION
光谱成像能够捕获多种光谱信息,显着提高物体和场景的精度和识别能力,超出了 RGB 数据单独的能力。 这使得多光谱/高光谱(MS/HS)遥感数据成为众多地球观测(EO)应用中的首选且重要的组成部分[19]。 这些应用涵盖土地利用/土地覆盖测绘、生态系统监测、天气预报、能源开发、生物多样性保护和地质勘探等各个领域。
在遥感图像领域,大量的开源图像很容易获取,但很大一部分仍未标记。 现有的算法和模型往往未充分利用这些庞大的数据集,主要依赖于有限的可用标记数据。 然而,标记此类数据的过程是资源密集型、耗时的,并且通常在经济上造成负担。 为了释放这些资源的全部潜力,迫切需要开发和实施由数据驱动的自监督或无监督方法。
RS领域中出现了一波开创性的自我监督方法 [1, 4, 15, 17, 18, 26–28, 30, 33, 34, 40, 42, 43]。 王等人。 [39] 在 RS RGB 图像上训练了一个普通视觉转换器,并开发了旋转的不同大小的窗口注意力来微调模型。 Mall等人[26]通过设计 CACo 损失来改进 SeCo [27],以更好地利用对比学习(CL)来挖掘 RS 数据中的时间不变性。然而,大多数现有方法主要关注 RGB 数据 [1,27,28,32,39,42],忽略了 RS 中丰富的光谱信息。 SatMAE [4] 是一种针对 MS 图像量身定制的掩码自动编码器 (MAE) 模型,利用组掩码策略和组嵌入来预训练模型。 尽管具有开创性,SatMAE 的组掩模设计(见图 3)在三个方面存在不足:(1)组之间的相互作用不足,阻碍了光谱测序理解(例如,RGB 和红边之间),(2)分组中的波段组合有限; 例如,SatMAE 将 10 个通道分为 3 组,限制了对不同通道数量的适应性以及 (3) 由于特定频段组合而产生的额外组感应偏差。 这些缺点促使我们思考:MAE 模型能否利用具有可变波段计数的光谱数据中的局部光谱连续性来学习强表示并减少归纳偏差?
为了解决这些问题,我们提出了 SpatialSpectralMAE (S2MAE),它是 MAE 的扩展,用于使用 3D 掩蔽方法表征光谱图像。 3D 掩蔽方法首次在 [9] 中引入,用于评估 MAE 在视频中的功效。 尽管它能够以最小的偏差学习鲁棒的表示,但由于随机掩蔽和跨帧的不同对象动态,它往往更关注局部环境细节而不是主体的运动(在视频分析中至关重要)。 相反,由于光谱图像的分辨率较低(例如 10m、20m),局部信息对于光谱图像至关重要。 此外,光谱图像在空间维度上没有变化,每个通道都体现了独特的光谱反射率,以提供不同的特征信息(见图 1)。 因此,在光谱数据中利用 3D 掩模,通过小张量立方体集成局部光谱连续性和空间不变性,预计比视频更有效。 该方法已被证明对于高光谱图像分类是有效的[20, 34],我们认为它对于更多任务上的所有光谱 RS 数据都很有价值。 此外,利用 Transformer 的优势,S2MAE 可以有效管理不同的输入图像特征,例如尺寸、分辨率和通道,从而能够跨各种光谱 RS 数据集进行渐进式预训练。 值得注意的是,我们的扩展版本,即SpectralGPT,具有更先进的设计、更通用的EO应用以及更多的分析和讨论,可以在[19]中找到。

总的来说,我们的贡献包括:
(1) 我们设计了 Spatial-SpectralMAE (S2MAE),这是一种用于光谱图像的通用自监督框架,利用具有 90% 掩模比的 3D 掩模变换器。 它克服了 SatMAE 的局限性,增强了编码器的能力,通过任意数量频带的光谱图像的局部光谱连续性和空间不变性来学习强表示。
(2) 我们对 S2MAE 采用渐进式预训练方法,利用两个 Sentinel-2 数据集:fMoWSentinel [4] 和 BigEarthNet [35]。 这些数据集不仅在图像大小和地理覆盖范围上表现出差异,而且还积累了总共超过一百万张图像的广泛训练集。
(3) S2MAE 和现有的基础模型在三个不同的下游任务中进行评估,包括单/多标签分类和变化检测。 此外,还通过大量消融研究进行验证,并辅以掩模比、模型规模、解码器深度、补丁大小和其他相关方面等因素。
Methors
3.1. Method Overview of S2MAE
所提出的 S2MAE 基础模型的说明性工作流程,由三个部分组成:在一个数据集上从头开始进行初始预训练(例如,fMoW,具有 712,874 个图像),在更多数据集上进行渐进预训练(例如,BigEarthNet,具有 354,196 个图像),以及精细预训练 -调整下游任务。 在相关阶段,我们的 S2MAE 开始通过随机初始化从头开始训练模型。 随后,该模型使用具有不同图像大小和地理区域的数据进行渐进式训练。 S2MAE 是按照 MAE 架构 [14] 构建的,并结合了 3D 遮罩,其中 90% 的补丁被遮罩。 对于下游任务,如单分类、多标签分类、变化检测等,将预训练的S2MAE与待训练的任务特定头网络连接,然后进行微调。
Mask
接下来,对这些补丁执行掩码操作以识别可见(或未掩码)和掩码补丁,例如 xvis 和 xmask。
其中 M ∈ {0, 1} H p ×W p ×C k 是补丁式二进制掩码,指示应掩码哪些补丁,即补丁中的所有数据都设置为零。 只有可见的补丁被发送到待学习的编码器中。
编码器
编码器 fen 使用 ViT 实现,其中每个可见补丁都通过一系列转换器块进行处理。 因此,第 i 个补丁中的编码器输出可以表示为 zi = fen(xvis)。
解码器
解码器的输入(用 gde 表示)是一组完整的标记,其中包括编码的可见补丁和掩码标记(例如 zm)。 编码特征(来自编码器的潜在表示)和掩码标记用作输入,并与轻量级 ViT 解码器的位置嵌入相结合。 输出可以表示为 ^x = gde([zvis, zm] +Epos),其中 zvis 是可见补丁的编码表示。
3.2. Progressive Pretraining Procedure
由于 S2MAE 能够适应不同的输入图像尺寸,因此我们通过合并不同的光谱 RS 数据集来采用渐进式预训练策略。 具体来说,我们利用 fMoW-sentinel 和 BigEarthNet 数据集的训练集来验证渐进式预训练方法的有效性。 值得注意的是,使用这种方法,可以将各种 RS 数据合并到预训练中,而无需将它们集成到统一的数据集中。
消融实验
位置嵌入:
研究表明嵌入对模型性能的影响很小。 正如[9]中所建议的,我们采用可学习的空间光谱嵌入来减轻位置嵌入大小的增长。
解码器深度。
表4b 系统地检查了解码器深度对模型性能的影响,遵循 MIM 方法的原理,其中预训练的编码器充当下游任务的骨干,同时丢弃解码器组件。 值得注意的是,结果表明浅层解码器配置不适合谱模型预训练。 这一观察结果与以下假设相一致:光谱图像具有高维性和复杂性,需要具有增强容量的解码器,这与该领域的先前发现一致[9]。
重建。
4c 分析了重建目标对光谱 RS 图像的影响——比较归一化、标准化和未经此类转换的原始数据。 标准化将数据缩放至 [0, 1],而标准化给出的平均值为 0,标准差为 1。研究显示标准化和标准化之间的性能差异极小。 然而,根据原始数据预先训练的模型表现明显不佳,这可能是由于光谱图像的固有性质,其中光谱值数值很大并且在波段之间变化。 对原始数据的预训练可能需要更长的时间来收敛并匹配在标准化数据上预训练的模型的性能。 该研究表明,在特定表示空间中使用具有语义意义的目标可能会提高模型性能。
掩蔽比。
4e 强调了一个重要发现:较高的掩蔽率可以提高模型性能。 与 RGB 图像典型的 75% 掩蔽比不同,光谱 RS 图像受益于 90% 或更高的掩蔽比。 这与[9]将掩蔽率与数据信息冗余联系起来的假设是一致的。 光谱 RS 图像具有更多冗余,需要更高的掩蔽比才能有效进行模型学习。 90% 的掩蔽率还提高了预训练效率,降低了内存复杂性并加快了训练速度,这对于模型预训练来说是一个有利的实际结果。