遥感领域深度学习的应用

摘要——遥感图像分割对于

地球观测,支撑环境监测和城市规划等应用。由于遥感图像中可用的注释数据有限,许多研究都将数据增强作为缓解深度学习网络过拟合的手段。然而,一些现有的数据增强策略依赖于简单的转换,可能不足以增强数据多样性或模型泛化能力。本文提出了一种新的增强策略 -- 聚块混合马赛克 (clusted-Patch-Mixed Mosaic(CP2M),旨在解决这些限制。CP2M集成了一个马赛克增强阶段和一个集群补丁混合阶段。前一阶段从4个随机样本中构建新样本,而后一阶段使用连通域标记算法保证扩展数据保持空间一致性,避免在粘贴随机块时引入不相关语义。我们在ISPRS Potsdam数据集上的实验表明,CP2M大大减轻了过度拟合,为遥感任务中的分割准确性和模型鲁棒性设定了新的基准。本着可重复研究的精神,代码、数据集和实验结果可在作者首页

索引术语-深度学习,航空图像分割,u-net,数据增强,连通组件标记

一、引言

遥感技术通过其广泛调查和分析地球表面的能力,在各个领域发挥着至关重要的作用,包括气候变化减缓 [1] 、生物多样性保护 [2]。气象分析 [3],降雨量预测 [4],能源管理 [5]。这一领域的演变在很大程度上是由深度学习驱动的,深度学习提高了分析卫星图像的准确性和效率,用于监测发电厂的温室气体排放等任务。估算偏远地区的能源需求 [7],基于超像素的高光谱图像聚类 [8],以及使用无人机图像实时定位植被模式 [9]。这些方法的有效性得到了地理空间数据集日益增长的可用性和复杂性的支持,能够详细评估环境影响,并协助向可再生能源 [10] 过渡和保护工作 [2]。此外,标准化评估平台的开发,如GRSS数据和气候变化基准的建议,强调了该领域朝着更普遍和可访问的遥感应用的进展。

然而,遥感领域深度学习的应用面临着由数据的高维性和空间模式复杂性导致的过拟合挑战。图像增强技术已成为应对这些挑战的关键方法之一。

有效地扩大了训练数据集的多样性并提高了模型的鲁棒性。尽管取得了这些进展,但由于增强后的数据集中变异性有限,模型往往容易出现过拟合现象。认识到这些问题后,最近的研究工作集中在开发数据增强技术和正则化技术上,以提高模型性能和通用性。为了解决上述问题,我们提出了CP2M模型,这是一种新型方法,旨在提升模型在遥感应用中的泛化能力和减轻过拟合现象。

II. 相关工作

在现代航空图像分割中,基于深度学习的方法已成为主流。2025年,Long等人提出了用于语义分割的FCN[15] 模型,为语义分割奠定了基础。同年,Ronneberger等人提出了用于医学图像分割的u-net [16],该模型成为航空图像分割中最广泛使用的基础模型。为了实现移动设备的推理能力,Chen等人在2018年提出了DeepLab V3 [17],利用可分离的卷积进行高效的图像分割。在引入变压器 [18] 和ViT (视觉变压器)[19] 之后,航空图像分割的性能得到了提高。2024年,Yamazaki等提出了AerialFormer[20],这是一种专门设计的基于变压器的模型,用于准确的航空图像分割。然而,标记航拍图像既耗时又昂贵。数据增强已成为提高遥感图像分析深度学习模型性能,同时降低数据标记成本的不可或缺的技术。Lu等人 [21] 提出了一种用于遥感图像分类的新型数据增强技术RSI-Mix。通过整合区域特定的混合策略,RSI-Mix在分类性能上表现出显著的改进,特别是在训练数据有限的sce-narios中。Khammari等人 [22] 探索了用于地球观测目标探测任务的合成数据生成。他们的方法专注于将合成对象嵌入卫星图像,创建多样化和逼真的数据集以增强模型训练。Tang等人 [23] 介绍了一种扩散驱动的数据生成方法,专门用于遥感目标检测。这种方法通过合成对象的真实变化,有效解决了注释数据的稀缺性,从而提高了检测准确性。

III.CP2M 管线

我们提出的CP2M增强如图1所示,它由两个阶段组成:增强马赛克增强和集群补丁混合(CPM)增强。在我们的方法中,有两个阈值来控制应用马赛克和CPM增强的概率。

第 2 页

A. 增强马赛克增强

马赛克增强最初是由Bochkovskiy等人在YOLOv4中引入的,用于目标检测 [24]。马赛克增强混合了四种不同的图像,使模型学习能够检测出正常背景之外的物体。马赛克的另一个优点是将四个图像合并为一个图像,可以在不增加批大小的情况下增加一个批次中的样本数量。在语义分割方面,特别是在自动驾驶和医学成像等专业领域,合并图像可能会显著扭曲原始图像的背景和特征分布。然而,在遥感的语义分割中,图像中对象类位置分布的可变性使得该技术对马赛克引入的上下文干扰不那么敏感。避免拼接多个图像导致的性能下降。此外,鉴于遥感图像的高分辨率以及与数据标记相关的广泛成本,数据增强对于提高该领域的分割性能至关重要。

如图1阶段1所示,我们首先从训练集中采样四张不同的图像。对于这些图像,我们在RGB图像及其相应的标签上应用随机垂直/水平翻转、旋转和裁剪。随后,我们通过将四个处理过的样本放置在新图像画布的四个象限中,将它们连接在一起。为了保证拼接增强样本与原始样本分辨率的一致性,我们随机将每个子图像裁剪到拼接图像大小的一半。在样本加载期间,生成一个0到1之间的随机数,使用p − 马赛克作为阈值 (表示使用马赛克增强的概率) 在训练阶段控制正常样本和马赛克样本的比例。

B. 集群补丁混合增强

Yun 等人[14]提出了一种称为CutMix的正则化策略,其核心思想是通过组合两个不同的图像来创建新的训练图像。这可以通过从一个图像中剪切矩形补丁并将其粘贴到另一个图像上来完成。具体来说,从一张图片上剪下一块补丁,并将其粘贴到

另一个图像。这些图像的标签也按比例混合到补丁区域中。然而,CutMix方法粘贴目标和无关像素可能会对语义分割产生负面影响,这促使我们引入图1所示的Clustered Patch Mixed (CPM)增强技术。

由于同一类别的物体,尤其是树木和车辆,在遥感图像中以分散和不连贯的簇呈现,这允许我们将连通组件标记算法应用于不同实例形式的相同类的单独对象,我们将每个实例称为一个补丁。我们首先从训练集中抽取一对图像/标签,对图像和标签进行随机的水平和垂直翻转、旋转和裁剪。然后对于标签中的每个类,我们运行连通组件标记算法,将不相连的对象分离到不同的实例中,并用不同的ID对它们进行标记。

连通组件标记(CCL)是一种用于计算机视觉的算法,用于识别二进制图像中的连接区域,这些区域仅由像素值为“0”或“1”的像素组成。CCL的目标是在前景像素中区分并给每个连通分量分配一个唯一的标签,定义为相邻像素的集群,其中每个像素直接邻接至少另一个在同一集群内。在我们的CP2M管道中,我们随机采样k个不同的实例,并

第 3 页

将它们粘贴到输入图像和标签上,这可以表示为:d

其中,图像和标签是输入的图像及其对应的标签。图像 和 标签 是补丁源的图像和标签。ˆ图像和 ˆ标签 是输出的图像和标签。mask 表示指示选定像素的二进制掩码。o 是逐元素乘法。

图3:基线和CP2M之间的定性比较。类别映射:不透水面(C1)、建筑物(C2)、低植被(C3)、树木(C4)、汽车(C5)、杂波/背景(C6)。

IV. 实验与结果

A. 实验设置

我们的实验是在波茨坦数据集 [25] 上进行的,该数据集包含38个6000 × 6000分辨率的图像/标签对。我们遵循官方设置,使用24个样本进行训练,使用14个样本进行测试。我们使用1000 × 1000的滑动窗口来获取864个训练样本和504个测试样本。我们使用u-net [16] 和MobileNetV2[26] 骨干网作为分割模型。我们使用Adam优化器,恒定学习率为1e-4,L2权重衰减为4e-5。批量大小为8,所有实验都训练了50个时代。

B. 模型架构和目标函数

我们实验中使用的基于UNet [16] 的模型架构如图2所示,其中包含一个MobileNetV2[26] 编码器、一个信道缩减模块和四个解码器。编码器-解码器架构通常用于通过CNNs处理2D图像数据 [27-29]。这种模型架构在各个领域都有广泛的应用,包括机器人 [30-34] 、自动驾驶感知 [35] 、显著物体检测 [36,37],医学视觉 [38,39],推荐系统 [40-42]。对于我们的模型架构,通道还原模块由一组2D卷积层、2D批归一化层和ReLU激活层组成。每个解码器由两组二维卷积、批处理归一化和重放组成。我们使用扩展的交叉熵作为训练目标函数,其定义为:

其中,yi和pi分别表示第i类的标签和预测概率,wi是用于解决类别不平衡问题的类别权重,λ控制正则化强度,R(θ)(例如L1 / L2)通过惩罚大的权重来防止过拟合。

C. 指标

我们使用mIoU和准确度指标进行定量评估。mIoU是一种按类别平均的指标,正式定义为每个类别的真阳性预测T Pc与真阳性、假阳性F Pc和假阴性F Nc预测之和的比例:

D.定性评价

图3直观地比较了基线分割结果与使用CP2M增强的结果。第1列显示原始图像,而第2列显示不透水面 (C1) 、建筑物 (C2) 、低植被 (C3) 、树木 (C4) 等类别的地面真相标签,汽车 (C5) 和杂波/背景 (C6)。列3 (基线预测) 与基本事实适度一致,但显示出明显的分类错误,特别是在C3和C4之间以及在区分C5与周围环境方面。马赛克增强 (第4列) 提高准确性,改善C2的轮廓和c5的检测。最后一列,结合了马赛克和CPM马赛克增强,显示了进一步的改进,C4的分割更精细,C3的区分更清晰,c6中的错误分类更少。

E. 定量评价

表I中的定量评估突出了CP2M模型的显著有效性。通过集成CP2M,与基线相比,在准确性和mIoU等指标上观察到显着的改进。仅马赛克增强就将精度从84.57% 提高到86.25%(+ 1.68%),将mIoU从67.29% 提高到70.11%(+ 2.82%),展示了其影响。添加CPM马赛克进一步提高了准确度2.17%,mIoU比基线提高了3.25%。这些增强功能突显了CP2M模型在缓解过度拟合并提高遥感任务分割准确性方面的能力。我们还测量了每个类的IoU,这些IoU在大多数类中都有显著的性能提升。图4展示了在训练/测试期间使用马赛克的概率对准确性和mIoU的影响,揭示了100% 马赛克数据增强策略是次优的。

第 4 页

F. CP2M生成样本的可视化

在图5中,我们展示了使用CP2M技术创建的五个增强样本,并说明了获得具有选定中间输出的最终增强输出标签的八个基本步骤。行A和B显示使用马赛克技术增强的图像和标签。行C和D描述了图1中提到的补丁的源图像和标签。第E行中的图像是应用连通组件标记算法的结果,其中实例用各种颜色区分。第F行中的二进制掩码由从第E行中随机选择的实例组成。最后两行,G和H,展示了CP2M生成的最终输出图像和标签。行A/B和G/H之间的比较清楚地表明,通过我们提出的CP2M方法,训练样本的多样性得到了显著增强。

五、结论

在本文中,我们介绍了一种针对航空图像分割的新型簇-补丁混合马赛克增强策略。我们提出使用连通分量标记算法从源图像中提取补丁,并通过将图像/标签补丁附加到随机位置来丰富输入样本。这种方法显著增加了训练数据的多样性,有效地对抗过拟合并提高了模型性能。此外,我们还研究了在整个训练过程中数据增强与正常样本比例变化的影响。

猜你喜欢

转载自blog.csdn.net/weixin_42380711/article/details/146040974