【2024|滑坡数据集论文解读2】CAS滑坡数据集:用于深度学习滑坡检测的大规模多传感器数据集
【2024|滑坡数据集论文解读2】CAS滑坡数据集:用于深度学习滑坡检测的大规模多传感器数据集
文章目录
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz
论文链接:https://www.nature.com/articles/s41597-023-02847-z
2、Methods
2.1 Study areas
我们重点构建一个标准化的滑坡数据集,用于深度学习,涵盖多样化的地形、气候条件和植被覆盖水平,融合来自多种数据源的遥感影像,如无人机(UAV)和卫星影像。图1展示了研究区域的定位图。
2.2 Data acquisition
大部分卫星影像来自不同组织提供的公开数据集,可以通过Google Earth Engine(GEE)平台获取。这些数据集包括Sentinel-2A/B(SEN2)和Landsat影像。我们的无人机影像则来自合作伙伴,并可根据后续提供的说明进行访问。为了帮助用户识别我们的研究区域,数据集中包含了每个研究区的地理参考shapefile(shp文件)。Tiburon半岛(Sentinel)、莫西台地(SAT)和汶川的影像来源于Google Earth Engine,其使用需遵守GEE平台的条款与条件。Tiburon半岛(Planet)的影像来自Planet的教育与研究计划,Palu、Lombok的影像来自Digital Globe的开放数据计划,北海道胆振东部地区的影像来自日本国土交通省地理空间信息局。孟东的影像则通过与北京蓝宇方圆科技有限公司的合法授权获取,想要获取该原始数据的用户需直接与该公司联系,并遵循其官方网站上的购买指南。龙溪河(SAT)的影像通过中国资源卫星应用中心的合法授权获取。此外,龙溪河、九寨沟、泸定的无人机影像由四川省测绘地理信息中心提供,该中心是本文作者机构的重要合作伙伴。其他有意重复此工作或进行类似研究的人员可联系四川省测绘地理信息中心或访问其数据库。有关子数据集的来源和捕获时间,请参见下表2。
2.3 Label creation
参考之前研究中披露的滑坡解译结果,并结合获取的遥感影像,我们使用QGIS 3.32.3版本和LabelMe软件进行标注创建。QGIS因其全面的地理空间分析能力,被用于滑坡相关地理信息的精确分析;而LabelMe则因其用户友好的界面和高度适合语义分割任务而被选用。这些工具的选择基于其在给定背景下准确解译滑坡特征的能力和适用性。
我们使用以下标准确保标注的准确性和质量:
- 参考数据:我们参考了现有的滑坡编目和已发表的资料进行交叉验证,以确保结果与公认的滑坡解译一致。
- 专家意见:标注过程中我们与领域专家和地质学家合作,他们在滑坡识别和分析方面的专业知识有助于生成准确且一致的结果。
- 质量控制措施:我们实施了严格的质量控制程序,包括团队成员的多次交叉验证,并通过讨论与共识解决标注中出现的差异。
2.4 Building the dataset
我们将影像裁剪为512×512大小的TIFF格式,并以相同格式创建了包含滑坡解译信息的标注文件。具体而言,创建数据集的工作流程如图2所示。
在创建数据集的过程中,我们遇到了各种挑战,如表3所示:**裁剪后的图像内容不足(图像边界)、目标物体比例低(标注像素比例)、目标被云层遮挡(云层覆盖)以及由于图像拼接导致的内容不连续性(拼接缝隙)。**将这些存在问题的数据纳入训练集可能会增加计算成本,因为需要处理更多无效数据。这还可能导致模型精度下降,因为模型可能会过拟合这些无效数据,从而在有效数据上产生偏差预测。
相反,剔除问题数据可以在一定程度上降低计算成本并提高模型精度。然而,最终的模型在实际检测过程中仍需面对这些问题数据,这可能会显著降低精度,因为模型缺乏处理此类数据的经验,导致模型鲁棒性下降。为了应对在图像裁剪和标注过程中出现的这些数据相关问题,我们设计了一个严格的筛选和过滤方案。具体来说,我们首先使用自动化指标来识别和量化图像边界、目标大小和遮挡百分比等问题。未达到某些阈值的图像会被标记出来。随后我们对这些标记的图像进行人工检查,以做出最终的保留或剔除决定。例如,在对初始卫星影像数据集进行多轮筛选后,我们剔除了约1,245张问题图像,占初始数据集的约14%。这一过程使我们创建了一个精炼的数据集,并且验证集上的模型精度较未经过滤的数据集提升了1%。本节中的实验结果将在下文的“数据集质量控制验证”部分中详细介绍。
- 图像边界
由于遥感(RS)影像的尺寸通常超出神经网络在分辨率和存储空间方面的处理能力,在将影像输入神经网络进行训练之前,通常需要进行预处理操作,如裁剪和缩放。在裁剪过程中,我们遇到了边界填充问题。边界填充指的是遥感影像中不覆盖实际目标的区域,这些区域通常以白色像素或固定值填充。为了在保持原始影像信息完整性的同时,尽量减少过多白色像素对模型训练的负面影响,我们设立了一个阈值。当填充像素比例超过30%时,相关数据将被剔除,从而确保用于训练的数据是最相关且信息丰富的。
- 标签像素比例
在遥感影像的滑坡检测中,常常会遇到小样本检测问题。区域卫星影像中滑坡区域所占的像素比例相对较低,这在构建数据集时带来了挑战,因为单张图像中滑坡区域可能只占极小的一部分。即便是对人类观察者来说,在这种情况下识别滑坡区域也变得困难。因此,这对模型的训练会产生不利影响。为了解决这一问题,我们设立了一个阈值,剔除那些单张图像中标记像素比例低于0.1%的数据。这样,我们确保数据集中主要包含具有更显著滑坡区域的图像,从而实现更有效的模型训练。
- 云层
地震和降雨事件是引发山区滑坡的主要自然灾害,通常会导致灾后卫星影像中云层覆盖严重。减轻云层对滑坡识别的影响是该领域中持续存在的挑战。为了增强模型的鲁棒性,并减少低质量图像数据在训练过程中造成的干扰,我们决定排除云层像素比例超过80%、且滑坡像素清晰度受损的卫星影像。这一策略性的选择使我们能够纳入高质量的图像数据,从而提高模型在检测由地震和降雨引发的滑坡时的有效性。
- 缝隙
所谓的成像伪影“缝隙”是指卫星影像在不同时间或地点拍摄时,亮度、颜色或纹理上的差异。这些伪影来源于摄像角度、光照条件或地面变化在成像过程中产生的变化。此问题在历史影像和描绘欠发达地区的卫星影像中更为常见。为了有效地整理数据集,我们仔细排除了那些严重错位或滑坡区域模糊的低质量影像。这个严格的筛选过程确保了数据集中包含相关的有效信息,减少了成像伪影带来的不利影响,从而增强了模型在滑坡检测中的鲁棒性和准确性。
人工检查
在应用了前述的自动化和手动筛选程序后,我们对保留和排除的数据集进行了细致的人工视觉检查。这包括将标签覆盖在图像上,并进行仔细的视觉评估,以确保标签与图像中的实际特征精确对齐。特别是,我们检查了标签是否准确覆盖了图像中的对应滑坡区域。这个全面的人工检查对于验证数据集的完整性和可靠性至关重要,从而提升了数据的准确性和质量。
2.5 Model
为了评估我们的数据集在语义标注任务中的性能和可用性,我们选择了几种深度学习模型,包括三种常用于滑坡识别的知名模型以及一种此前提出用于增强滑坡识别的深度学习网络。具体来说,这些模型包括全卷积网络(FCN)【52】、U-net【53】、DeeplabV3+【54】和多尺度特征融合网络(MFFENet)【55】。
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz