简析IBM联合NASA开源的地理空间基础模型

8月4日,IBM在Hugging Face上开源了地理空间AI基础模型Prithvi。Prithvi基于IBM的watsonx.ai模型,使用NASA的Harmonized Landsat Sentinel-2(HLS)卫星数据进行训练,并利用洪水和火灾痕迹数据微调而成,旨在将卫星数据转化为显示洪水、火灾及其他地理场景变化的高分辨率地图,揭示环境发展变化并防患于未然。该模型将成为Hugging Face上规模最大的地理空间基础模型,也是IBM与 NASA合作建立的首个开源 AI 基础模型。

目前在Hugging Face上可以试用4个单一功能的Demo,分别是多时相影像补全、洪水检测、火灾痕迹检测以及多时相地物分类,暂不支持多模型或多数据叠加使用。用户需提供HSL的geotiff影像,且需要包括6个波段:Blue, Green, Red, Narrow NIR, SWIR, SWIR 2。

1 多时相影像重建

该模型采用ViT架构和掩码自动编码器(Masked AutoEncoder,MAE)学习策略开发的自监督编码器,具有MSE损失函数。训练数据为连续的HLS影像。该模型包括跨多个patch的空间注意力以及每个patch的时间注意力。即能够考虑不同区域的空间位置关系,又能够考虑同一区域的时间演变规律。

该功能可以根据同一区域的三时相影像进行重建。首先提供一组(三幅)HLS影像,模型随机屏蔽一定比例的区域,再基于未屏蔽的部分进行重建。下图为随机屏蔽及重建结果,重建结果与原图基本一致,但清晰度还未能达到原图的程度,仍然能看出模糊的痕迹。另外,官方称该模型还可以接收视频格式的遥感数据(目前暂未开源),模型通过处理视频中的时间维度推理场景的下一步变化,如洪水蔓延、火灾烧蚀、土地覆盖分类等。

2 洪水检测

Prithvi-100m模型最初使用3个时间序列进行预训练,在微调过程中,该模型可以与任意数量的时间序列一起使用,在应用中可体现为用多个时间序列的影响来模拟洪水蔓延趋势。在目前开源的模型中重点研究单个时间的影像分割:

 Demo中的模型仅支持单幅遥感影像中洪水区域的分割,分割效果如下。其中图1、图2为官方Demo提供的示例数据(512像素×512像素),图3为本地下载并裁剪的哨兵2号数据(1381像素×1311像素,分辨率15米)。该模型会提取输入影像中的R、G、B波段进行检测。对于示例数据,因影像幅面较小,包含地物要素不多,水体分割效果尚可,但仍然能看出边缘不清晰、连贯性较差。对于本地下载的哨兵2号数据,因幅面较大且地物要素较多,分割效果并不理想,存在大量细碎区域,且影像中间非常明显的河流也没有分割出来。

该模型的设计初衷是将遥感数据转化为显示洪水变化的高分辨率地图,未来经过封装可以实现简单易用的交互和可视化。用户选择一个区域、一个任务和一个日期区间,模型就能够高亮显示洪水蔓延的情况。同时,用户可以叠加农作物、建筑、道路交通等其他数据集以查看农作物或建筑、道路等被淹没的位置。利用可视化信息在类似的灾害场景中进行规划决策、风险防范,减轻洪水的影响。

3 火灾痕迹检测

与上述洪水检测相似,模型针对火灾烧蚀痕迹数据进行微调后,对于火灾痕迹检测也有不错的表现。输入数据为512×512×6的影像。

下图为示例数据的烧蚀痕迹分割结果。该模型会提取输入影像中的SWIR、Narrow、NIR、Red波段进行检测

4 多时相地物分类

该模型训练数据为224×224×18的影像,其中18为3个时相的6个波段的组合。数据集中影像为3月~9月的3800余张高质量且有代表性的图像,3时相分别为时间段的开始、中间、结束的3个时期。用于推理的数据也是一副18通道的遥感影像,该模型会将单幅18通道影像拆分为3幅不同时相的6波段影像,然后再进行推理。

由于不同作物生长时节不同,因此很难在一副影像中对多作物地区进行语义分割。如棉花在4~5月种植,9~10月份成熟、冬小麦在9~10月播种,次年5~6月成熟。二者的生长时节几乎完全错开,一副影像中难以同时包含这两种作物。在进行作物类型统计时需要使用多个模型单独对不同作物进行分类。而Prithvi模型可以利用同一地区的三个实相影像,对该区域种植作物进行语义分割,既可以避免利用单一时相数据进行作物空间分布提取时因“异物同谱”等原因导致的错分、漏分现象,又能够解决因作物生长周期差异而难以同时进行分类和统计的问题。这使得在自然灾害或其他环境变化来临时,能够对该地区的不同作物进行最大程度的保护。目前共支持13类作物的识别,分割结果如下图所示。

 

5 总结与展望

IBM联合NASA研发的地理空间基础模型在预训练阶段采用了多时相数据,相比于其他深度学习模型,该模型更关注时序信息和环境的发展变化以及这些发展变化对其他要素的影响。根据这一特点,可总结出以下几个应用场景:

(1)建筑、农田、道路等各种基础设施受气候或灾害影响的风险决策,如洪水来临时推演洪水蔓延趋势,结合建筑、道路等数据,辅助决策人员和财产的转移、结合水利等数据指定防洪、泄洪方案。

(2)山火来临时,可根据模型的分析结果提前响应,决定何时在何处设置防火设备,以减少火灾对植被、生物等环境要素的影响,提前组织可能受灾的居民区采取一定防护措施等。

(3)为人们提供土壤变化、水资源变化的趋势,辅助决策如何减少农田径流对水体造成的污染、引导人们活动以减少对生态环境造成的影响。

(4)IBM称以后可以为企业定制地理空间模型。比如生产型企业可以更好的了解气候变化、恶劣天气等因素,这些因素可以辅助企业决定从哪里进购原材料或者将货物销售到哪里。

在实际使用过程中也存在一些问题:支持的数据格式比较单一,模型无法处理常规的RGB数据,仅能够处理geotiff格式的地理空间数据,且必须包括Blue, Green, Red, Narrow NIR, SWIR, SWIR 2这六个波段,用于多时相地物分类的数据还需要将不同时相的6个波段先叠加在一起。以上4个单一功能的微调代码、推理代码和模型已经开源,但由于数据原因,并没有对开源模型和代码进行本机部署实测。另外,单一的洪水检测模型在A100显卡上处理一张1300像素×1300像素的图耗时约8分钟,可见模型对算力需求较高,用消费级显卡进行微调或推理或许有些吃力。

该模型实现的某些功能用传统的AI模型也可达到同样的效果,但官方宣传的重点是整个地理空间大模型“时序、变化”的能力,若完整模型能达到官方宣传的功能,将为地理信息辅助人类决策的领域带来十分重要的影响。


技术交流/科研合作/客座实习/联合培养请投递:[email protected]

 「未来GIS实验室」作为超图研究院上游科研机构,致力于洞见未来GIS行业发展方向,验证前沿技术落地可行性,以及快速转化最新研究成果到关键产品。部门注重科研和创新功底,团队气氛自由融洽,科研氛围相对浓厚,每个人都有机会深耕自己感兴趣的前沿方向。

猜你喜欢

转载自blog.csdn.net/futuregislab/article/details/132226043
今日推荐