The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot
Abstract
- 分割是遥感图像处理的重要步骤。本研究旨在推进 Meta AI 创新的图像分割模型 Segment Anything Model (SAM) 在遥感图像分析领域的应用。SAM 以其出色的泛化能力和零样本学习而闻名,使其成为处理来自不同地理环境的航空和轨道图像的有前途的方法。我们的探索涉及使用各种输入提示(例如边界框、单个点和文本描述符)在多尺度数据集上测试 SAM。为了提高模型的性能,我们实施了一种新颖的自动化技术,将文本提示派生的一般示例与一次性训练相结合。这种调整提高了准确性,强调了 SAM 在遥感图像中的部署潜力并减少了对手动注释的需求。尽管在低空间分辨率图像方面存在局限性,但 SAM 在遥感数据分析中表现出良好的适应性。我们建议未来的研究通过与补充微调技术和其他网络集成来提高模型的熟练程度。此外,我们在在线存储库中提供我们修改的开源代码,鼓励 SAM 进一步更广泛地适应遥感领域。
- 论文地址:[2306.16623] The Segment Anything Model (SAM) for Remote Sensing Applications: From Zero to One Shot (arxiv.org)
Introduction
-
遥感领域涉及从机载或卫星传感器捕获地球表面图像。通过分析这些图像,我们可以监测环境变化、管理灾害并有效规划城市区域 。这种分析的一个关键部分是能够准确识别和分割这些图像中的各种物体或区域,这一过程称为图像分割。分割使我们能够隔离图像中的特定物体或区域以供进一步研究或监测 。传统的分割技术通常需要大量的人工输入和干预才能获得准确的结果。然而,随着先进的人工智能 (AI) 和深度学习方法的出现 ,分割过程已经变得更加自动化,尽管仍然面临挑战,特别是在以最少的人工输入对图像进行有效分割方面。
-
Meta AI 开发的 Segment Anything Model (SAM) 是一种开创性的图像分割方法,它已在各种图像数据集中展示了出色的泛化能力,无需对不熟悉的对象进行额外训练 。这种方法使其能够在几乎没有训练数据的情况下做出准确的预测。然而,当面对特定领域条件时,它的潜力可能会受到限制。 为了克服这一限制,可以通过重新学习方法 [Personalize Segment Anything Model with One Shot] 修改 SAM,为其提供新类或新对象的单个示例以获得更好的结果。
-
零样本学习是指模型能够准确处理训练期间未明确遇到的输入数据并对其采取行动的能力。这种能力源于对数据的广义理解,而不是对具体实例的理解。零样本学习系统可以根据学习底层概念或关系来识别对象或理解从未见过的任务。相比之下,单样本学习表示模型能够从新类别的单个示例中进行解释并做出准确推断的能力 。 通过向 SAM 提供这个新类别的单个示例(或“样本”),我们可以潜在地提高其性能,因为它拥有更多具体信息可供使用。
-
最著名的 SAM 一次性方法是 PerSAM 和 PerSAM-F,这两种方法都是无需训练的个性化方法 。给定一张带有参考掩码的图像,PerSAM 使用在对感兴趣的对象可能位于的位置进行初始估计之前的位置来定位目标概念。 第二种方法是 PerSAM-F,这是 PerSAM 的一种变体,它使用一次性微调来减少掩码歧义。在这种情况下,整个 SAM 被冻结(即,其参数在微调过程中不会更新),并为多尺度掩码引入两个可学习的权重。这种一次性微调变体只需要训练两个参数,并且可以在短短十秒内完成以提高性能 。两者都能够改进 SAM,使其成为一个灵活的模型。
-
另一个重要方面与 SAM 能够以最少的输入执行分割的能力有关,只需要一个边界框或一个点作为参考,甚至只需要一个提示文本作为指导。这种能力有可能减少注释过程中的人力劳动。许多现有技术需要对每个新的感兴趣对象进行密集的注释,从而导致时间敏感型应用程序产生大量的计算开销和潜在的延迟。另一方面,SAM 提供了一个缓解这种耗时任务的机会。
-
自 2023 年 4 月 SAM 发布以来,地理空间社区对将 SAM 用于遥感图像分割表现出了浓厚的兴趣。然而,需要进行更深入的研究。在此背景下,我们对 SAM 进行了首次评估,开发了其在遥感图像分割方面的零次和一次学习性能。我们将 SAM 调整到我们的数据结构中,根据多个数据集对其进行了基准测试,并评估了其分割多尺度图像的潜力。 然后,我们将 SAM 的零次特性发展为一次方法,并证明仅使用一个新类别的示例,SAM 的分割性能就可以得到显着提高。
-
我们提案的创新之处在于 one shot 技术,该技术涉及使用基于提示文本的分割作为训练样本(而不是人工标记的样本),使其成为在遥感图像上改进 SAM 的自动化过程。在本研究中,我们还讨论了我们的研究结果的含义、局限性和潜在的未来方向。了解 SAM 在这一领域的有效性对于新开发至关重要。简而言之,凭借其零样本和一次性学习的承诺,SAM 有可能通过显着减少训练和注释数据所需的时间和资源来改变当前的做法,从而实现更快、更高效的方法。
Remote Sensing Image Segmentation: A Brief Summary
-
近年来,遥感领域取得了令人瞩目的进步,这主要得益于空中和轨道平台技术、传感器能力和计算资源的改进 。遥感中最关键的任务之一是图像分割,它涉及将图像划分为多个片段或区域,理想情况下,每个片段或区域对应一个特定的对象或类别 。在本节中,我们重点提供有关分割过程、基于深度学习的方法和技术的全面信息,并解释进行零到一次学习的总体重要性。
-
遥感中的传统图像分割技术通常依赖于基于像素或基于对象的方法。基于像素的方法(例如聚类和阈值处理)涉及对具有相似特征的像素进行分组,而基于对象的技术则侧重于根据较大区域或对象的属性对图像进行分割 。然而,这些方法在处理现代遥感图像的复杂性、多变性和高空间分辨率方面的能力有限 。
-
分割涉及各种方法,旨在根据某些标准分离或分组图像的各个部分 。每种方法都有独特的方法和应用。例如,交互式分割是图像分割中的一个细分领域,它积极地整合用户输入来改进分割过程,使其更精确并根据特定要求量身定制 。不同的交互式分割方法利用各种策略将人类智能纳入其中。这使得交互式分割在需要高精度的任务中特别有用,而通用分割方法可能不够用。
-
超像素化是另一种方法,它根据颜色或纹理等共同特征将图像中的像素分组为更大的单元或“超像素”。这种分组可以简化图像数据,同时保留对象的基本结构。对象提案生成更进一步,建议图像中潜在的对象边界框或区域 。这些提案可作为更高级模型的指南,以识别和分类实际对象的像素。 前景分割,也称为背景减法,是一种主要用于将图像中的主要主体或感兴趣的对象(前景)与背景(背景)分离的技术 。
-
语义分割是一种更全面的方法,其中将图像中的每个像素分配给特定的类,从而根据语义兴趣有效地对图像区域进行分组 。实例分割识别每个像素,识别同一类的不同对象,并将各个对象识别为单独的实体或实例 。全景分割融合了语义和实例分割的概念,为图像中的每个像素分配一个类标签和一个唯一的实例标识符。该方法旨在通过识别和分类每个细节来全面理解图像。
-
所有这些方法都得到了深入研究,但近年来,随着视觉基础模型 (VFM) 和大型多模态模型 (LMM) 的进步,一种被称为“可提示分割”的方法迅速兴起,这种方法旨在创建一个能够适应各种分割任务的多功能模型。这是通过“提示工程”实现的,其中提示经过精心设计,以引导模型生成所需的输出 。这一概念不同于传统的多任务系统,在传统的多任务系统中,单个模型经过训练以执行一组固定的任务。可提示分割模型的独特之处在于它能够在推理时承担新任务,作为更大系统的一个组件。例如,为了执行实例分割,可以将可提示分割模型与现有的对象检测器相结合。
-
物体检测是计算机视觉中的一项关键任务,重点是识别和定位图像中的物体。这项任务是各种应用的基础,例如监控、自动驾驶汽车等。在物体检测和图像分割领域,人们采用了不同的技术。传统方法通常侧重于检测模型专门训练的物体,称为闭集检测。然而,现实世界的应用需要更大的灵活性,以及检测和分类训练期间未见过的物体的能力,称为开集检测。
-
一个脱颖而出的最先进的开放集物体检测器是 Grounding DINO (GroundDINO),这是一种增强型基于 Transformer 的物体检测器,能够根据各种人工输入识别更广泛的物体 。该系统是基于 Transformer 的物体检测器 DINO 的增强版,通过扎实的预训练进行了丰富,能够根据人工输入(例如类别名称或指称表达)识别更广泛的物体。开放集检测器旨在识别和分类不属于模型训练数据的对象,而闭集检测器只能识别经过专门训练的物体。 来自 Grounding DINO 的信息可能用于指导分割过程,提供分割模型可以使用的类标签或物体边界。
-
大多数 NLM 都采用了基于深度学习的网络,随着这些方法的兴起,已经为遥感应用开发了更先进的分割技术。 卷积神经网络 (CNN) 因其能够捕捉图像中的局部和层次模式而成为一种流行的选择 ,已被广泛用作这些任务的骨干。CNN 由多个卷积层组成,这些卷积层应用过滤器来学习越来越复杂的特征,使其非常适合在许多遥感图像中分割对象 。然而,它们的计算量很大,可能需要大量的训练数据。
-
生成对抗网络 (GAN) 在图像处理领域也展现出了潜力。GAN 由生成器和鉴别器网络组成,其中生成器试图创建合成数据来欺骗鉴别器,而鉴别器则旨在区分真实数据和合成数据 。对于图像分割,GAN 可用于生成逼真的图像及其相应的分割,这可以补充训练数据并提高分割模型的鲁棒性 。
-
另一方面,Vision Transformer (ViT) 是深度学习领域的最新进展,在图像分割任务中表现出了良好的前景。与依赖卷积运算的 CNN 不同,ViT 采用自注意力机制,使其能够对图像中的长距离依赖关系和全局上下文进行建模 。这种方法在各种计算机视觉任务中都表现出了极佳的性能,包括遥感图像分割 ,目前它在遥感数据方面的表现优于 CNN 。
-
深度学习的另一个可以增强分割过程的功能是迁移学习。借助它,在大型数据集上预先训练的模型可以适应不同的但相关的任务 。 例如,在 ImageNet 等大规模图像识别数据集上训练的 CNN 或 ViTr 可以针对遥感图像分割任务进行微调 。迁移学习的优势在于它可以利用从初始任务中获得的知识来提高新任务的性能,尤其是在新任务的标记数据量有限的情况下。
-
将深度学习技术应用于遥感图像分割的主要挑战之一是需要大量带标签的真实数据 。获取和注释这些数据可能非常耗时且耗力,需要专业知识和可能不易获得的资源。此外,遥感图像的多变性和复杂性可能会使标记过程更加困难 。因此,开发能够帮助处理和分析此类数据的稳健、高效且易于访问的解决方案势在必行。能够在零领域特定信息的情况下执行分割的模型可能会为该过程提供重要优势。
-
从这个意义上讲,分割任意模型 (SAM) 已成为辅助遥感图像分割过程的潜在工具。SAM 设计使其能够有效地推广到新的图像分布和任务,并且已经产生了许多应用 。通过使用最少的人工输入(例如边界框、参考点或简单的基于文本的提示),SAM 可以执行分割任务,而无需大量的 GT 数据。此功能可以减少劳动密集型的手动注释过程,并可纳入图像处理流程,从而有可能加速其工作流程。
-
SAM 已在包含 1100 万张图像和 11 亿个掩码的庞大数据集上进行了训练,并且在各种分割任务中都拥有令人印象深刻的零样本性能 。 诸如此类的基础模型在 NLP 以及最近的计算机视觉领域中都取得了令人鼓舞的进步,它们可以进行零样本学习。这意味着它们可以从新数据集中学习,并经常通过使用“提示”技术来执行新任务,即使之前很少或从未接触过这些任务。在 NLP 领域,“基础模型”是指在大量数据上进行预训练,然后针对特定任务进行微调的大规模模型。这些模型是各种应用的“基础”。
-
SAM 能够泛化到各种物体和图像,这让它在遥感应用中特别有吸引力。在预测时,它可以用每个新类别的单个示例进行重新训练 ,这证明了该模型的高度灵活性和适应性。一次性方法的实施可能有助于设计从少量示例中学习有用信息的模型,而传统模型通常需要大量数据才能有效泛化。这可能会彻底改变我们处理遥感图像的方式。因此,通过研究 SAM 的创新技术,我们或许能够提供更具交互性和适应性的遥感系统。
Materials and Methods
-
在本节中,我们将描述如何在遥感图像环境中评估“任意分割模型 (SAM)”的性能,无论是零方法还是一次性方法。本研究中实施的方法总结在下图 中。本研究的数据包括多个航空和卫星数据集。 选择这些数据集是为了确保场景多样化和物体和景观范围广泛。这有助于评估 SAM 的稳健性及其对不同情况和地理区域的适应性。
-
-
本研究采用逐步过程的示意图来评估 SAM 方法在遥感图像处理任务中的有效性。
-
-
本研究特别调查了 SAM 在不同提示条件下的分割能力。首先,我们使用了一般的分割方法,其中 SAM 的任务是在没有任何引导提示的情况下分割物体和景观。这为 SAM 固有的零样本分割能力提供了基准。为此,我们仅评估了它的视觉质量,因为它会分割图像中所有可能的对象,而不仅仅是带有真实标签的对象。它也没有通过任何方式进行引导,因此会导致对未知类别进行分割,仅用作传统的分割过滤器。
-
在第二种情况下,我们提供了边界框。这些矩形框突出显示了图像中的特定区域,用于限制 SAM 对每个对象的分割,并查看其识别和分割这些对象的熟练程度。接下来,我们使用点作为提示进行分割。在此设置中,我们提供了图像中的一系列特定点来指导 SAM 的处理。它使我们能够测试 SAM 的精度潜力。最后,我们仅使用文本描述作为提示来试验分割过程。这是通过 SAM 的实现以及 GroundingDINO 的方法 进行的。这使我们能够评估这些模型理解、解释和将文本输入转换为精确分割输出的能力。
-
为了衡量 SAM 的适应性和处理遥感图像的潜力,我们设计了一个一次性实现。 对于每个数据集,我们向 SAM 展示了目标类的一个示例。为此,我们通过文本提示方法和一次性学习方法的新组合调整了模型。具体来说,我们选择了目标对象的最佳示例(最高逻辑值),使用文本提示来定义用于生成掩码的对象。然后,将此示例作为该类的唯一代表呈现给 SAM,有效地指导其学习过程。这种组合方法背后的原理是利用文本提示提供的上下文和一次性学习方法的有效性来提高 SAM 对自动增强过程的适应性。
Description of the Datasets
-
我们首先将数据集分为与用于捕获图像的平台相关的三个类别:1. 无人驾驶飞行器 (UAV);2. 机载;3. 卫星。每个类别在空间分辨率和覆盖范围方面都具有独特的优势和挑战。在我们的研究中,我们旨在评估 SAM 在这些来源上的性能,以了解其在不同情况下的适用性和局限性。它们的特征总结在下表 中。我们还在图 2 中提供了这些数据集的说明性示例,如边界框和点提示。
-
-
本研究中使用的数据集的独特属性和规格概述
-
-
我们研究中使用的图像样本集合。顶行显示带有边界框和点标签的无人机图像,作为 SAM 的提示。中间行显示代表较大区域的机载捕获数据,其中点和矩形框作为模型输入。底行显示卫星图像,同样带有边界框和点作为提示输入,在较低的空间分辨率和更宽的区域覆盖范围之间提供权衡。
-
-
UAV 类别包含具有极高空间分辨率优势的数据,可返回具有精细细节的图像和目标。这使得它们特别适合需要高精度数据的局部尺度研究和应用。 然而,与其他数据源相比,UAV 数据集的覆盖范围有限。每个数据集的图像由特别单类对象组成,因此以二进制形式处理。 对于线性对象,特别是连续种植作物覆盖,我们使用其极值内的多点分布,以确保模型能够更好地理解它。对于房屋和树木等更紧凑的目标,我们使用对象的中心位置作为点提示。
-
第二类是机载数据,包括由载人飞机收集的数据。这些数据集通常在空间分辨率和覆盖面积之间提供了良好的折衷。我们采用与无人机图像相同的方法处理这些数据集,因为它们也包含二进制问题。这些数据集的总可量化大小超过 90 GB,包含超过 10,000 张图像和图像块。部分数据集,特别是空中数据集(无人机和机载),目前正在以下链接中公开供其他人使用:测绘和计算机视觉/数据集。这些数据集涵盖不同的区域大小,其相应的地面实况掩模由该领域的专家生成和验证。
-
第三类是卫星数据,它提供了最广泛的覆盖范围,并专注于多类问题。卫星数据的空间分辨率通常低于无人机和机载数据。此外,图像的质量受大气条件的影响更大,照明条件也不同,因此给模型带来了额外的挑战。这些数据集由 LoveDA 数据集 和 SkySat ESA 档案 中的公开图像组成,并提出了多类分割问题。为了便于 SAM 评估,特别是使用引导提示(边界框、点和文本),我们采用了一对一的方法,将类别分为单独的分类(“指定类别”与“背景”)。
Protocol for Promptable Image Segmentation
-
在本节中,我们将解释如何将 SAM 应用于遥感领域,以及如何使用它进行可执行的图像分割。所有专为本文设计的实现代码均已在正在建设的教育存储库 中公开提供。此外,作为我们工作的一部分,我们正专注于开发“segment-geospatial”包 ,该包实现的功能将简化使用 SAM 模型进行地理空间数据分析的过程。这项工作正在进行中,但它是公开可用的,并提供了一套使用 SAM 对遥感图像进行一般分割的工具。目标是让用户能够以最少的编码工作量使用这项技术。
-
我们的地理空间分析是在自定义工具“SamGeo”的帮助下进行的,该工具是原始模块的一个组件。SAM 拥有不同的模型可供使用,即:ViT-H、ViT-L 和 ViT-B 。这些模型具有不同的计算要求,并且其底层架构也不同。在本研究中,我们使用了 ViT-H SAM 模型,这是目前最先进、最复杂的模型,它将大多数 SAM 功能带入我们的测试中。
-
为了执行一般提示,我们使用了 SamGeo 实例的生成方法。此操作非常简单,因为它会分割整个图像并将其存储为包含分割蒙版的图像蒙版文件。每个蒙版描绘了图像的前景,每个不同的蒙版都分配了一个唯一的值。这使我们能够分割不同的地理空间特征。结果是未分类的分割图像,也可以将其转换为矢量形状。如上所述,我们仅从视觉上评估了这种方法,因为无法适当地分配参考类之外的分割区域。
-
对于边界框提示,我们将 SamGeo 实例与对象的 Shapefile 结合使用。边界框是从任何返回 a 的多部分多边形几何体中提取的,它根据图像数据的坐标返回一个几何边界列表。为了有效地处理这些边界,我们初始化了预测器实例。在此过程中,图像被分割并与指定的模型检查点一起通过预测器。建立后,预测器处理每个剪辑框,为分割区域创建掩码。此过程使每个边界框的内容可以作为实例分割掩码单独检查。 然后合并这些二进制掩码并保存为单个马赛克栅格,以创建分割区域的全面视觉表示。虽然不专注于遥感数据,但官方实现名为 Grounded-SAM 。
-
单点特征提示的实现方式与边界框方法类似。为此,我们首先定义函数,将地理数据框转换为坐标列表 [x, y],而不是之前的 [x1, y1, x2, y2]。我们再次利用 SamGeo 进行模型预测,但不同之处在于将其自动参数设置为“False”,并将预测器应用于单个坐标而不是边界框。此方法通过迭代每个点、预测实例中的特征并将生成的掩码保存到每个点的唯一文件中(也会产生实例分割掩码)来实现。生成掩码文件后,我们继续将这些掩码合并为单个马赛克栅格文件,从而为我们提供单点特征提示中所有分割区域的完整表示。
-
基于文本的提示与以前的方法不同,因为它需要实施额外的步骤。此方法将 GroundingDINO 的 零样本视觉定位功能与 SAM 的对象分割功能相结合,以检索预先训练的模型。例如,一旦 Grounding DINO 检测到并分类了一个对象,就会使用 SAM 将该对象与其他对象隔离开来。因此,我们能够根据指定的文本提示识别和分割图像中的对象。此过程开辟了地理空间分析的新范式,利用最先进模型的强大功能仅基于自然语言输入提取图像特征。
-
由于遥感图像通常包含同一对象的多个实例(例如,几个“房屋”、“汽车”、“树木”等),我们添加了一个循环程序。循环识别图像中概率最高的对象(即 logits),为其创建掩码,将其从图像中移除,然后重新启动该过程以识别下一个最高概率的对象。此过程持续进行,直到模型达到定义的最小阈值,用于基于框阈值的检测和基于特定阈值的文本提示关联。这些阈值的精确平衡(从 0 到 1 排序)至关重要,会影响模型的准确性,因此我们根据反复试验为每个数据集手动设置它们:
- 框阈值:用于图像中的对象检测。 较高的值可增强模型选择性,仅隔离模型高度可信的实例。相反,较低的值会扩大模型容差,增强整体检测,但可能包括不太确定的实例。
- 文本阈值:用于将检测到的对象与提供的文本提示关联起来。较高的值要求对象和文本之间建立牢固的关联,从而确保精度但可能会限制关联。较低的值允许更广泛的关联,从而可能增加关联的数量但可能会损害精度。
-
这些阈值对于根据特定数据和用户要求确保准确率和召回率之间的平衡至关重要。最佳值可能会因图像的性质和质量以及文本提示的特殊性而有所不同,因此需要用户进行实验以获得最佳性能。随后生成分割的单个图像及其相应的框,同时保存并拼接生成的分割蒙版。
One-Shot Text-Based Approach
-
一次性训练是按照 [persam] 中的建议,使用其 PerSAM 和 PerSAM-F 方法进行的。 我们首先采用 GroundDINO 和 SAM 方法组合的基于文本的方法,以返回描述中属于指定类别的总体最可能对象。通过这样做,我们实现了识别单个对象的自动化过程,并将其包含在个性化管道中,以便利用这种新知识训练 SAM。在本节中,我们描述了一次性训练机制中涉及的程序以及用于对象识别和个性化的方法。为了总结整个过程,我们在图 3 中说明了主要阶段。
-
-
基于一次性文本分割过程的实际可视化表示。该图逐步说明了模型如何根据以“汽车”和“树”为例的文本提示识别和分割最可能的对象。
-
-
按照上图,一次性训练机制的初始阶段涉及从基于文本的分割计算出的具有最高 logit 的对象派生的模型。 这确保了对象被准确识别并选择用于后续步骤。基于文本的方法正是从这个过程的这个方面开始的,利用 GroundDINO 的零样本视觉基础功能与 SAM 的对象分割相结合,进行预训练模型检索。因此,所选对象成为一次性训练过程的“样本”,因为它很可能属于文本指定的类别。
-
通过此方法识别出对象后,下一阶段将创建单分割对象掩码。此掩码用于一次性重新训练 SAM。 基于文本的方法通过帮助 SAM 区分遥感图像中存在的不同对象实例(例如多个“房屋”、“汽车”或“树木”)来增加价值。每个对象都根据其各自可能性进行识别,从而创建一个用于重新训练 SAM 的唯一掩码。一旦识别出概率最高的对象并将其掩码用于 SAM 的一次性训练,第三阶段就开始了。选定的输入对象将从原始图像中移除,使剩余的对象准备好进行进一步分割。
-
最后阶段涉及一个动态的交互式循环,其中剩余的物体被连续分割,直到 PerSAM 方法无法检测到任何物体 。此阶段至关重要,因为它确保识别和分割图像中的每个潜在物体。在这里,循环方法再次辅助该过程,使用一个程序来识别下一个最高可能物体,因为它会创建一个掩码,将其从图像中移除,然后重复。此循环持续到到达断点,然后再次检测到上一个位置。
-
单样本方法的另一个重要方面是训练方法的选择。对 PerSAM 和 PerSAM-F 方法 进行了早期探索,以评估它们在遥感图像环境中的效用。 我们的研究表明,PerSAM-F 是这一特定领域的更合适选择。PerSAM 在其原始配方中,通过一系列技术(例如目标引导注意、目标语义提示和级联后细化)利用单样本数据,为各种姿势或情境中的对象提供良好的个性化分割性能。然而,偶尔也会有失败的情况,特别是当对象包含要分割的层次结构时。
-
[persam] 讨论了传统图像中此类情况的示例,其中歧义性为 PerSAM 确定输出掩码的比例带来了挑战(例如,“戴帽子的狗”可能被完全分割,而不仅仅是“狗”)。 在遥感图像的背景下,经常会遇到这样的层次结构。图像可能包含房屋上方的树、建筑物附近的汽车、流经森林的河流等等。这些层次结构对 PerSAM 方法提出了挑战,因为它很难确定分割输出的掩码的适当比例。 图 4 中可以看到这种情况的一个例子,其中一棵树覆盖了一辆汽车。
-
-
使用 PerSAM 和 PerSAM-F 进行树木分割的比较图。左侧,PerSAM 模型不仅分割了树木,还分割了树木的阴影和其下方的汽车的一部分。右侧,针对层次结构和不同尺度进行了微调的 PerSAM-F 模型准确地分割了树木,展示了其在遥感图像中辨别和隔离目标物体的能力有所提高。
-
-
为了应对这一挑战,我们使用了 PerSAM 的微调变体 PerSAM-F。如前所述,PerSAM-F 冻结整个 SAM 以保留其预训练知识,并在十秒的训练窗口内仅微调两个参数 。至关重要的是,它使 SAM 能够使用不同的掩模尺度产生多个分割结果,从而可以更准确地表示遥感图像中常见的层次结构。PerSAM-F 对每个尺度采用可学习的相对权重,可自适应地为不同的对象选择最佳尺度。该策略提供了一种有效的方法来处理遥感图像中分割任务的复杂性,特别是在处理在单个图像中显示一系列尺度的对象时。这反过来又更忠实地保留了分割对象的特征。
-
因此,PerSAM-F 在我们早期的实验中表现出了更好的分割精度,因此被选为与基于文本的方法相结合的方法。在使用 PerSAM-F 进行训练的阶段,我们会计算 DICE 损失和 Sigmoid Focal Loss,它们的总和形成最终损失,该损失会反向传播以更新模型权重。学习率使用余弦退火方法 进行安排,模型训练了 1000 个时期。结合硬件加速,模型可以在合理的时间范围内进行训练,而无需过多的计算资源。这种精心的设置可确保从参考图像中提取有意义的特征,从而提高我们基于文本的一次性方法的有效性。
-
为了评估基于文本的单样本学习方法的性能和实用性,我们对传统的单样本学习方法进行了比较分析。用于比较的传统方法遵循典型的单样本学习方法,为模型提供来自GT 掩码的单个示例,由人类专家手动标记。为了确保公平,我们为模型提供了来自每个数据集的多个随机样本,并模拟图像输入以返回两种方法的直接比较。我们从每个输入计算评估指标,并返回其平均值及其标准差。由于文本方法始终使用相同的输入(即最高 logits 对象),因此我们能够返回其准确度的单个测量值。
Model Evaluation
-
通过评估零样本和单样本模型在真实掩码上的预测准确度,可以测量它们的性能。为此,我们使用了交并比 (IoU)、像素准确度和 Dice 系数等指标。这些指标通常用于评估图像分割,因为它们可以更细致地了解模型性能。为此,我们比较了预测掩码和真实掩码对。
-
并集交集 (IoU) 是对象检测和分割问题的常用评估指标。它测量预测分割与地面实况之间的重叠 。IoU 是重叠面积除以预测分割和地面实况分割的并集面积。IoU 越高,分割越准确。实现它的公式如下:
-
I o U = T P T P + F P + F N IoU =\frac {T P} {T P + FP + FN} IoU=TP+FP+FNTP
-
这里,TP 代表 True Positive(正确识别的阳性),FP 代表 False Positive(错误识别的阳性),FN 代表 False Negative(漏掉的阳性)。
-
-
像素准确度是最简单的度量标准,它衡量被准确分类的像素的百分比 。它的计算方法是将正确分类的像素数除以像素总数。如果类别不平衡,此指标可能会产生误导。以下等式返回它:
-
P i x e l A c c u r a c y = T P + T N T P + F P + T N + F N Pixel Accuracy =\frac {T P + T N} {T P + FP + T N + FN} PixelAccuracy=TP+FP+TN+FNTP+TN
-
这里,TN 代表真阴性(正确识别的阴性)。
-
-
Dice 系数(也称为 Sørensen-Dice 指数)是用于衡量图像分割方法性能的另一个指标。它对于比较两个样本的相似性特别有用。Dice 系数是两个分割重叠面积的两倍除以两个图像中的总像素数(两个分割面积的总和)。Dice 系数的范围从 0(无重叠)到 1(完全重叠)。执行该系数的公式如下:
- D i c e C o e f f i c i e n t = 2 ∗ T P 2 ∗ T P + F P + F N Dice Coe f f icient =2 ∗\frac {T P} {2 ∗ T P + FP + FN} DiceCoefficient=2∗2∗TP+FP+FNTP
-
我们还利用了其他指标,特别是真实阳性率 (TPR) 和假阳性率 (FPR) 来衡量 SAM 的有效性,并与每个数据集中准确标记的类别进行比较。根据 [Evaluation: from precision, recall and Fmeasure to ROC, informedness, markedness and correlation],这些指标的解释是:真实阳性率 (TPR) 表示所有实际阳性实例中 TP 实例的比例,而假阳性率 (FPR) 表示所有阴性实例中 FP 实例的比例。具有较高 TPR 的模型能够准确地定位线条和边缘,并且在 FPR 较低时能够更好地避免对线条和边缘的错误检测。 这两个指标的计算方法如下:
- T P R = T P T P + F N , F P R = F P F P + F N TPR=\frac{TP}{TP+FN},FPR=\frac{FP}{FP+FN} TPR=TP+FNTP,FPR=FP+FNFP
-
为了与 SAM(Transformer 网络)的固有结构保持一致,我们的目标是保持图像的综合背景,以充分利用模型的注意力机制。出于这种考虑,我们决定将较大的图像裁剪图或整个正射影像作为一个单元进行处理,而不是将它们分割成固定大小的较小图块。虽然这种方法增强了模型的背景理解能力,但可以理解的是,它会增加计算时间。
-
对于大多数较大的补丁或四等分正射影像,GPU 上的推理时间保持在 10 分钟以内,从而在计算负载和上下文分析之间取得平衡。当处理整个数据集时,时间要求延长到大约 1 到 2 小时。尽管处理较大数据集的时间会增加,但全面的上下文分析的保证证明了这种计算投资是合理的。 尽管如此,在固定大小的补丁(例如来自公开数据集的补丁)中,每个补丁的推理时间不到一秒。这些推理是在配备 24 GB GDDR6X 视频内存和 10,496 个 CUDA 核心的 NVIDIA RTX 3090 上执行的,运行在 Ubuntu 22.04 上。
Results and Discussion
General Segmentation
-
我们对 SAM 在遥感任务中的探索涉及评估其在各种数据集和场景中的表现。本节介绍结果并讨论它们对 SAM 在遥感图像分析中的作用的影响。这个过程始于对 SAM 的一般分割方法的研究,该方法不需要提示。通过仅向 SAM 提供遥感图像,我们旨在观察其检测和区分表面物体的固有能力。下图显示了不同尺度的示例,其中我们将各个区域转换为矢量格式。这种方法证明了它对各种应用的适应性和适用性。然而,由于这种方法不受提示的引导,它不会返回特定的分割类别,因此很难根据我们可用的标签来衡量其准确性。
-
-
使用 SAM 通用分割方法分割对象的示例,这些示例来自基于其平台的各种数据集。 对象以随机颜色表示。由于该模型无需任何外部输入即可运行,因此它利用其零样本学习能力推断出对象边界
-
-
如上图 所示,图像的空间分辨率越高,SAM 分割物体的准确度就越高。在处理卫星图像时,我们发现了一个有趣的现象:SAM 在划分相邻物体(如大片树木或道路)之间的边界时遇到了困难。尽管存在这种限制,但 SAM 在考虑非常高的空间分辨率图像时仍表现出区分不同区域的能力,这表明其具有不依赖任何提示的有效分割能力。这种方法为基于物体区域的其他应用(如分类算法)提供了价值。此外,SAM 可以加快物体标记过程以完善其他模型,从而大大减少此目的所需的时间和人工工作量。
Zero-Shot Segmentation
-
在初步评估之后,我们继续使用边界框、点和文本特征测试 SAM 的可提示分割能力。下表总结了每个数据集的结果指标。在跨不同平台(包括具有不同像素大小的无人机、飞机设备和卫星)汇编数据集后,我们注意到 SAM 的分割效果也受到图像空间分辨率的定量影响。 这些发现强调了空间分辨率对不同提示类型有效性的重大影响。
-
-
在不同平台、目标和分辨率下,以及在零样本模式下使用不同 SAM 提示的图像分割任务指标摘要。红色值表示特定条件下特定目标的最佳性能。
-
-
在零样本形式下,SAM 倾向于在某些情况下选择目标旁边的阴影,这会降低其在树木检测等任务中的表现。分割具有相似周围元素的物体,尤其是在处理街道和人行道等建筑材料时,对 SAM 来说可能具有挑战性,这一点在我们的多类问题中已经注意到。此外,它在处理较大的分组实例时的性能可能不令人满意,特别是在使用单点模式时。此外,与给定的提示无关,分割较小和不规则的物体也会给 SAM 带来困难。SAM 可能会生成与实际特征不符的断开组件,特别是在空间分辨率较低的卫星图像中
-
另一方面,基于文本的一次性学习方法使选择示例的过程自动化。它使用基于文本的提示从图像中选择概率最高(logits 值最高)的对象作为训练示例。这不仅减少了手动输入的需要,而且还确保所选对象由于其概率高而高度代表指定类别。此外,虽然基于文本的方法能够以更简化的方式处理同一对象类别的多个实例,但这要归功于循环机制,该机制根据对象的概率迭代地识别和分割对象。然而,单样本策略排除了图像中的某些对象,只偏向与给定样本相似的对象
-
总之,在比较这两种方法后,我们发现传统的一次性学习方法在所有数据集中都优于零次学习方法。此外,即使没有改进,基于文本的学习与一次性学习的结合在大多数情况下也足够接近。这种比较强调了将最先进的模型与自然语言处理能力相结合以实现高效准确的地理空间分析的好处和潜力。然而,重要的是要记住,这些方法之间的最佳选择可能会因特定任务的具体情况和要求而异。
Future Perspectives on SAM for Remote Sensing
-
SAM 具有多项优势,使其成为遥感应用的理想选择。首先,它无需额外训练即可对不熟悉的物体和图像进行零样本泛化 。此功能使 SAM 能够适应遥感数据的多样性和动态性,这些数据通常由不同的土地覆盖类型、分辨率和成像条件组成。其次,SAM 的交互式输入过程可以显著减少手动图像分割所需的时间和人力。该模型能够以最少的输入(例如文本提示、单个点或边界框)生成分割掩码,从而加速注释过程并提高遥感数据分析的整体效率。最后,SAM 的解耦架构由一次性图像编码器和轻量级掩码解码器组成,使其具有计算效率。这种效率对于大规模遥感应用至关重要,因为及时处理大量数据至关重要。
-
然而,我们的研究只是对该模型的初步探索,其中仍有许多需要研究的地方。在本节中,我们将讨论 SAM 的未来前景以及如何改进它。尽管 SAM 具有潜力,但在应用于遥感图像时仍存在一些局限性。一个挑战是遥感数据通常具有不同的格式、分辨率和光谱带。SAM 主要在 RGB 图像上进行训练,在处理遥感应用中常见的多光谱或高光谱数据时可能无法达到最佳效果。解决这个问题的一种可能方法是通过执行旋转的 3 波段组合来调整 SAM 以读取多个波段,或者执行微调以适应域。在我们早期的实验中,在不同多光谱数据集上运行的一个简单示例表明,尽管该模型具有分割不同区域或特征的潜力,但仍需要进一步探索。这是我们打算在未来的研究中探索的东西,但希望其他人也能研究它。
-
无论如何,当前模型可有效用于各种遥感应用。例如,我们验证了 SAM 可轻松用于土地覆盖制图,可对森林、城市地区和农田进行分割。它还可用于监测城市发展和土地利用变化,使决策者和城市规划者能够根据准确和最新的信息做出明智的决策。此外,SAM 可应用于管道流程,以监测和管理自然资源。它的效率和速度使其适合实时监测,为决策者提供宝贵的信息。这也是一项可以通过研究在其实施过程中进行探索的功能。
-
然而,必须强调的是,我们的数据存在一个重大的复杂性限制。虽然我们的主要目标是分析不同空间分辨率和广泛遥感分割任务的结果,但我们数据的区域多样性有限,可能无法完全捕捉到世界各地遇到的各种物体特征。因此,未来的研究可以强调利用和适应同一物体的更多样化阵列,从而增强模型或其改编的稳健性和适用性。例如,在建筑物和水体的检测中,探索来自不同地区的公开数据集 可以更全面地了解这些物体的不同特征,并有助于提高算法在不同地理环境中的性能。
-
对于基于 SAM 的一次性技术,它能够从单个示例中生成准确的分割 。 我们的实验结果表明,在大多数研究数据集上,性能都有所提高,尤其是考虑到对象的边界。然而,必须注意的是,一次性学习可能会对模型的泛化能力构成挑战。这可能是遥感数据的一个问题,这些数据通常表现出高度的异质性和多样性 。例如,一棵“健康”的树可以成为模型的一个很好的样本,但它可能会使模型产生偏差,忽略“不健康”的树木或具有不同结构的树冠。
-
将一次性学习扩展到几次学习场景可能会提高模型对不同环境或任务的适应性,因为这样它就可以从多个示例(2 到 10 个)而不是单个示例进行学习。这将涉及在训练过程中为每种土地覆盖类型使用一小组标记对象 。更稳健的学习方法为每个类别使用更多示例,可以进一步增强模型捕捉每个类别内细微差别和变化的能力。然而,这种方法可能需要更多的计算资源和训练数据,因此可能不适合所有应用。
-
此外,虽然 SAM 是图像分割的强大工具,但与其他技术结合使用可以提高其有效性。例如,以弱监督的方式将 SAM 集成到另一个 ViT 框架中可能会改善分割结果,更好地处理空间上下文信息。然而,值得注意的是,集成它也可能带来新的挑战 。一个潜在的问题可能是模型复杂性和计算要求的增加,这可能会限制其可行性。但是,由于 Transformer 的训练通常需要大量数据,因此 SAM 可以为其提供快速且相对准确的标记区域。
-
此外,要解决的关键挑战之一是提高 SAM 在低空间分辨率图像中的性能。因此,由于 SAM 的原始训练数据主要由高分辨率图像组成,因此它本质上更适合类似的高分辨率条件,即使在遥感领域也是如此。我们在测试中注意到,分辨率超过 30 厘米时准确度明显下降,进一步证实了这一观察结果。可以通过将 SAM 与超分辨率 (SR) 技术 结合来进一步探索这一缺点,例如,创建一个两步流程,其中第一步涉及使用 SR 模型来提高图像的空间分辨率,第二步涉及使用增强分辨率图像作为 SAM 的输入。众所周知,虽然这种方法理论上可以提高 SAM 在低分辨率图像中的性能,但超分辨率技术本身可能会引入错误,从而可能抵消其好处 。因此,应谨慎对待提出的两步流程,确保进行细致的测试和验证。专门探索针对低分辨率图像的 SAM 的改进和优化,可能涉及在低分辨率数据上对模型的调整和训练,这对于确保其在不同遥感场景中有效和可靠的应用至关重要。
-
当我们探索将 SAM 与其他类型的方法(如 GroundDINO)相结合时,我们注意到了上一节中已经讨论过的优点和局限性。这种组合在实例分割等任务中表现出高度的多功能性和准确性,其中 GroundDINO 的对象检测和分类指导了 SAM 的分割过程。然而,这种方法的灵活性超出了这些特定的模型。可以根据需要交换任何类似的模型,从而扩展系统的应用和鲁棒性。GLIP 或 CLIP 等替代方案可以取代 GroundDINO,从而允许进一步的实验和优化 。此外,集成 ChatGPT 等语言模型可以提供额外的交互层和理解的细微差别,展示了将这些专家模型结合起来的深远潜力。这种模块化方法支撑着强大且适应性强的工作流程,可以重塑我们处理遥感任务的能力。
-
地理信息系统 (GIS) 与 SAM 等模型的集成有望大大增强用于训练特定分割和变化检测模型的注释过程。一个根本挑战通常在于训练数据与所用图像数据之间的差异,这是由于采集时间不同,并且所用数据可能因注释器错误而受损,从而导致与所用图像的兼容性问题。与 SAM 的集成可以帮助用户优化注释的创建,并在适当的情况下通过编辑改进其结果,从而创建更快、更强大的数据集。最后,本文未讨论的一个主题是人工智能安全,但它对于特别是地理空间智能领域的应用来说是一个重要问题。最近有一篇关于这个主题的调查论文是 。它讨论了诸如以下问题:可能不清楚基于哪些数据训练了(基础)模型,以及可能由此产生哪些缺陷。特别是,对手可能已经污染了训练数据。
-
简而言之,我们的研究重点是展示 SAM 在遥感领域的适应性潜力,并提出一种新颖的自动化方法,使用基于文本的方法中的一个示例重新训练模型。虽然还有很多需要探索的地方,但了解模型的工作原理以及如何改进模型非常重要。总结一下,SAM 在遥感应用中有许多潜在的研究方向和应用,可以概括如下:
- 研究最有效的方法和技术,使 SAM 能够适应各种遥感数据,包括多光谱和高光谱数据。
- 分析将 SAM 与少样本或多样本学习相结合的潜力,以增强其在不同遥感场景中的适应性和泛化能力。
- 研究将 SAM 与流行的遥感工具和平台(如地理信息系统 (GIS))相结合的潜在方法,以增强这些系统的多功能性和实用性。
- 对于地理空间智能领域的应用来说,一个特别重要的问题是人工智能安全,例如,对手可能会污染(基础)模型的训练数据。
- 评估 SAM 在实时或近实时遥感应用中的性能和效率,以了解其及时处理和分析数据的能力。
- 探索如何将特定领域的知识和专业知识集成到 SAM 中,以增强其理解和解释遥感数据的能力。
- 评估 SAM 作为传统标记过程的替代方案的潜在用途,以及以弱监督的方式将其与其他图像分类和分割技术相结合,以提高其准确性和可靠性。
- 将SAM与超分辨率方法相结合,增强其处理低分辨率影像的能力,从而扩大其可有效分析的遥感影像范围。
Conclusions
- 在本研究中,我们对遥感图像处理领域的 Segment Anything Model (SAM) 的零次和一次性功能进行了全面分析,并将其与航空和卫星数据集进行了对比。我们的分析深入了解了 SAM 在遥感分割任务领域的操作性能和功效。我们得出的结论是,虽然 SAM 表现出了显著的前景,但仍有明显的改进空间,特别是在管理其局限性和改进其针对特定任务的实施性能方面。
- 总之,我们的数据表明,与地面实况蒙版相比,SAM 提供了显著的性能,从而强调了其作为遥感应用重要资源的潜在功效。我们的评估表明,SAM(文本、点、框和一般)的快速功能,加上其在最少人工监督下执行对象分割的能力,也可以显著减少注释工作量。标记阶段人工输入的减少可能会加快其他方法的训练进度,从而促进更精简、更具成本效益的工作流程。
- 所选数据集的明确目的是代表不同规模的广泛而多样的背景,而不是举例说明复杂或具有挑战性的场景。通过关注更简单的数据集,该研究深入研究了分割任务的基本方面,而没有过于复杂或错综复杂的场景带来的额外噪音。从这个意义上讲,未来的研究应该致力于提高 SAM 的能力,并探索其与其他方法的潜在集成,以应对更复杂和更具挑战性的遥感场景。
- 然而,尽管已经证明了其普遍性,但仍存在一些需要解决的局限性。在复杂情况下,该模型面临挑战,通过高估大多数对象的边界,导致分割输出不太理想。 此外,SAM 的性能指标显示出取决于输入图像的空间分辨率的变化(即,随着图像的空间分辨率降低,错误率容易增加)。因此,识别和纠正这些限制对于进一步增强 SAM 在遥感领域的适用性至关重要。