SegAnyMo：Segment Any Motion in Videos——视频中分割任意运动

这篇文章的核心研究内容是提出了一种新颖的视频中运动目标分割（Moving Object Segmentation, MOS）方法，旨在准确识别视频中运动的物体并生成像素级的分割掩码。该方法通过结合长距离轨迹运动线索、基于DINO的语义特征以及SAM2模型的迭代提示策略，实现了在复杂场景下的高效运动目标分割。文章的主要贡献包括以下几个方面：

1. 研究背景与问题定义

背景：运动目标分割对于视频理解、自动驾驶、行为识别等应用至关重要。传统方法大多依赖光流来提供运动线索，但光流在处理复杂场景（如部分运动、变形、运动模糊和背景干扰）时存在局限性。
问题定义：作者将任务定义为“运动目标分割”（MOS），专注于分割在视频中实际运动的物体，与视频目标分割（VOS）和运动分割有所区别。

2. 方法创新点

长距离轨迹与语义特征结合：提出了一种结合长距离轨迹和DINO语义特征的方法，利用轨迹捕捉运动信息，同时通过语义特征提供上下文支持。
时空轨迹注意力（Spatio-Temporal Trajectory Attention）：通过时空注意力机制，同时考虑轨迹之间的空间关系和单个轨迹随时间的变化，有效捕捉长距离运动模式。
运动-语义解耦嵌入（Motion-Semantic Decoupled Embedding）：通过特殊设计的注意力机制，优先处理运动信息，同时在辅助路径中处理语义特征，避免模型过度依赖语义信息。
迭代提示策略（Iterative Prompting Strategy）：利用SAM2模型，通过迭代提示的方式将稀疏的点级掩码转换为像素级分割掩码，实现细粒度的运动目标分割。

3. 实验与结果

数据集：使用Kubric、Dynamic Replica和HOI4D等数据集进行训练，这些数据集包含合成和真实世界的视频序列，涵盖了多种运动场景。
性能评估：在DAVIS17-Moving、DAVIS16-Moving、SegTrackv2和FBMS-59等基准数据集上进行了测试，使用区域相似性（J）和轮廓相似性（F）作为评估指标。
关键结论：
- 该方法在多个基准测试中均取得了最先进的性能，尤其是在处理复杂场景（如剧烈相机运动、反射表面、关节结构等）时表现出色。
- 在细粒度运动目标分割任务中，该方法能够准确区分同一类别中的运动和静止目标，并生成完整的单目标掩码。

4. 局限性与未来工作

局限性：当前模型依赖于现成的长距离轨迹估计器，其准确性对整体性能有显著影响。此外，该方法在处理大规模数据集时可能面临计算效率的挑战。
未来工作：作者提出，进一步改进轨迹估计器或开发更高效的模型架构可能是未来研究的方向。

这篇文章提出了一种结合长距离轨迹和语义特征的运动目标分割方法，通过时空注意力和运动-语义解耦嵌入，有效平衡了运动和语义信息。实验结果表明，该方法在多个基准测试中均取得了优异的性能，尤其是在复杂场景和细粒度分割任务中表现出色。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里。如下所示：

摘要

运动目标分割对于实现视觉场景的高级理解至关重要，并且有众多下游应用。人类可以轻松地在视频中分割运动目标。以往的研究大多依赖于光流来提供运动线索，但这种方法由于部分运动、复杂变形、运动模糊和背景干扰等挑战，往往会导致预测不准确。我们提出了一种新颖的运动目标分割方法，该方法结合了长距离轨迹运动线索、基于 DINO 的语义特征，并利用 SAM2 通过迭代提示策略实现像素级掩码密集化。我们的模型采用时空轨迹注意力和运动 - 语义解耦嵌入，优先考虑运动，同时整合语义支持。广泛的测试表明，我们的方法在多个数据集上表现出色，尤其在复杂场景和多目标的细粒度分割方面表现出色。

1. 引言

在视频中分割运动目标对于包括行为识别、自动驾驶 [10, 22, 65] 和 4D 重建 [58] 在内的一系列应用至关重要。许多先前的研究将这一问题称为视频目标分割（VOS）或运动分割。在本文中，我们将任务定义为运动目标分割（MOS）——分割在视频中表现出可观察运动的物体。这一定义与视频目标分割不同，后者包括那些可能移动但在视频中保持静止的物体，也与运动分割不同，后者可能还会捕获背景运动，例如流动的水。这一任务具有挑战性，因为它隐含地要求区分相机运动和目标运动，在面对变形、遮挡、快速或瞬态运动时稳健地跟踪目标，并用精确、干净的掩码将它们分割出来。最近，可提示的视觉分割取得了显著进展。以点、掩码或边界框作为提示，SAM2 [51] 能够有效地在视频中分割和跟踪相关目标。然而，SAM2 本身无法处理 MOS，因为它没有检测哪些目标在运动的机制。我们提出了一种结合长距离轨迹和 SAM2 的创新方法，以利用 SAM2 的能力。首先，点跟踪捕获了对变形和遮挡稳健的长距离像素运动信息，如图 2 所示。同时，我们引入 DINO 特征 [12, 45]，作为补充信息支持基于运动的分割。我们通过在大规模数据集上训练模型，有效地结合运动和语义信息，从而与传统 MOS 方法区分开来。给定一组长距离 2D 轨迹，我们的模型旨在识别对应于运动目标的轨迹。一旦识别出这些动态轨迹，我们采用从稀疏到密集的掩码密集化策略，结合迭代提示方法和 SAM2 [51]，将稀疏的点级掩码转换为像素级分割。由于主要目标是运动目标分割，我们强调运动线索，同时将语义信息作为次要支持。为了有效平衡这两种信息，我们提出了两个专门的模块：（1）时空轨迹注意力。鉴于输入轨迹的长期性，我们的模型引入空间注意力以捕获不同轨迹之间的关系，以及时间注意力以监测单个轨迹随时间的变化。（2）运动 - 语义解耦嵌入。我们实现特殊的注意力机制，优先处理运动模式，并在辅助路径中处理语义特征。我们在包括合成 [19, 28] 和真实世界数据 [36] 的广泛数据集上训练了我们的模型。由于 DINO 特征 [45] 的自监督性质，我们的模型即使主要在合成数据上训练，也表现出强大的泛化能力。我们在未包含在训练数据中的基准测试 [34, 43, 47, 48] 上评估了我们的方法，结果表明我们的方法在多样化任务中显著优于基线模型。以往的 MOS 方法利用光流 [6, 8, 9] 来捕获运动信息，通过识别不同的运动组 [6, 46, 53, 59] 或使用基于学习的模型 [8, 9, 18, 40, 49] 从光流中推导像素掩码。然而，光流仅限于短距离运动，并且在长时间跨度内可能会丢失跟踪。其他方法 [3, 7, 14, 42] 依赖于点轨迹作为运动线索，但传统上使用基于亲和矩阵的谱聚类，这在处理复杂运动时会遇到困难。尽管一些方法也尝试利用外观线索 [24, 61] 来更好地理解运动，但它们通常在不同的阶段分别处理不同的模态，限制了它们互补信息的有效整合。我们的统一框架实现了三重整合：长距离轨迹、DINO 特征和 SAM2。这一设计解释了模型在处理如图 1 所示的复杂运动（如关节运动和反射表面）以及多目标的细粒度分割方面的卓越能力。

2. 相关工作

基于光流的运动目标分割

传统上，基于光流的方法 [6, 46, 53, 59] 通过分组运动线索来创建运动目标掩码。这些方法通常使用迭代优化或统计推断技术来同时估计运动模型和识别运动区域。最近，许多基于深度学习的方法 [8, 9, 18, 37, 40, 49, 62] 使用 CNN 编码器或变换器从光流中提取运动线索，然后通过解码器生成最终分割。这些方法的主要区别在于模型架构；例如，编码语义信息的方法通常使用多个 CNN 编码器分别处理不同的数据模态。一般来说，基于光流的方法难以区分由深度差异引起的独立目标运动和表观运动。此外，强烈的亮度变化也会对这些方法产生不利影响。此外，基于光流的方法仅限于短时间序列；如果目标移动缓慢或被遮挡，它们的表现会很差。

基于轨迹的运动目标分割

基于轨迹的方法通常可以分为两类：两帧方法和多帧方法。两帧方法 [3, 14, 25] 通常通过求解迭代能量最小化问题来估计运动参数，最近这些方法得到了各种卷积神经网络（CNN）模型的支持 [54, 74]。相比之下，多帧方法通常基于亲和矩阵使用谱聚类。这些矩阵是通过几何模型拟合 [2, 23, 32, 63]、子空间拟合 [17, 50, 55, 57] 或成对运动亲和性（整合运动和外观信息）[7, 24, 30, 42] 等技术推导出来的。最近的研究集中在寻找更有效的运动模型。例如，[1] 使用三焦张量来分析点轨迹，认为它比基本矩阵在三幅图像之间提供更可靠的匹配，而基本矩阵仅在两幅图像之间有效。然而，三焦张量也面临挑战：它难以优化，并且当三个相机位置几乎共线时容易失败 [44]。其他研究 [27, 64] 提出了几何模型融合技术来组合不同的模型。一些最新研究探索了整合多种运动线索 [21, 41]。例如，[24] 研究了结合点轨迹和光流的方法，使用精心设计的几何运动模型通过共正则化多视图谱聚类融合两个亲和矩阵。然而，这些方法仍然存在固有问题，因为它们依赖于亲和矩阵。它们倾向于只捕获局部相似性，导致全局一致性差，从而导致分割不一致。此外，亲和矩阵难以捕获随时间动态变化的运动特征，如速度和方向。相比之下，我们解决了在不同运动类型之间捕获运动相似性的挑战。

无监督视频目标分割

无监督视频目标分割（VOS）旨在自动识别和跟踪原始视频片段中的显著目标，而半监督 VOS 依赖于第一帧的真实标注来分割后续帧中的目标 [47, 48]。在本文中，我们专注于无监督 VOS，这里简单地称为“VOS”。最近，许多方法 [68, 71] 结合了运动和外观信息。例如，MATNet [73] 引入了一种运动注意力转换模型，用于无监督 VOS，利用运动线索指导分割，主要关注外观。RTNet [52] 提出了一种基于互惠变换的方法，利用连续帧之间目标外观和运动的一致性来实现分割。FSNet [26] 采用全双工策略，使用双路径网络联合建模外观和运动。总体而言，VOS 通常针对视频中的显著目标，无论目标是否在运动。尽管许多 VOS 方法结合了运动信息，但这通常不是它们的主要关注点。

3. 方法

我们的目标是，给定一个视频，识别出运动目标并生成像素级动态掩码。图 3 提供了我们流程的概述。核心观点是，长距离轨迹不仅捕捉有助于视频理解的运动模式，还提供了长距离提示，这对于可提示的视觉分割至关重要。因此，我们使用长距离点轨迹作为运动线索，作为第 3.1 节的主要输入，在这里我们应用时空注意力来捕获上下文感知特征。在第 3.2 节中，我们进一步整合并解耦运动线索和语义信息以解码特征，帮助模型预测最终的运动标签。在识别出动态轨迹后，我们利用这些长距离轨迹迭代地提示 SAM2 [51]，如第 3.3 节所述。

3.1. 运动模式编码

点轨迹对于理解运动具有重要价值，相关的 MOS 方法通常可以分为两类：两帧方法和多帧方法。然而，正如第 2 节所讨论的，两帧方法 [3, 14, 25] 通常存在显著的时间不一致性，并且在输入流噪声较大时表现下降。相比之下，多帧方法通常基于亲和矩阵使用谱聚类。然而，它们对噪声高度敏感，难以有效处理全局、动态和复杂的运动模式。为了解决这些限制，并受到 ParticleSFM [72] 的启发，我们提出了一种利用长距离点轨迹的方法，通过专门的轨迹处理模型来预测每条轨迹的运动标签。如图 3 所示，我们提出的网络采用编码器 - 解码器架构。编码器直接处理长距离轨迹数据，并在轨迹之间应用时空轨迹注意力机制。该机制整合了空间和时间线索，捕获了跨越时间和空间的局部和全局信息，以便嵌入每条轨迹的运动模式。鉴于长距离轨迹的准确性和质量对模型性能有显著影响，我们使用 BootsTAP [15] 来生成轨迹，它为每个轨迹在每个时间步提供一个置信度分数，使我们能够屏蔽低置信度点。此外，由于动态目标的运动和相机运动，长距离轨迹的可见性会随时间变化，因为它们可能会被遮挡或移出画面。这种可见性和置信度的变化使得每条轨迹数据高度不规则，促使我们使用受自然语言处理中序列建模方法启发的变换器模型来有效处理数据。我们的输入数据包括长距离轨迹，每条轨迹由归一化的像素坐标（ui, vi）、可见性 ρi 和置信度分数 ci 组成，其中 i ∈ (0, time)。掩码 Mi 用于指示像素坐标不可见或低置信度的点。此外，我们整合了通过 Depth-Anything [66] 估计的单目深度图 di，尽管存在一些噪声，但它为底层 3D 场景结构提供了宝贵的见解，增强了对空间布局和遮挡的理解。为了进一步丰富输入数据并加强时间运动线索，我们计算了相邻帧之间轨迹坐标的帧间差（∆ui, ∆vi）和深度 ∆di。由于相邻采样点在坐标中可能导致空间上接近的特征过度平滑，我们从 NeRF [39] 中汲取灵感来解决这一问题。具体来说，我们对位置编码应用频率变换，以更好地捕获细粒度的空间细节。经过增强的轨迹经过两个 MLP 处理，生成中间特征，然后输入到变换器编码器中。鉴于输入数据的长期性，我们为编码器 E 提出了一种时空轨迹注意力机制，交替在轨迹和时间维度上操作的注意力层 [4, 29]。这种设计使模型能够捕获每条轨迹内的时间动态以及不同轨迹之间的空间关系。最后，为了获得每条完整轨迹的特征表示，而不是单个点的特征，我们在时间维度上执行最大池化，按照 [72] 的方法。这一过程为每条轨迹生成一个单一的特征向量，自然形成一个高维的特征轨迹，隐含地捕获了每条轨迹的独特运动模式。

3.2. 每轨迹运动预测

尽管我们在第 3.1 节中编码了运动模式，但仅依赖运动线索来区分运动目标仍然具有挑战性，因为从高度抽象的轨迹中学习区分目标运动和相机运动对于模型来说是困难的。为模型提供纹理、外观和语义信息可以简化这一任务，帮助它理解哪些目标可能运动或被移动。一些方法直接应用语义分割模型 [5, 20, 67, 70]，其中基于语义标签识别可能运动的像素。尽管这些方法在特定场景中可能有效，但它们本质上仅限于一般运动目标分割，因为它们完全依赖于预定义的语义类别。最近，许多 MOS [61, 69] 和 VOS [11, 33, 35] 方法结合了外观信息和运动线索，但它们通常在两个单独的阶段进行，通常使用 RGB 图像来细化掩码。然而，依赖于原始 RGB 数据可能无法捕获高级信息，并且在单独的阶段应用这两种模态限制了它们互补信息的有效整合。为了解决这些限制，我们引入了由 DINO v2 [45] 预测的 DINO 特征，这是一个自监督模型，有助于概括外观信息的包含。然而，我们观察到，如果简单地将 DINO 特征作为输入引入，模型会过度依赖语义，如图 8 所示，并在第 4.5 节中讨论，从而降低其在相同语义类别内区分运动和静止目标的能力。为了解决这一问题，我们提出了运动 - 语义解耦嵌入，使变换器解码器 D 能够优先处理运动信息，同时仍然考虑语义线索。我们通过第 3.1 节中描述的过程获得最终嵌入的特征轨迹 P：
P = E((γ(u), γ(v), γ(∆u), γ(∆v), d, ∆d, ρ, c), M). (1)
然后我们设计了一个基于变换器的解码器，其中编码器层仅在包含运动信息的嵌入特征轨迹上执行注意力。在计算注意力加权特征后，我们将 DINO 特征连接起来，并将这个连接的特征通过一个前馈层。在解码器层中，自注意力仍然仅应用于运动特征；然而，多头注意力用于关注包含语义信息的记忆。最后，我们应用一个 Sigmoid 激活函数来产生最终输出，从而为每条轨迹生成预测标签。然后，我们使用加权二元交叉熵损失 [72] 计算这些预测标签与每条轨迹的真实标签之间的损失。我们通过检查采样点坐标是否位于真实动态掩码内来为每条轨迹分配真实标签。如果一个点落在掩码内，则将其标记为动态。

3.3. SAM2 迭代提示

如图 3 所示，在获得每条轨迹的预测标签并过滤动态轨迹后，我们使用这些轨迹作为 SAM2 [51] 的点提示，并采用迭代的两阶段提示策略。第一阶段专注于将属于同一目标的轨迹分组，并将每个不同目标的轨迹存储在内存中。第二阶段使用这个内存作为 SAM2 [51] 的提示来生成动态掩码。这种方法的动机有两个。首先，这是必要的，因为 SAM2 需要目标 ID 作为输入。然而，如果我们为所有动态目标分配相同的对象 ID（例如，将 1 分配给所有动态目标），SAM2 将难以同时分割具有相同 ID 的多个目标。其次，这种方法提供了实现更细粒度分割的好处。在第一阶段，我们选择具有最大可见点数的时间帧，并在该帧中定位所有可见点中最密集的点。这个点作为 SAM2 [51] 的初始提示，然后为该帧生成初始掩码。在生成这个掩码后，我们应用膨胀来扩展其边界，排除所有位于扩展掩码区域内的点，以去除边缘点，并假设这些点属于同一目标。然后我们继续到具有最高可见点数的下一帧，并重复这个过程，直到所有帧中剩余的可见点太少而无法处理。被识别为属于同一目标的轨迹被存储在内存中，并为每个目标分配唯一的对象 ID。我们只为每个目标保存未膨胀掩码内的点。在第二阶段，我们使用这个内存通过定位存储轨迹中最密集的点以及距离该点最远的两个点来细化提示选择。利用轨迹的长距离特性，我们定期提示 SAM2，以防止它在长距离上丢失目标。由于 SAM2 可能会生成部分目标掩码（例如，人的一部分衣服），我们对所有掩码进行后处理，以合并内部重叠或出现在相同掩码边界内的掩码。这为每个不同目标生成了一个完整的掩码。

4. 实验

4.1. 实现细节

训练数据集。我们使用三个数据集来训练我们的模型：Kubric [19]、Dynamic Replica [28] 和 HOI4D [36]，按照 35%、35% 和 30% 的比例进行采样。Kubric [19] 是一个合成数据集，包含 24 帧的序列，显示 3D 刚体物体在重力作用下下落并反弹。我们根据每个序列中单个物体的运动标签生成动态掩码。Dynamic Replica [28] 是另一个合成数据集，是为 3D 重建创建的，包含长期跟踪注释和目标掩码，其中有人类和动物的关节模型。我们通过分析 3D 轨迹来确定每个物体是否在运动，从而为该数据集提供准确的运动分割。HOI4D [36] 是一个真实世界的以自我为中心的数据集，包含与人类 - 物体交互相关的人类 - 物体交互。这个数据集提供了官方的运动分割掩码，使其成为我们模型真实世界训练的理想选择。数据采样。在训练期间，我们随机采样不同数量的跟踪点，增强模型对不同轨迹数量的鲁棒性。对于包含 300 帧的 Dynamic Replica 数据集 [28]，我们通过随机以固定间隔采样 1/4 的帧来加快训练速度。这种方法保留了该数据集的大相机运动特性。我们发现，包含 Dynamic Replica 数据集对于帮助模型有效理解相机运动至关重要。

4.2. 基准和指标

我们使用几个已建立的数据集来评估我们的模型，用于运动目标视频分割。DAVIS17-Moving [13] 是 DAVIS2017 数据集 [48] 的一个子集，专门用于运动目标检测和分割。在 DAVIS17-Moving 中，每个视频序列中的所有运动实例都被标记，而静态目标被排除。根据相同的准则，我们创建了 DAVIS16-Moving 作为 DAVIS2016 数据集 [47] 的一个子集。此外，我们还在其他流行的视频目标分割基准上报告性能，包括 DAVIS2016 [47]、SegTrackv2 [34] 和 FBMS-59 [43]。为了评估，我们使用区域相似性（J）和轮廓相似性（F）指标来衡量我们的运动目标视频分割性能，如 [35, 38, 61] 所述。

4.3. 运动目标分割

我们选择了专门针对运动目标分割的方法作为基线 [35, 38, 60, 61, 69]。对于 OCLR [60]，我们报告了两个版本的结果：仅使用流输入的 OCLR-flow 和在 OCLR-flow 基础上加入测试时适应的 OCLR-TTA。对于 RCF [35]，第一阶段 RCF-stage 1 专注于运动信息，而第二阶段 RCF-All 进一步优化第一阶段的结果。我们报告了这两个阶段的结果。对于所有基线，我们应用了一个全连接的条件随机场（CRF）[31] 来细化掩码，以获得尽可能好的结果。值得注意的是，对于多目标场景，我们遵循常见做法 [16, 60, 61, 69]，将所有前景目标组合在一起进行评估，我们将其称为 MOS。尽管我们的方法能够生成高度准确的细粒度单目标掩码，如第 4.4 节所述，我们将这种第二种评估方法称为细粒度 MOS。表 1 比较了我们的模型与几种基线方法在 MOS 任务上的性能。我们的方法在所有数据集上都实现了最先进的 F 分数，我们的区域相似性（J）分数在多个数据集上要么是最好的，要么是第二好的，进一步验证了我们方法的有效性。图 4 展示了我们在 DAVIS16-Moving 数据集上的视觉结果，我们的方法能够准确识别目标边界，而不会错误地标记运动背景。此外，我们的掩码表现出强大的几何结构，特别是在具有显著相机运动的复杂场景中。图 5 和图 6 分别展示了我们在 FBMS59 和 SegTrack v2 基准上的定性结果。我们的方法在保持掩码几何结构方面表现出色，即使在 RGB 图像模糊或质量较低的情况下，我们对长距离轨迹的依赖也能准确识别运动目标。

4.4. 细粒度运动目标分割

在初始 MOS 任务的基础上，这一任务不仅识别运动目标，还将它们在其运动上下文中进行分类，以生成细粒度的单目标掩码。我们在 DAVIS2017-Moving 数据集上专门评估了我们的方法用于多运动目标分割的能力。为了公平比较，我们只包括声称能够执行此任务的基线。表 2 显示我们的方法显著优于基线，证明了其在生成准确的单目标掩码方面的卓越能力。此外，图 7 说明了我们的方法能够准确识别每个目标，有效区分具有相似运动模式的不同目标。其次，它确保了每个目标掩码的完整性，处理诸如关节人体结构和被遮挡目标等复杂情况，同时保持掩码的完整性。

4.5. 消融研究

我们在 DAVIS17-Moving 和 DAVIS16-Moving 数据集上研究了我们方法及其各个组成部分的有效性。前者用于细粒度 MOS，后者专注于 MOS。所有模型都训练了完整的周期。我们进行了几项实验来评估每个组成部分的重要性。w/o DINO 配置在训练期间完全排除 DINO 特征，而 w/o MOE（仅运动编码）在运动编码器之前将 DINO 特征与运动线索连接起来，允许编码器和解码器层在整个过程中都包含 DINO 信息。w/o MSDE（运动 - 语义解耦嵌入）从运动编码器中排除 DINO 特征，但将它们与编码器输出的嵌入特征轨迹连接起来，通过轨迹解码器中的自注意力引入语义信息。我们还测试了 w/o 深度和 w/o 轨迹的配置，移除特定输入以观察其对性能的影响。此外，w/o PE（位置嵌入）省略了运动编码器中的 NeRF 类位置嵌入，而 w/o STATT（时空注意力）用传统注意力替换了时空注意力。表 3 呈现了定量结果。我们发现，排除深度作为输入或位置编码对性能的影响小于其他组成部分，但它仍然显著低于最佳结果。当移除轨迹并仅使用 DINO 特征和深度图时，性能大幅下降，表明模型在没有基于轨迹的信息时难以有效学习。我们进一步分析了以下两个挑战场景中的关键组成部分。

剧烈相机运动

我们观察到，在具有剧烈相机运动或快速目标运动等极具挑战性的场景中，仅依赖运动信息是不够的。如图 8 的上半部分所示，彩色点表示模型预测的动态点，而空心点表示那一刻不可见的点。在这个例子中，如果没有 DINO 特征信息，模型会错误地将静止的路面分类为动态，尽管路面本身无法移动。这一信息可以通过引入 DINO 特征得到有效补充。此外，我们发现，在运动编码器中添加时空注意力在这些困难场景中特别有益，因为它为模型提供了更丰富的运动信息，以捕获轨迹的长距离运动模式，如图 8 所示。

区分同一类别中的运动和静止目标

结果表明，完全排除 DINO 特征会导致性能下降，而这些特征的整合方式显著影响模型的输出。在运动编码阶段简单地引入 DINO 作为输入会导致模型过度依赖语义信息，通常导致它假设同一类型的目标共享相同的运动状态。相比之下，我们的运动 - 语义解耦嵌入架构有效减少了对语义的过度依赖，使模型能够区分同一类别中的运动和静止目标，如图 8 的下半部分所示。

5. 结论

在本文中，我们提出了一种新颖的方法，利用长距离轨迹，与传统的基于亲和矩阵的方法不同。我们的模型在广泛的数据集上进行训练，能够准确识别动态轨迹，并与 SAM2 结合生成精确的运动目标掩码。我们精心设计的模型架构旨在处理长距离运动信息，同时有效地平衡运动和外观线索。实验表明，我们的方法在多个基准测试中均取得了最先进的结果，尤其是在单目标级别的分割方面表现出色。

6. 局限性

我们当前的模型使用现成的长距离轨迹估计器，其准确性对整体性能有显著影响，如表 3 所示。然而，我们相信我们对运动目标分割的新方法可以反过来提升这些估计器的性能和理解，从而实现相互促进的改进。