Segment Anything又一强大应用!

大家好,我是阿潘,今年太多炸裂的成果涌现,今天和大家分享号称 CV 的GPT-3 时刻的SAM(Segment Anything Model)的一个相关研究成果。

SAM简介

迄今为止最大的分割数据集,在1100万的图像上有超过10亿个掩码。该模型被设计和训练为可提示的(promt),因此它可以将zero-shot transfer零样本迁移到新的图像分布和任务。
promt : 例如,点,框,掩码
当模型遇到 promt,那可玩性可太强了,交互性直接拉满!!!今天介绍一个工作将点的跟踪和SAM结合实现强大的视频分割能力。

SAM + 点跟踪 = 超强交互视频分割

4d19c765ca87e52b7885f4501ca7daca.png

Segment Anything Meets Point Tracking

论文:https://arxiv.org/abs/2307.01197
代码:https://github.com/SysCV/sam-pt
主页:https://www.vis.xyz/pub/sam-pt/

摘要:

Segment Anything Model (SAM) 已成为强大的零样本图像分割模型,采用交互式提示(例如点)来生成掩模。本文介绍了 SAM-PT,这是一种扩展 SAM 跟踪和分割动态视频中任何内容的能力的方法。SAM-PT 利用稳健且稀疏的点选择和传播技术来生成掩模,证明基于 SAM 的分割跟踪器可以在流行的视频对象分割基准(包括 DAVIS、YouTube-VOS 和 MOSE)中产生强大的零样本性能。与传统的以对象为中心的掩模传播策略相比,我们独特地使用点传播来利用与对象语义无关的局部结构信息。我们通过对零样本开放世界未识别视频对象(UVO)基准的直接评估来强调基于点的跟踪的优点。为了进一步增强我们的方法,我们利用 K-Medoids 聚类进行点初始化并跟踪正点和负点以清楚地区分目标对象。我们还采用多个掩模解码通道进行掩模细化,并设计点重新初始化策略以提高跟踪精度。

整体架构:

b15ad0fa9a9153d7445d52f8ca766c63.png

5aab67184fb74a840039a576626c8d1b.png

Interactive Video Segmentation Demo

参考资料:
https://zhuanlan.zhihu.com/p/619962145

猜你喜欢

转载自blog.csdn.net/flyfor2013/article/details/131587907