ICCV 2023 | 只需过一次CLIP!美团&港大提出DeOP:高效的开放字典语义分割框架

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割和论文投稿】交流群

作者:韩聪 |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/649036940

6d2c6341b8e7f085c76eb3cab7a64727.jpeg

Open-Vocabulary Semantic Segmentation with Decoupled One-Pass Network

代码:https://github.com/CongHan0808/DeOP

论文:https://arxiv.org/abs/2304.01198

98dac0eb380b029daf7d21faa3ece9e6.jpeg

针对开放字典的语义分割任务,目前常用的方法有两种coupled one-pass(例如OpenSeg)和decoupled multi-pass(例如SimBaseline, ZegFormer, OVSeg等),这两者的结构图可以分别对应图1(a)和(b)。耦合(coupled)方式直接在可见类别上训练特征提取器并得到class-agnostic masks,然后得到基于区域的分类特征,但特征的泛化性无法保证。解耦(decoupled)方式利用Maskformer/SAM等得到class-agnostic masks,然后将生成的mask和预训练的视觉语言模型(CLIP等)结合,从而完成分割任务;这种方法在使用过程中利用了对齐的视觉-语言特征,能够保证特征的泛化性;但解耦方式中对同一张图片的多张masks都需要分别叠加到原图后才能经过CLIP,带来了巨大的计算量。总的来说,one-pass的方法相比multi-pass具有计算高效的优势,但解耦(decoupled)方法耦合(coupled)方法具有更强的泛化性。我们考虑能否将两者结合起来,使用decoupled one-pass方法(图1(c)),使模型既拥有强大的泛化性能,又能够高效计算。

本文方法

在该任务中,我们认为使用预训练的视觉语言模型(CLIP)来保证视觉和文本特征的对齐是非常必要的,因此我们会保留预训练的CLIP模型,然而直接将masks和经过CLIP的视觉特征结合进行分类效果又很差。为解决这一问题,本文提出decoupled one-pass network,可以将masks作用于改进CLIP得到的视觉特征获取分类特征,能够在性能上超越现有方法,同时在推理速度上有4-7倍的提升。

本文首先提出了Generalized Patch Severance(GPS)方法,通过改进CLIP视觉模型,获得更适合分割任务的视觉特征,能够直接将masks和视觉特征融合,获取良好的分类特征。Generalized Patch Severance是针对分割任务,对CLIP视觉模型进行的改进,是完全training-free,可以和所有的提取maks的模型结合,比如Mask2former、SAM、MaskDINO等,更好的masks分割模型,也会获得更好的分类结果。

在此基础上,本文又提出可训练的网络结构Classification Anchor Learning(CAL),使用masks作为引导,并添加可学习网络,从CLIP的视觉特征中获取更多的有助于分类的信息。

本文提出方法的整体结构如图所示

6d9b042c1ba5e3cd17b63f9251af5fa8.jpeg

实验结果

open-vocabulary 设定下,数据集内划分seen/unseen类别结果:

bb2622170f95bc9178b9046a59e1f925.jpeg

在跨数据集设定下,实验结果:

e40f02cf393ac821b22f5e770929c063.jpeg

可视化分割效果

0afa71598f947c1b9dd8dbecffe23f6b.jpeg
 
  

点击进入—>【图像分割和论文投稿】交流群

ICCV / CVPR 2023论文和代码下载

 
  

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
图像分割和论文投稿交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者论文投稿 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看21b68fa7dd9c1482087a3bea1e3cd28c.gif

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/132200619