ICCV 2023 | 여러 기록 경신! 우한 대학교 및 Kuaishou 제안 DVIS: 디커플링 비디오 인스턴스 세분화 프레임워크

아래 카드를 클릭하시면 " CVer " 공식 계정을 팔로우 하실 수 있습니다.

AI/CV 건어물, 최초 인도

입력하려면 클릭 —> [이미지 분할 및 논문 투고] Exchange Group

저자: zt1999(출처: Zhihu) | 편집자: CVer

https://zhuanlan.zhihu.com/p/645334685

보다 자세한 비교 결과는 다음과 같습니다.

f5f871f91d0ca974ef1c86fba18b362b.png

팀 ICCV2023의 초안에서 비디오 인스턴스 분할 작업 DVIS를 PR합니다. DVIS는 OVIS, YouTube-VIS 및 VIPSeg와 같은 데이터 세트에서 SOTA 성능을 달성했습니다. DVIS는 2월부터 OVIS 데이터 세트를 장악했으며 CVPR 2023의 제2회 Pixel-level Video Understanding in the Wild Challenge(Video Panoptic Segmentation Track)에서 우승을 차지했습니다.

DVIS: 분리된 비디오 인스턴스 세분화 프레임워크

논문:https://arxiv.org/pdf/2306.03413

코드:https://github.com/zhang-tao-whu/DVIS

주요 특징

  1. DVIS는 일반적인 비디오 분할을 수행할 수 있으며 VIS(비디오 인스턴스 분할), VSS(비디오 의미 체계 분할) 및 VPS(비디오 파노라마 분할)의 세 가지 주요 작업을 처리할 수 있습니다.

  2. DVIS는 온라인 및 오프라인 모드에서 모두 작동할 수 있습니다.

  3. 분리된 설계로 인해 DVIS 교육에 컴퓨팅 리소스가 덜 필요합니다.

  4. DVIS는 여러 VIS 및 VPS 데이터 세트에서 SOTA 성능을 달성했습니다.

결과 보여줘:

4536988aa22fe2970646ba2fd8608e05.png

과제 소개

비디오 인스턴스 분할(Video Instance Segmentation, VIS)은 이미지 인스턴스 분할 작업의 확장으로 비디오의 모든 인스턴스를 동시에 분할, 감지 및 추적하는 것을 목표로 하며 이미지 인스턴스 분할보다 어려운 기본 작업입니다. .자율주행을 위해서는 이미지 편집 등의 후속 작업이 중요한 역할을 합니다. VSS(Video Semantic Segmentation)는 또한 비디오의 모든 의미 클래스를 세분화하고 시간 차원에서 타이밍 안정성을 유지해야 하는 이미지 의미 체계 세분화에서 확장됩니다. 비디오 팬옵틱 분할(Video Panoptic Segmentation, VPS)은 비디오 인스턴스 분할과 비디오 시맨틱 분할의 조합으로 볼 수 있으며 비디오에서 "사물" 및 "물건" 개체의 분할 및 추적이 필요합니다.

연구 배경 및 동기

최근 CV의 다양한 분야에서 Transformer[1]가 널리 사용되고 있다. DETR[2]는 Transformer를 기반으로 한 고전적인 작업 중 하나로 이미지 대상 감지 및 이미지 인스턴스 분할 분야에서 강력한 잠재력을 보여주었습니다. ROI 기반 인스턴스 표현 방식과 비교할 때 DETR에서 채택한 쿼리 기반 인스턴스 표현 방식은 더 강력한 표현 능력과 유연성을 보여줍니다. 이미지 타겟 감지 분야의 발전에 영감을 받은 VisTR은 Transformer를 VIS 분야에 최초로 적용해 엄청난 성능 향상을 보였다. 이후 VIS 분야에서는 Transformer를 기반으로 한 방법이 주류가 되었습니다.

현재 영상분할 분야의 방법은 크게 온라인과 오프라인 방식으로 나눌 수 있다. 온라인 방식은 현재 프레임의 결과를 예측할 때 현재 프레임과 과거 프레임을 입력으로 사용하며, 자동 운전에서의 실시간 인식과 같이 실시간 처리가 필요한 까다로운 시나리오에서 주로 사용됩니다. 오프라인 방법은 현재 프레임의 결과를 예측할 때 비디오의 모든 프레임을 입력으로 사용할 수 있으며 비디오 편집과 같이 오프라인 처리 요구 사항이 있는 시나리오에서 주로 사용됩니다.

기존의 SOTA 온라인 방법(MinVIS[3], IDOL[4] 등)은 먼저 이미지 분할을 수행한 다음 프레임별로 인스턴스를 연결하는 기술적 경로를 따릅니다. 이 기술 루트는 다른 프레임의 정보를 기반으로 현재 프레임의 분할 결과를 최적화하지 못하므로 비디오 정보의 효과적인 사용이 부족합니다.

SOTA를 위한 기존 오프라인 방법(SeqFormer[5], Mask2Former-VIS[6], VITA[7], IFC[8] 등)은 긴밀하게 결합된 네트워크를 채택하여 비디오 분할 작업을 종단 간 처리합니다. 이 기술적인 경로는 이론적으로 비디오 정보를 보다 효과적으로 사용할 수 있지만 긴 비디오 및 복잡한 장면에서 성능이 만족스럽지 않습니다. 다음 영상에서 보듯이 영상에서 유사한 타겟이 많이 가려지고 서로 뒤바뀌게 되면 Mask2Former-VIS의 타겟 추적 결과가 혼란스러워지고 세그먼테이션 정확도에도 영향을 미치게 됩니다.

448528b8090a1bcac98b26be981ddea3.png

오프라인 방식은 온라인 방식보다 더 많은 정보를 사용할 수 있으므로 이론적으로 성능이 더 좋아야 합니다. 그러나 이는 사실이 아니며 복잡한 시나리오에서 기존 오프라인 방식의 성능은 온라인 방식보다 현저히 떨어집니다. 이는 기존 오프라인 방식의 인스턴스 표현 설정 때문이라고 생각합니다. 기존 오프라인 방법은 학습 가능한 단일 쿼리를 사용하여 위치 및 크기 사전으로 볼 수 있는 비디오의 인스턴스를 나타냅니다. 그러나 실제 장면에서는 인스턴스의 모양과 공간적 위치가 크게 다를 수 있으므로 위치와 크기 사전만으로는 모든 프레임에서 인스턴스의 올바른 특징을 감지하기 어렵습니다. 위 동영상 데모에서 보듯이 3번 질의(빨간색 마스크 커버리지)로 학습한 이전 위치 정보는 동영상의 오른쪽에 있지만 동영상의 이전 부분에서 표시한 코끼리는 왼쪽으로 이동했습니다. 영상 말미에 있는 영상.

그렇다면 비디오 정보를 최대한 활용하여 오프라인 방법이 이론적 잠재력을 발휘하도록 하려면 어떻게 해야 할까요? 우리는 DVIS에서 이 질문에 답하려고 했습니다. 전체 비디오에서 인스턴스의 표현을 직접 모델링하기 어렵기 때문에 먼저 단일 프레임에서 인스턴스를 모델링한 다음 인스턴스를 프레임별로 연관시켜 모든 프레임에서 동일한 인스턴스의 표현을 얻을 수 있습니까? 마지막으로 인스턴스 사용의 타이밍 정보를 추가합니다. 의심할 여지 없이, 프레임별 상관 관계는 모든 비디오 프레임에서 동일한 인스턴스를 직접 상관시키는 것보다 훨씬 덜 어렵습니다. 일시적으로 잘 정렬된 인스턴스 기능이 주어지면 이러한 기능을 효과적으로 활용하는 것도 쉽지 않습니다.

이 시점에서 DVIS의 아키텍처가 나타날 준비가 되었습니다. 우리는 VIS 작업을 이미지 분할, 개체 연결 및 타이밍 정제의 세 가지 하위 단계로 분해합니다. 그에 따라 세그먼터, 트래커 및 정제기의 세 가지 네트워크 모듈을 설계합니다. 이 세 가지 하위 단계를 처리합니다. 이미지 분할은 단일 프레임에서 대상을 분할하고 대상의 표현을 얻는 것입니다. 개체 연결은 인접한 프레임의 대상 표현을 연결하여 구체화에 잘 정렬된 초기 값을 제공하는 것입니다. 타이밍 세분화는 정렬된 객체 타이밍 정보를 기반으로 객체의 분할 결과 및 추적 결과를 최적화하는 것입니다.

방법 소개

DVIS 아키텍처가 결정되면 이미지 분할, 개체 연결 및 타이밍 정제의 세 가지 하위 단계에 대해 합리적인 분할기, 추적기 및 정제기 네트워크를 설계해야 합니다. 이미지 세분화 하위 단계에서는 SOTA 이미지 일반 세분화 네트워크 Mask2Former를 세그멘터로 사용하여 객체의 표현을 추출하고, 객체 연관 하위 단계에서는 추적을 참조 노이즈 제거/재구성 작업으로 모델링하고 설계합니다. Robust target association을 수행하기 위한 Refering Tracker; 타이밍 세분화 하위 단계에서 객체의 타이밍 정보를 효과적으로 사용하기 위해 1D 컨볼루션 및 Self Attention을 기반으로 Temporal Refiner를 구현했습니다.

3679bdbd4f25af76abd84601e39004c7.jpeg

1. 추천 추적기

1bf07e3b8925bc087be632eb29993951.jpeg

DVIS는 이전 프레임의 객체 쿼리를 기준으로 즉, 이전 프레임의 객체 쿼리를 기준 쿼리로 하여 현재 프레임에 해당하는 객체 쿼리를 재구성한 다음 세그멘터에서 현재 프레임의 개체 쿼리 중간에 정보를 집계하고 마지막으로 현재 프레임에서 참조 쿼리의 해당 인스턴스의 마스크 및 범주를 출력합니다. Refering Tracker는 Refering Cross Attention을 통해 위 과정을 학습합니다. Refering Cross Attention은 참조 쿼리를 최대한 활용하여 정보 집계를 안내하고 참조 쿼리와 현재 정보의 혼합을 차단합니다. 표준 Cross Attention을 약간 수정하여 얻습니다.

d39fe58ad8e48e9d5ced626fc9b0c030.png

2. 시간 정제기

eac0bf101e5b7b4e1305697e5fae04f0.jpeg

Referering Tracker가 기본적으로 시간 차원에 정렬된 대상 쿼리를 출력한 후 표준 작업(예: 1D 컨볼루션 및 Self Attention)을 사용하여 타이밍 기능을 효과적으로 활용할 수 있습니다. 우리가 설계한 Temporal Refiner는 타이밍 기능을 집계하기 위해 1D 컨볼루션과 Self Attention을 사용하여 매우 간단합니다. Temporal Refiner는 객체의 시간적 특성을 기반으로 세분화 결과 및 추적 결과를 최적화합니다.

DVIS의 디자인은 매우 유연합니다.참조 추적기는 모든 쿼리 기반 이미지 분할기에 중첩되어 온라인 비디오 분할을 달성할 수 있습니다.Temporal Refiner는 또한 모든 온라인 비디오 분할기에 중첩되어 보다 강력한 분할 성능을 얻을 수 있습니다.

실험 결과

OVIS 데이터 세트에서 Referer Tracker 및 Temporal Refiner의 역할에 대한 절제 실험을 수행했습니다. Tracker의 주요 역할은 특히 중간 정도의 폐색과 심한 폐색이 있는 개체에 대해 보다 강력한 대상 연결을 달성하는 것입니다(아래 표에 표시된 대로 5.2 AP 및 4.3 AP 성능 향상을 가져옵니다). Refiner의 주요 기능은 타이밍 정보를 최대한 활용하는 것인데, 그 결과 타이밍 정보의 효과적인 사용으로 인해 약하게, 적당히, 심하게 가려진 객체에 대한 Temporal Refiner의 성능이 크게 향상되었음을 보여줍니다. 아래 표에서 약함, 중간 높음 및 심하게 가려진 대상의 경우 각각 2.4 AP, 1.8 AP 및 5.1 AP의 성능 향상을 가져옵니다.

300e4ca88d2a44d70019e30502027df1.jpeg

또한, Referering Tracker와 Temporal Refiner는 오브젝트 쿼리만 처리하기 때문에 계산 비용이 매우 적고 총 계산량이 Segmenter의 5% 미만입니다(아래 표 참조).

b71a89b218b1095f118bf5bfa5cda0af.jpeg

DVIS는 OVIS, YouTube-VIS(2019, 2021) 및 VIPSeg와 같은 데이터 세트에서 SOTA를 달성했습니다.

데이터세트 오비스 YTVIS19 YTVIS21 VIPSeg
소타 전 45.4 AP
(GenVIS,CVPR2023)
64.3AP
(아이돌,ECCV2022)
AP 59.6
(GenVIS, CVPR2023)
48.0 VPQ
(타비스, CVPR2023)
49.9 AP 64.9 AP 60.1 AP 57.6 VPQ
증가하다 +4.5 +0.6 +0.5 +9.4
02272dd1ee7e5ff3f8e0810317141ce0.jpeg ee58adce31808ed4696199307e947a9e.jpeg d2aa1fd94d8e5acaa265672b5e5c5296.jpeg

결론적으로

본 논문에서는 VIS 작업을 분할, 추적 및 개선의 세 가지 하위 작업으로 분리하는 프레임워크인 DVIS를 제안합니다. 우리의 기여는 세 가지입니다. 1) VIS 작업에 디커플링 전략을 도입하고 DVIS 프레임워크를 제안합니다. Temporal Refiner는 전체 영상의 정보를 사용하여 분할 결과를 세분화하여 이러한 점에서 이전 작업의 부족함을 보완합니다. 결과는 DVIS가 모든 VIS 데이터 세트에서 SOTA 성능을 달성했음을 보여줍니다.

DVIS의 설계는 VIS 분야의 기존 방식의 부족에 대한 반성에서 나왔지만, DVIS의 설계는 비디오 인스턴스 분할 분야에 국한되지 않고 VIS, VPS, VSS에서 아무런 변화 없이 SOTA 성능을 구현할 수 있으며, DVIS의 다재다능함과 강력한 잠재력을 보여줍니다. 우리는 DVIS가 강력하고 근본적인 벤치마크 역할을 하고 우리의 풀린 통찰력이 온라인 및 오프라인 VIS 분야의 향후 연구에 영감을 주기를 바랍니다.

참조

[1] 주의가 필요합니다. NeurIPS2017

[2] 트랜스포머를 사용한 엔드투엔드 객체 감지. ECCV2020

[3] MinVIS: 비디오 기반 교육이 없는 최소 비디오 인스턴스 세분화 프레임워크. NeurIPS2022

[4] Video Instance Segmentation.ECCV 2022를 위한 온라인 모델 방어

[5] SeqFormer: 비디오 인스턴스 분할을 위한 매우 간단한 모델. ECCV 2022

[6] 비디오 인스턴스 세분화를 위한 Mask2Former.

[7] 개체 토큰 연결을 통한 비디오 인스턴스 세분화. NeurIPS2022

[8] 프레임 간 통신 변환기를 사용한 비디오 인스턴스 분할. NeurIPS2021

[9] 비디오 인스턴스 세분화를 위한 일반화된 프레임워크. CVPR2023.

[10] Tarvis: 대상 기반 비디오 세분화를 위한 통합 접근 방식입니다. CVPR2023.

 
  

입력하려면 클릭 —> [이미지 분할 및 논문 투고] Exchange Group

ICCV/CVPR 2023 논문 및 코드 다운로드

 
  

배경 답변: CVPR2023, CVPR 2023 논문 모음 및 코드 오픈 소스 논문을 다운로드할 수 있습니다.

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
图像分割和论文投稿交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者论文投稿 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

정리하기 쉽지 않은데 좋아요와 시청 부탁드립니다cb264509381a98ab9cfa682db3a1b427.gif

추천

출처blog.csdn.net/amusi1994/article/details/132255926