这篇CVPR2020的论文,和MAST的任务相仿,都是从training阶段就放弃annotation的使用,变成了彻头彻尾的无监督学习,为VOS任务提供了一个新的高效学习范式。不同的是这篇文章不仅可以用来做O-VOS(one shot半监督给定第一帧mask),还可以用来做Z-VOS(zero shot无监督无第一帧mask)。
文章采用multiple granularities的方式,来学习到多粒度的视频帧的特征表示,四种granularity如下:
(1)frame granularity:通过显著性检测或者CAM maps来挖掘帧内的信息,鉴别前景部分和背景部分;
(2)short-term granularity:通过施加局部表示的consistency约束,用来比较连续几帧间的视觉pattern;
(3)long-range granularity:施加远距离frame之间的语义联系,使得帧之间的特征表示对occlusion,外观的变化以及deformation;
(4)whole-video granularity:通过融合多帧的信息,让视频表示去学习到global和conpact的内容,并且和其他视频序列的representation加以区别。
感觉(2)和(3)两点与MAST的memory的目的有相似之处,但处理的方法完全不同;而(1)的存在使得本篇文章可以处理Z-VOS的任务。整个流程图如下图所示:
本篇文章的思路感觉很棒,但就是非常的繁琐,这篇笔记不放太多的理论,简单的概括一下结构。
short-term granularity部分像是cyclegan里面的循环一致性,将原图clip出一个关键区域p,预测接下来两帧中该区域匹配度较高的位置,然后再从t+2帧反向预测回来。这样可以使的特征提取器 ϕ \phi ϕ学习到一些局部的特征。
long-range granularity将远距离帧的关联问题,看作是一个对偶帧之间语义的matching问题。选取两个distant的帧,通过特征提取得到两者的embedding,计算两个embedding的affinity similarity,随后通过一个微型的网络将这个affinity similarity映射到六度空间,用以回归一个几何变换(translation, rotation and scale),最后也是通过类似于consistency的操作得到long-term的loss。
frame granularity将显著性检测的前景部分当作mask,将frame通过一个1x1卷积得到一个前景prediction,然后计算两者的交叉熵损失,就是frame粒度的损失,用来对前景知识有一个更好的理解。
whole-video granularity没细看。。。
这里主要呈现以下O-VOS的实验结果:
结果感觉还是很震撼的,在无监督/弱监督O-VOS方面都有了非常高的涨点。