MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation 用于上下文增强域适应的掩码图像一致性

前言

分享的文章将从发现的问题、提出的创新点、创新方法的细节层面和实验总结等方面进行描述。

一、问题?

一个常见的问题是在目标域上具有相似视觉外观的类混淆,例如道路/人行道或行人/骑手,因为没有可用的地面真相监督来学习轻微的外观差异。例如,图1中人行道的内部被分割为道路,可能是由于相似的局部外观。例如,图1 a)前景中的路沿可能是正确识别人行道的关键上下文线索,尽管纹理模糊。尽管所使用的网络架构已经具有建模上下文关系的能力,但之前的UDA方法仍然无法充分发挥在目标域上使用上下文依赖关系的潜力,因为所使用的无监督目标损失不够强大,无法有效地学习这些信息。

图1

二、创新点

1.引入掩码图像一致性(Masked Image Consistency ,MIC)插件

如图1 c,该插件可应用于各种视觉识别任务。考虑到用于说明的语义分割,MIC将随机选择的目标图像补丁进行掩码,并训练网络预测包括被掩码部分在内的整幅图像的语义分割结果。这样,网络就必须利用上下文来推断被屏蔽区域的语义。

由于目标域没有真实的标签,我们求助于伪标签,由EMA teacher使用原始的、未屏蔽的目标图像作为输入生成。因此,教师网络可以利用上下文和局部线索来生成健壮的伪标签(也就是较为准确的伪标签)。在训练过程中,对象的不同部分被屏蔽,使学生网络学会利用不同的上下文线索,进一步提高了鲁棒性。使用MIC进行UDA后,网络能够更好地利用上下文线索,并成功地正确分割出依赖上下文线索的困难区域,如图1 b)中的人行道。

简单理解就是,教师网络和学生网络对于同一张目标图像生成的伪标签要保持一致性。因为教师网络生成的伪标签较为准确,学生网络的目标图像有屏蔽的部分,生成的伪标签可能出现大量错误,但是这里通过一致性损失,迫使学生网络生成的伪标签越来越准确,所以在这个过程中,学生网络就学习到了更多的上下文线索。

由于MIC的普适性和简单性,可以直接集成到不同视觉识别任务的各种UDA方法中,具有很高的实践价值。

三、读入数据

1.方法细节

Unsupervised Domain Adaptation (UDA)

文中将提出的MIC方法用于语义分割,以自训练(也可以说是半监督)的方式进行训练,源域和目标域在训练的过程中都使用交叉熵作为损失函数。

Masked Image Consistency (MIC)

MIC通过随机屏蔽目标图像的补丁来保留局部信息。为此,补丁掩码M是从均匀分布中随机抽样的

  [·] 表示艾弗森括号, 括号内条件满足为1,不满足为0;括号内条件满足为1,不满足为0;b表示补丁大小,即掩码块的大小,默认情况b=64;r表示掩码率,设置为0.7;这里v服从标准的正态分布,当μ = 0,σ = 1时的正态分布是标准正态分布; m ∈ [0 .. W/b − 1], n ∈ [0 .. W/b − 1]表示补丁的索引;这里的W我理解的表示的是图像的宽,m、n随机生成补丁的索引位置,当满足条件时,该补丁所在区域为1,其他区域为0;随机抽样生成掩码M。

利用生成的掩码与目标图像相乘,得到掩码图像,如图3所示:

图3

一致性损失为:

其中的 pT 就是教师网络对完整的目标图像生成的伪标签,ˆyM 是学生网络对掩码图像的预测概率,使用交叉熵计算,qT 是权重。

值得注意的是qT不是一个固定值,对于不同的预测任务有不同的生成方式。就语义分割来说,因为伪标签可能是错误的(特别是在训练开始时),所以我们利用超过最大软概率阈值τ的像素比作为权重:

例如,预测为第c类的概率最大值大于 τ,则加1,分子的意义就是找到预测概率大于阈值的所有像素点,一张图像有H · W个像素点,那么随着训练次数的迭代,生成的伪标签越来越准确,所以预测概率也在增大,所以该像素比也越来越大,由此该损失对网络的约束力也越来越大,学习到更多更准确的上下文信息。


 三、实验

这篇论文在不同的任务上都做了实验,表明MIC的有效性,从语义分割的实验结果看,性能有显著提升。

这篇论文的想法很简单,重点在于随机生成的掩码,后续可以复现代码加深理解。

总结

以上就是今天要讲的内容,本文简单介绍了域适应方面的一篇比较新的论文,而且很简单,很值得借鉴,代码复现后会继续跟大家分享它的精妙之处。

猜你喜欢

转载自blog.csdn.net/weixin_44796609/article/details/129155106