Mask-guided Contrastive Attention Model for Person Re-Identification 详解

最近在看Re-ID相关的东西,现在把这篇paper记录一下。代码地址

一、概述

首先二元体掩码可以在两个方面为Re-ID做出贡献。1、掩模可以帮助消除像素级的背景杂波,这可以极大地提高ReID模型在各种背景条件下的鲁棒性。2、面具包含可被视为重要步态特征的体形信息。
如果直接掩盖掉图像中的背景,会使得性能变差,具体的实验结果可以在作者文章4.3节见到,如下:
在这里插入图片描述

二、网络结构:

为了解决这个问题,作者利用二元掩码来减少特征级别中的背景中的噪声,并提出了一种对比注意模型(MGCAM)来从身体和背景区域对比学习特征。如下图:
在这里插入图片描述
在特征空间中,从body区域和完整图像学习的特征应该是相似的,而从背景和完整图像学习的特征应该是不同的。为此,提出的MGCAM首先在二元体掩模的指导下产生一对对比注意力图。然后将对比注意力图添加到CNN特征中以分别生成身体感知和背景感知特征。
There are two main components, the contrastive attention
sub-net and the region-level triplet loss for contrastive
feature learning. The first part can generate a pair of inverse
attention masks which are used to the body-aware
and background-aware feature learning. Whereas the second
part restrains the distances between features from the
full-stream, the body-stream and the background-stream.
对于三个stream,full stream学习整个image的feature;body stream学习body-attention map;background stream学习background-attention map。虽然这三个stream都是学习的同一张图,但是他们是有些差别的,对于background-stream从background 学习到的特征对于Re-ID这个任务来说是完全没有用的,并且应该提出背景对于前景的影响,所以作者使用triplet loss,正样本是body feature而负样本是bkgd loss。作者希望通过这个函数,使得body feature提供大部分信息,并且同时希望减少背景对于最终结果的影响。

三、Loss

3.1 Mask-guided Contrastive Attention Sub-net

在这里插入图片描述
已知这前景和背景的attention map两个操作是互补的,所以肯定会存在这样一个条件:对于feature map上每一个点(i,j):
在这里插入图片描述

之后的body feature以及bkgd feature的获得则是利用 f s t a g e 2 f_{stage_2} 与这两个值进行内积操作:
在这里插入图片描述

3.2 Region-Level Triplet Loss for Contrastive Feature

Learning
作者通过一个损失函数来生成独立的body feature以及background feature。损失函数如下所示:
在这里插入图片描述
作者使用了triplet loss。这个目标样本自然就是full feature,正样本是body feature而负样本是bkgd loss。这个很容易理解,希望通过这个函数,使得body feature提供大部分信息,并且同时希望减少背景对于最终结果的影响。
在这里插入图片描述
Note:其中m为超参数,根据经验设置为10

3.3 Objective Function

前面提到了这么多都是为了Re-ID这个目标服务,总体的框架为:
在这里插入图片描述
这个网络框架类似于孪生网络,对于两个待对比的人,我们经过MGCAM网络提取到最后的特征分别为h§和h(g),最后通过如下函数对比其相似度:
在这里插入图片描述
Note:m同上,为经验值10

整个函数训练过程中使用的目标函数式表达为:
在这里插入图片描述
Note:where λ, α and β are the hypermeters, which are respectively
set to 0.01, 0.01 and 0.1 in our experiments

四、总结

本文作者提出的思路可以总结如下:
1、为了减少带有蒙版的人物图像背景杂乱,设计了一个由二元蒙版引导的对比注意模型。它可以生成一对身体感知和背景感知的注意力图,可用于生成身体和背景的特征。

1、作者进一步提出从完整图像,身体和背景的特征区域级三联体损失。它可以强制模型学习的特征对背景杂乱不变。

3、作者探索将身体蒙版作为附加输入并伴随RGB图像来增强ReID特征学习。二元掩模有两个主要优点:1)它可以帮助减少背景杂乱,2)它包含身份相关的功能,如身体形状信息。

猜你喜欢

转载自blog.csdn.net/gbyy42299/article/details/84177255