【论文笔记】JAFN

Joint Attentive Spatial-Temporal Feature Aggregation for Video-Based Person Re-Identification

Joint Attentive Spatial-Temporal Feature Aggregation for Video-Based Person Re-Identification

摘要

本文提出了一种基于视频的人脸识别的联合关注时空特征聚合网络(JAFN),同时学习质量感知模型帧感知模型,获得基于注意的时空特征聚合。
具体来说:

  • 利用CNN来学习空间特征,同时引入LSTM来分别学习时间特征。对于特征聚合,我们分别引入了两种注意力机制来生成质量和帧显著性得分,其中质量得分衡量的是用于注意空间特征聚合的图像质量帧得分衡量的是有助于注意时间特征的图像帧的显著性
  • 利用集池的方法对质量感知的空间特征和帧感知的时间特征进行集中。在LSTM和CNN之间引入残差学习进行自适应时空特征融合。
  • 我们采用数据平衡来缓解基于视频的Re-ID数据集中存在的数据比例失调问题。

介绍

最近,越来越多的研究开始关注序列重识别(Video-based ReID),一些研究方法是直接通过最大池或者平均池把特征融合起来,但是有些图片不够清晰所以很难得到有效的效果。为了解决这个问题,一些研究开始关注如何选择更加有判别力的帧(most discriminative frames of the person),[10]的工作利用了质量感知网络模型,更加关注高质量的图像.

然而,这些方法只考虑了空间特征,而空间特征容易受到相机视角变化的影响。[11]和[12]的作品利用深度递归网络RNN进行基于视频的人物再识别,提取时间特征。时间特征也从每一帧的特征平均累积,忽略了有助于时间特征学习的帧的不同显著性

[14]提出的工作利用注意力模型对更重要的区域和帧进行关注,使RNN学习到的特征更有效。然而,已知RNN不能完全整合所有序列帧的所有周期信息,其输出很容易丢失早期人物图像帧的一些重要信息。时间特征缺乏足够的外观信息,从而限制了性能。如何将空间和时间特征集中在一起,仍然是一个有前途和未解决的问题。

(文章思想来了!!!和摘要其实差不多)

针对上述问题,我们提出了一种用于基于视频的人物再识别的联合关注时空特征聚合网络(JAFN)。
JAFN是将空间和时间特征集中在一起,以获得更有鉴别性的特征,从而提高基于视频的Re-ID的性能。
在这里插入图片描述

如图1所示,我们提出学习一个质量和框架感知模型来获得基于注意的时空特征聚合。具体来说,我们利用CNN来学习空间特征,而引入LSTM来分别学习时间特征。在特征聚合中,我们引入了两种注意机制,分别生成质量分数和帧分数,质量分数衡量的是专注空间特征聚合的图像质量,帧分数衡量的是有助于时间特征的图像帧的显著性。
在此基础上,利用集池方法对质量感知的空间特征和帧感知的时间特征进行集中。对于两个特征之间的自适应特征融合,我们引入了LSTM和CNN之间的残差学习来更好的提高性能。在提取的时间特征和参考空间特征之间进行元素添加,以获得更具鉴别性的融合特征。
我们还提出了数据平衡来缓解基于视频的reid数据集中存在的数据比例失调问题。

现将工作贡献总结如下:
(1)提出了一种关注特征联合聚集机制,将空间和时间特征集中在一起,用于基于视频的人再识别;
(2)提出了一种残差学习机制来自动学习更具鉴别性的时空特征融合;
(3)对不同的代表性数据集进行了综合比较和讨论,分析了该方法的有效性和泛化性。

相关工作

He等人[31]提出了一个残差学习框架,在更深层次和层输入的参考之间进行元素的依赖,通过学习残差,使更深层次间接地更好地拟合理想的最优映射。了解残差比直接了解所需层的输出[31]更容易。该分类框架的性能改进证明了残差学习的有效性。利用残差学习改进现有的深度行人重识别体系结构,对实现自适应时空特征融合具有潜在的帮助。

方法

在这里插入图片描述
JAFN有两个分支,分别用于生成分数和特征。分数生成分支是生成质量分数和帧分数,使系统关注于更有意义的特征,特征生成分支分别生成空间特征和时间特征。因此,JAFN主要包括三个部分:空间特征聚合的质量感知注意、时间特征聚合的帧感知注意和时空融合的残差学习。

此外,我们采用了数据平衡来进一步改进JAFN。

1. QUALITY-AWARE ATTENTION

如上图,将图像序列通过两个全卷积网络(FCN1和FCN2)分别生成质量分数和特征表示。quality-aware attention模块的设计灵感来自于[10],目的是测量输入图像对空间特征聚合的有用性。直观上,由于质量高的图像更容易识别,而质量低的图像通常对集合表示的帮助较小,因此,如果图像清晰度高,杂波较少,理论上质量分数会较高,可以给出图像的特征更多的关注。
在这里插入图片描述输入图像向量s进入全连接层FCN1得到3维分数向量,再经过sigmod函数和normalization得到质量分数。
FCN1层具体参数如下:
在这里插入图片描述
期间,和FC2层得到的空间特征进行聚合,最终形成空间特征。
公式如下:
在这里插入图片描述
在这里插入图片描述

2.FRAME-AWARE ATTENTION

空间特征经常受到视点变化的挑战。在这一节中,我们建议集中更可靠的时间特征帮助基于视频的Re-ID。
我们引入递归神经网络(LSTM)来分别学习图像序列的时间特征。同时,一定序列的帧对时间特征提取也有不同的意义。
如图1所示,由于时间特征主要包含
步态等周期性信息
,理论上不存在腿部或手部杂波的图像可以提供更稳定的时间信息,因此这些图像需要给予更多的关注。在这些观察的刺激下,我们提出了框架意识注意模块来获得注意的时间特征。
帧意识注意的原理图也如图2所示。JAFN中的LSTM接收CNN输出的特征向量,用于对视频序列内的前路图像进行特征积累。
LSTM的输入是在CNN之后得到的特征向量,LSTM在person序列内学习长期依赖关系,长时间记忆信息。可以用如下公式表示:
在这里插入图片描述在这里插入图片描述

3.RESIDUAL LEARNING MECHANISM

残差学习机制:
对于JAFN,使用孪生网络、三元损失、softmax损失来优化,充分利用标签信息,把正样本推到一起,负样本推到一起。
对于孪生网络和三元损失,都是把图像分成对,然后告诉样本为正还是负。在我们的例子中,正样本包含三个sequences,即“anchor”、“positive”、‘negative’,‘anchor’和“positive”来自不同摄像机下相同的人,‘negative’来自随机摄像机下不同的人。
公式如下:

在这里插入图片描述

4.DATA BALANCE

为了进一步提高JAFN模型的性能,我们提出进行数据平衡,以缓解身份之间存在的数据不均衡问题。
在person Re-ID任务,大多数图像都会集中于某几个类,而少数的图像属于其他的数据集。这给学习算法带来了困难,因为它们将偏向于大多数群体。为了缓解这种不协调,我们建议在原始图像的基础上平衡其身份分布。
我们基于自身对原始数据集进行放大,使数据分布均衡,即每个身份包含相同的人物图像。具体来说,对于一个包含N个身份的数据集D,其中person i包含pi图像,我们找到最大的数字p来设置目标扩展数,然后通过复制原始图像来弥补某些行人的不足序列。

结果

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_37747189/article/details/110109638
今日推荐