基于双阶段度量学习的跨模态行人再识别
摘要:
由于从可见光和热成像摄像头采集而来的图像风格迥异,跨模态行人再识别面临着巨大挑战。目前的深度学习方法,大都利用度量学习来获取区分性特征。然而,现有的度量学习是基于批处理样本执行的,解决方案是局部最优,因此并不尽如人意。为了实现全局性学习,我们提出了一种双阶段度量学习的手段(TML),成功实现局部和全局的度量学习。在第一阶段,通过在小批量上利用三元组损失(triplet loss),实现局部的度量学习。这里提出了一种新的混合模态三元组损失,用以训练更多的三元组样本。因此,第一阶段将监督学习出更有效的特征,输出至下一阶段。而第二阶段要完成的工作,即在全部训练图像的特征上进行全局度量学习。在针对SYSU-MM01数据集的实验中,我们的TML方法达到了39.75%的Rank-1和42.73%的mAP,实现了优于当前最佳方法的效果。
一、引言
对于全天候的监控应用,基于可见光和热成像图像的跨模态行人再识别有着重要的研究价值。从可见光图像库中,找到我们想要的红外图像,我们在当前的行人再识别系统中很难实现[1,2]。由于反映不同的色彩光谱,从热成像摄像头和可见光摄像头中采集的图像风格迥异。当前,关于跨模态行人再识别的研究[1-7]少之又少,而且其性能与单可见光模态的行人再识别研究[8-10]相比,仍有较大差距。
当下而言,关于跨模态行人再识别的方法通常是利用双流卷积神经网络[2,4-7]提取可见光和红外图像的高层次语义特征,然后利用一个或多个参数共享的全连接网络,将图像特征映射到一个公共的特征空间中,进而实现度量学习。三元组损失[11]广泛应用于以上诸多方法中,充当度量损失的角色,其目的也就是增大类间特征的距离和缩小类内特征的距离。三元组损失有效提高了跨模态行人再识别[4-7]的性能。然而,三元组损失常常用于批量样本,并非基于所有样本,因而未能实现整体性的优化。由于大规模的参数和大规模的训练样本,也不可能对所有样本进行全局的度量学习。
为了解决小批量三元组损失带来的局部最优问题,针对卷积神经网络(CNN)所提取的所有训练样本的特征,我们进行了全局度量学习。全局度量学习在一定程度上缓解了局部最优解问题。CNN提取的特征通常是一个向量,比原始图像小得多,而且对所有图像的特征进行训练是可行的。基于以上考虑,我们提出了一个双阶段度量学习(TML)方法。TML的第一阶段是利用三元组损失学习局部最优特征,其次,通过跨模态判别分析,在第二阶段学习全局最优特征。该双阶段方法可以在现有方法的基础上增加1-2%的mAP和Rank-1。
此外,为了将两个阶段的度量学习结合起来,从第一阶段学到的特征应该提供最佳的效果,以有效满足第二阶段跨模态判别分析的假设。事实上,我们发现可用于第一阶段的现有方法,通常是基于模态内和模态间的三元组损失。然而,很多有效的三元组样本在小批量学习中会被漏掉。为此,提出了一种新的混合模态三元组损失,以训练更多有效的三模态样本。进而以此提供更好的特征来满足第二阶段的假设。
- 双阶段度量学习
本文中提出的度量学习包括两个阶段,因此我们称之为双阶段度量学习(TML)。通过双阶段的度量学习,我们可成功得到跨模态的特征表示。以下即为对TML的详细介绍:
2.1 架构
TML包括两部分:一个基于批训练样本的批度量学习阶段和一个基于所有训练样本的整体度量学习阶段。在第一阶段,一个基于深度卷积神经网络的三元组损失会被用来提取行人图像的特征。深度卷积神经网络常常会用随机梯度下降的方式进行优化,因为优化算法在批样本上迭代执行的,所以结果得到的常常是一个次优解。由于第一阶段得到的并非全局最优解,因而第二个度量学习阶段将针对所有训练样本。在第二阶段,从深度卷积网络中提取所有训练图像的特征,然后根据所有训练图像的特征及其标签标注,学习一个映射矩阵和一个核矩阵。
2.1.1 阶段一
由于可见光图像和热成像图像的模态差异,研究人员通常建立两个独立的网络来分别提取图像的特征。根据前人的经验,我们采用了类似的深卷积网络架构,如图1所示。
图 1 阶段一的骨干网络架构
我们将ResNet-50网络[12]作为骨干网络,进而为可见光和热成像图像搭建两个子网络。这两个子网络具有相同的结构以及各自独立的参数。为了提取特征,ResNet-50的stage-5的第三个Bottleneck的输出首先被传递到一个全局平均池化(GAP)层。这个GAP层的输出即为2048维的特征。为了将可见光和热成像图像的特征映射进同一度量空间,提取出来的特征随之将被送入一个参数共享的全连接层(FC1)和一个批标准化层(BN)。全连接层FC1没有改变特征维度,因此2048维的特征会被批标准化层BN进行标准化处理。BN层对特征进行单位L2范数标准化。
为了训练深度卷积网络,使用另一个具有共享参数的全连接层(FC2)层将特征映射到身份的数量。FC2层的输出由标记平滑的softmax损失(label-smoothed softmax loss)[13]进行监督。BN层的输出由我们提出的混合模态三元组损失(mix-modality triplet loss)来监督。这两种损失结合起来监督整个网络的学习。注意,label-smoothed softmax loss可以获得更好的泛化性能。在跨模态行人再识别的研究中,我们发现现有的三元组损失在批处理训练中会遗漏了许多有效的三元组样本。因此,我们提出了一个新的混合模态三元组损失,其细节可见第3.2节。
为了利用深度卷积网络进行预测,可以通过不同的可见光和热成像子网络提取特征。送进一个可见光图像,将会从可见光子网络的BN层提取输出一个2048维的特征向量。同样的,送进一个热成像图像,将会从热成像子网络的BN层提取输出特征向量。
2.1.2 阶段二
该度量学习的第一阶段是基于批处理样本进行的特征提取,其结果是次优的。为解决第一阶段的不足,第二阶段根据第一阶段提取的所有训练图像的特征进行整体度量学习。关于此学习阶段,其工作流程如图2所示。
图 2 阶段二以及测试的流程图
首先,训练特征由热成像图像(query)和可见光图像(gallery)的子网络分别提取所得。然后通过全局度量学习得到映射矩阵W和核矩阵M。利用矩阵W对特征进行降维,矩阵M用于计算两个特征之间的距离。这个过程基于所有的训练特征,故可以实现全局度量学习的有效学习。其细节可见第3.3小节。
2.1.3 预测
经过以上两个阶段,整个学习过程就完成了。在测试阶段,给出query(热成像图像)和gallery(可见光图像),可见光和热成像图像会被送进可见光和热成像的子网络,从而在BN层输出要提取的2048维特征向量。然后,提取出的特征向量会经过一个映射矩阵W被降维到低维空间,然后利用核矩阵M计算query特征与gallery特征之间的马氏距离。可以通过对每个查询的距离进行排序来实现评测。
注意,映射矩阵W可以被用来对特征进行降维。实际上,矩阵W会将2048维的特征向量降低到72维。对于大型的图库,这种降维方法可以有效地降低特征存储和距离计算的成本。
2.2 批处理混合三元组学习
在当前的跨模态行人再识别方法中,研究人员常常采用度量学习的方法来指导特征提取。在这些方法中,三元组损失是老生常谈的一个。模态间的三元组损失和模态内的三元组损失被广泛利用并且性能良好[4,6,7]。然而,在小批量度量学习中,模态间的三元组损失和模态内的三元组损失并非尽善尽美。如图3(a)所示,P和N是由模态内三元组构成的样本,它们与A具有相同的模态。图3 (b)中,P和N是由跨模态三元组构成的例子,但它们与A的模态不同。在这两种情况下,P和N的模态相同,省略了P和N属于不同模态的情况。在图3(c)中,A与N的模态相同,与P的模态不同。相同模态的A和N之间的距离小于跨模态的A和P之间的距离,这种情况更加普遍。
图 3 不同的三元组损失
因此,我们提出了混合模态三元组损失,它将两种模态的特征混合在一起,从而找到一个三元组。为了构造三元组样本,在每次迭代中,随机选取P个行人ID,然后随机选取每个行人ID的K个可见光图像和K个热成像图像,形成一个小批次。这样以来,每个小批次就会一共包含2PK张图像。该损失函数如以下所示:
在这里, 转存失败重新上传取消, 转存失败重新上传取消 和 转存失败重新上传取消 分别指从混合可见光和热成像的混合样本批次里选出的锚点样本,正样本及负样本所提取的特征。
以上提出的混合模态三元组损失由难样本三元组计算得出。难样本由所有可能的样本构成。即 转存失败重新上传取消 是小批次里的任意样本, 正样本 转存失败重新上传取消 选自具有相同行人ID的可见光和红外图像,而负样本 转存失败重新上传取消 选自具有不同行人ID的可见光和红外图像。因此,这个混合模态三元组损失提供了一个更有效的测量手段。混合模态三元组损失克服了现有跨模态三元组损失和模态内三元组损失组合度量学习的不足。
2.3 整体跨模态度量学习
在第一阶段,由于批量输入样本和随机梯度下降算法,混合模态三元组度量学习不能获取全局最优解。所以,基于第一阶段从所有样本中提取得到的特征,我们在此采用了XQDA[14]。第一阶段之后,相似的样本相对集中,容易归类。同一ID行人的特征服从高斯分布,且远离不同行人ID的特征。根据贝叶斯理论,我们假设类内样本的差值和类间样本的差值服从两个高斯分布。经过均值为0的标准化之后,类内样本之间的差值应该小于类间样本之间的差值。
对BN层特征提取后进行L2标准化处理,上述度量学习方法用于度量矩阵M和W的学习。为了计算query和gallery图像之间的距离,我们首先从每一张测试图像中提取出2048维的特征向量,然后利用映射矩阵W将特征维度降至72。最后,我们利用核矩阵M计算query和gallery之间的马氏距离。如图2所示。
- 实验
3.1 实现细节
在训练阶段,我们同时使用标签平滑的softmax损失和混合模态的三元组损失实现优化过程。为了进行训练样本的增广,首先将训练样本的大小置为320*176,然后将其随机裁剪为288*144。与此同时,也采用了水平翻转和随机擦除策略。在优化过程中,采用了‘Adam’[15]。
在测试阶段,测试图像被直接重置为288*144作为输入,然后再BN层提取出2048维的特征向量。然后利用映射矩阵W将特征维度降至72。最后,我们利用核矩阵M计算query和gallery之间的马氏距离。
3.2 数据集及评价指标
SYSU-MM01是一个大规模的跨模态行人再识别数据集。该数据集中的图像采集自4个可见光摄像头和两个热成像摄像头,一共具有关于491个行人的29003张可见光图像和15712张热成像图像。其中,395人的22258张可见光图像和11909张热成像图像被用作训练,96人的图像被用作测试。在测试过程中,query集包括3803张热成像图像,而gallery集是从来自不同相机的每个行人图像中随机采样的一个样本。以上设置是广泛使用的单镜头全搜索模型的评估标准,这是因为这种方式是[1]中所提及的最难情况。
对于给定的查询图像,通过计算来自查询图像和图库图像的特征之间的距离来进行匹配。注意,匹配是在不同位置的摄像机之间进行的。这意味着来自相机3的查询图像将跳过相机2的图库图像,因为相机2和3位于相同的位置。我们可以根据距离的升序得到一个排序列表。此跨模态行人重识别任务将累积匹配特征值(CMC)与平均精度均值(mAP)进行评价。由于gallery集是随机构建的,所以将上述评价重复100次,并报告平均性能。
3.3 结果和分析
3.3.1 与当前最优方法的比较
我们将TML和当前最优方法进行比较,这些方法包括特征学习方法和度量学习方法。对比的方法包括 Deep Zero-Padding [1], TONE [2], DCTR [4], HSME [6], cmGAN [3], D2RL [5], EDFL [7],在[4],[6]和[7]中使用模态内三元组损失和跨模态三元组损失。评价结果如表1所示。除了TONE+XQDA和TONE+HCML,现有的大多数方法都是单阶段学习。为了公平地比较它们,我们展示了从阶段1中提取的特征所得到的结果。我们把这个方法记为OML。从表1可以看出,我们的OML超过了所有已发布的方法。对于pre-print方法[7],我们的OML的mAP比它低,但是有更高的Rank-1。经过第二阶段的度量学习之后,提高了Rank-1和mAP,超越了现有的所有方法。
表 1 各方法在SYSU-MM01数据集上的表现
Methods |
Rank-1(%) |
Rank-10(%) |
Rank-20(%) |
mAP(%) |
One-stream(ICCV2017)[1] |
12.04 |
49.68 |
66.74 |
13.67 |
Two-stream(ICCV2017) [1] |
11.65 |
47.99 |
65.50 |
12.85 |
Deep Zero-Padding(ICCV2017) [1] |
14.80 |
54.12 |
71.33 |
15.95 |
TONE(AAAI2018) [2] |
12.52 |
50.72 |
68.69 |
14.42 |
TONE+XQDA(AAAI2018) [2] |
14.01 |
52.78 |
69.06 |
15.97 |
TONE+HCML(AAAI2018) [2] |
14.32 |
53.16 |
69.17 |
16.16 |
DCTR(BCTR) (IJCAI2018) [4] |
16.12 |
54.90 |
71.47 |
19.15 |
DCTR(BDTR)(IJCAI2018) [4] |
17.01 |
55.43 |
71.96 |
19.66 |
HSME(AAAI2019) [6] |
18.03 |
58.31 |
74.43 |
19.98 |
D-HSME(AAAI2019)[6] |
20.68 |
62.74 |
77.95 |
23.12 |
cmGAN(IJCAI2018) [3] |
26.97 |
67.51 |
80.56 |
27.80 |
D2RL(CVPR2019)[5] |
28.90 |
70.60 |
82.40 |
29.20 |
DMTL(ArXiv2019)[7] |
31.45 |
77.61 |
88.74 |
35.39 |
MFL(ArXiv2019)[7] |
32.91 |
77.95 |
88.97 |
35.17 |
EDFL(ArXiv2019)[7] |
36.94 |
84.52 |
93.22 |
40.77 |
our OML |
37.69 |
83.35 |
93.03 |
40.18 |
our TML |
39.75 |
84.64 |
93.46 |
42.73 |
3.3.2 成分分析
为了验证混合模态三元组损失的有效性,我们首先定义了六个方法,(a) 只有softmax loss的Baseline, (b) Baseline with IM, (c) Baseline with CM, (d) Baseline with IM and CM, (e) Baseline with IM and MM, (f) Baseline with MM.在这里IM表示模态内三元组损失,CM表示跨模态三元组损失,MM表示混合模态三元组损失。实验结果如表2所示。通过结果比较,我们可以发现:IM、CM、MM三者分别结合Baseline使用,皆可提高性能。其中IM的改善最小,MM的改善最大。然而,IM+CM和IM+MM的方法,都会降低Rank-1和mAP。其主要原因可能是度量学习中这两种损失在融合时产生了冲突。特别的,MM取得了最好的结果。
表 2 消融实验
Methods |
Rank-1(%) |
Rank-10(%) |
Rank-20(%) |
mAP(%) |
Baseline |
35.01 |
73.69 |
83.55 |
34.92 |
Baseline+IM |
35.34 |
80.15 |
90.51 |
37.15 |
Baseline+CM |
37.04 |
83.80 |
92.84 |
39.71 |
Baseline+IM+CM |
35.67 |
82.82 |
93.29 |
38.99 |
Baseline+IM+MM |
36.90 |
82.24 |
92.09 |
39.38 |
Baseline+MM (our OML) |
37.69 |
83.35 |
93.03 |
40.18 |
Baseline+MM+XGDA (our TML) |
39.75 |
84.64 |
93.46 |
42.73 |
为了检验第二阶段的有效性,我们将第二阶段应用于OML,结果如表2所示。从表中可以看出,TML得到了更好的结果。结果表明,两阶段度量学习能有效地提高性能。
- 结论
本论文提出了一种基于双阶段度量学习(TML)的方式用于跨模态行人再识别任务。TML成功地在两个阶段应用了局部和全局的度量学习。在第一阶段,提出了一个混合模态三元组损失,以此训练更加有效的三元组样本。在第二阶段,用跨模态判别分析方法实现全局度量学习。在公开数据集SYSU-MM01上,实验结果表明TML实现了39.75%的Rank-1和42.73%的mAP,其性能优于当前最佳的方法。
参考文献:
- Ancong Wu, Wei-Shi Zheng, Hong-Xing Yu, Shaogang Gong, Jianhuang Lai: RGB-Infrared Cross-Modality Person Re-identification. ICCV 2017: 5390-5399.
- Mang Ye, Xiangyuan Lan, Jiawei Li, Pong C. Yuen: Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification. AAAI 2018: 7501-7508.
- Pingyang Dai, Rongrong Ji, Haibin Wang, Qiong Wu, Yuyu Huang: Cross-Modality Person Re-Identification with Generative Adversarial Training. IJCAI 2018: 677-683.
- Mang Ye, Zheng Wang, Xiangyuan Lan, Pong C. Yuen: Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking. IJCAI 2018: 1092-1099.
- Zhixiang Wang, Zheng Wang, Yinqiang Zheng, Yung-Yu Chuang, Shin'ichi Satoh: Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification. CVPR 2019.
- Yi Hao, Nannan Wang, Jie Li, Xinbo Gao: HSME: Hypersphere Manifold Embedding for Visible Thermal Person Re-Identification. AAAI 2019: 8385-8392.
- Haijun Liu, Jian Cheng: Enhancing the Discriminative Feature Learning for Visible-Thermal Cross-Modality Person Re-Identification. CoRR abs/1907.09659 (2019).
- Cairong Zhao, Xuekuan Wang, Wangmeng Zuo, Fumin Shen, Ling Shao, Duoqian Miao: Similarity learning with joint transfer constraints for person re-identification. Pattern Recognition 97 (2020).
- Hui Tian, Xiang Zhang, Long Lan, Zhigang Luo: Person re-identification via adaptive verification loss. Neurocomputing 359: 93-101 (2019).
- Zhedong Zheng, Xiaodong Yang, Zhiding Yu, Liang Zheng, Yi Yang, Jan Kautz: Joint Discriminative and Generative Learning for Person Re-Identification. CVPR 2019: 2138-2147.
- Florian Schroff, Dmitry Kalenichenko, James Philbin: FaceNet: A unified embedding for face recognition and clustering. CVPR 2015: 815-823.
- Shengcai Liao, Yang Hu, Xiangyu Zhu, Stan Z. Li: Person re-identification by Local Maximal Occurrence representation and metric learning. CVPR 2015: 2197-2206
- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun: Deep Residual Learning for Image Recognition. CVPR 2016: 770-778.
- Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna: Rethinking the Inception Architecture for Computer Vision. CVPR 2016: 2818-2826.
- Diederik P. Kingma, Jimmy Ba: Adam: A Method for Stochastic Optimization. ICLR (Poster) 2015.