19 CVPR之ReID:Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

目前的问题:
由于RGB-IV的ReID任务中,除了视点变化、姿态变化和变形所造成的人的外貌差异外,还有由于光谱相机成像过程的不同而产生的额外模态差异,以前的方法尝试使用特征级约束同时减少外观和模态差异。然而,仅使用特征级约束很难消除混合的差异。
从左图可以看见跨模态的差异比同模态差异大,右图说明了跨模态问题要比同一模态问题复杂的多。
在这里插入图片描述
由于它们是以不同的方式拍摄的,因此红外图像和可见光图像有着截然不同的外观。因此,将它们直接映射到特征空间是无效的。为了解决这一问题,本文提出了一种新的双级差分约简学习方法。为了减小模态差异,训练了一个像级子网络将红外图像转换为可见光图像。利用图像级子网络,可以统一不同形态图像的表示。在统一多光谱图像的帮助下,训练一个特征级的子网络,通过特征嵌入来减少剩余的外观差异。通过串联这两个子网络并对它们进行联合训练,从而消除模态差异。
在这里插入图片描述

网络框架及loss:
本文框架主要采取两步:1)图像级差异减小子网络TI用于减小模态差异;(2)特征级差异减小子网络TF用于减小外观差异。这两个子网络以端到端方式级联。
在这里插入图片描述
1.Image-level discrepancy reduction —TI
TI使用了两个变分自编码器(VAEs)来进行模态融合,然后使用两个GANs来进行域特定的图像生成。TI将可见(红外)图像x (y)翻译为红外(可见的)对应ˆx(ˆy)。在一起,他们形成了多光谱图像[x,ˆx](或[ˆy, y])提供一个统一的表示以减少形态差异。
其中,
1.1.Style disentanglement部分为两对编码解码器,每一个编码解码器的loss函数为:
在这里插入图片描述
该loss中,λ0和λ1为超参数,将KL散度和l1范数加权,弥补了图像和重建图像之间的不一致性,也使得输出图像可以更加清晰。
1.2.Domain specific image generation部分由两个GAN网络组成,loss函数为:
在这里插入图片描述
这种损失被用来增强翻译后的图像在可见域内的相似性。
1.3.Cycle-consistency:利用CycleGAN中的思路,将图像风格迁移前后进行一致性检验,其loss函数为:
在这里插入图片描述
使得输出的图像经过一个你生成器可以生成一个与原输入图像尽可能一致的图像。
1.4.Modality unificatio:模态统一有三种可能的选择,即将图像与红外模态、可见光模态或多光谱模态统一起来。其中框架中链接TI和TF的部分为多光谱图像组成的unified space。
1.5.Object function:总loss为:
在这里插入图片描述
2.Feature-level discrepancy reduction —TF Since
TI将所有的图像统一到相同的模态,并使用TI生成一个样本集S。在TF模块中,使用ResNet-50作为F的骨干网络,提取由S作为输入得来的特征,输出到FC-1024层,再经过BN,ReLU,Dropout将FC-1024层的输出f反馈给两个独立的FC层Ht和Hc,用两个loss函数作为训练:一种是用于身份信息学习的三重损失,另一种是用于相似性学习的交叉熵损失:
Triplet loss:
在这里插入图片描述
Cross-entropy loss:
在这里插入图片描述
Objective for training:
在这里插入图片描述
3.End-to-end joint training
我们以端到端方式优化我们的网络,方法是将TI和TF级联,并最小化总损失:
在这里插入图片描述
其中r为权重参数,01。下图为在RegDB数据集中权重r的不同取值对mAP和CMC评价指标的影响。
在这里插入图片描述
实验:
数据集选用 RegDB and SYSU-MM01
RegDB:共有412个任务ID。每个人有10张可见光图像和10张远红外图像,一般用于训练,一般用于测试。
SYSU-MM01:491和人物ID,296个用于训练,99个用于验证,96个用于测试,287,628 RGB images and 15,792 IR images。

下图为对不同方法及消融实验的性能比较:
在这里插入图片描述
在这里插入图片描述
下图为实例分析,其中每个数据集的4幅图,从左到右依次是,原始的RGB图像,由原始RGB图像生成的红外图像,原始的红外图像,由原始红外图像生成的RGB图像。
在这里插入图片描述

发布了57 篇原创文章 · 获赞 8 · 访问量 3227

猜你喜欢

转载自blog.csdn.net/qq_41967539/article/details/104168227