目录
本文只对行人重识别的各个方向进行大致梳理,不涉及或只简要概括算法。
1 概述
行人重识别(以下简称reid)问题是在没有重叠场景的摄像机拍摄画面下,对目标行人进行检索。
现阶段的reid问题主要分为两大类:closed-world和open-world。说人话就是,closed-world重在研究,主要是从一大堆行人的bounding box图片中去检索目标行人,而open-world重在“落地”,主要是直接从视频中去检索目标行人,或者是偏向无监督、弱监督学习。以下是两个world的具体区别。
1.1 Query和Gallery
在了解reid之前,我们需要知道什么是Query和Gallery。Query其实就是目标行人(person of interest),而Gallery就是检索的库,也就是一大堆行人的照片或者视频。
宽泛地讲,Query和Gallery的形式有很多种,Query可以是一个行人的bounding box(照片)(一张或多张),也可以是一段视频,但是无论是图片还是视频,画面中一定只能有一个人例如:(图片取自Market-1501)
Gallery可以是从一整张画面截取的每个行人的bounding box,也可以是一段视频,例如:(图片取自Market-1501)
1.2 难点
reid最主要的难点就在于:
- Gallery中同一个行人照片的视角不一样
- 光照条件不一样
- 行人在照片中的尺寸很小,也就导致了行人的bounding box像素很低
- 行人的姿势不一样
- 可能存在遮挡
- ...
而对于现实的“落地”,难点就更多了:
- 摄像机可能在不断增加,拍摄的场景也就更加复杂
- Gallery十分巨大
- 训练时可能不存在标注的信息(也就是需要无监督或者弱监督学习)
- 对网络的泛化能力要求很高(跨域)
- testing环节是未知的
- 行人可能换衣服了
- ...
1.3 总体步骤
看图吧,懒得废话了。
2 Closed-world Re-ID
2.1 表征学习
表征学习主要是研究如何提取一个行人的特征。主要有以下几种方法:
- 全局表征学习
- 局部表征学习
- 辅助表征学习
- 基于视频的表征学习
- ...
直观的对比可以看下面这张图:
全局表征学习:直接将行人图片送入卷积神经网络去提取特征,这对主干网络的精度要求很高。此外文章还着重介绍了注意力机制在这里的作用。
局部表征学习:将行人的图片进行分块,使用网络对每一块抽取特征,最后将所有局部特征结合起来。
辅助表征学习:在网络中加入一些辅助性的元素,比如可以加入一些描述行人外观视角的文字,或者加入一些Domain的描述,或者加入一张使用GAN网络生成的图片。这样做可以加强网络的精度。
基于视频的表征学习:对网络输入一系列的图片,对每个图片抽取特征,最后合成一个总特征。
此外,文章还着重讲述了网络结构设计的重要性。
2.2 度量学习
现阶段的度量学习主要是设计不同的损失函数,以及如何设计训练网络的策略。
损失函数主要有:identity loss, Verification loss, triplet loss, OIM loss,前三个损失函数的示意图如下:
在训练策略方面,着重解决以下几个问题:
- 行人(ID)的数量过多,需要在训练的每个batch中尽量多地选择ID进行训练。
- 对于每个ID,正样本数远远少于负样本数。
2.3 排序优化
先来讲一下什么是排序(rank),在网络的预测阶段,需要对Gallery中的图片进行排序,排序越靠前的就是和Query越相似的,排序优化顾名思义就是优化排序这一阶段。
优化的主要方法有:re-ranking, rank-fusion...
2.4 数据集以及衡量指标
- 数据集如图
- 衡量指标主要有CMC, mAP等,本文提出了另外一个指标mINP
3 Open-world Re-ID
3.1 复杂的Re-ID
这一部分主要讲述一些复杂情况下的reid,主要包括:
- 在深度图和普通的RGB图下进行reid
- 根据文字信息进行reid,比如给出一些行人的描述性文字,再进行reid
- 基于红外线的reid
- 跨分辨率下的reid
3.2 端到端的Re-ID
端到端的意思就是,根据原始的视频信息去进行reid,直接返回目标ID在视频中的位置,这也更加贴近reid真实的应用。
3.3 半监督和无监督Re-ID
主要是如何进行聚类。
3.4 对噪声更加鲁棒的Re-ID
噪声主要是以下几个方面:
- 物理的遮挡
- 数据集采样的噪声,比如:没有框住行人、只框住了行人的一部分等
- 数据集标注的噪声,比如这个人原本是A,但是标注成了B
由于现在reid的数据集越来越多,越来越大,很多数据集不可能进行手工标注,所以很容易产生以上问题。文章这里就参数了如何解决这些问题。
4 展望
本部分作者主要提出了一种新的衡量模型好坏的标准mINP,以及提出了一个新的baseline,可以用于单模态(single-modality)以及跨模态(cross-modality)下的reid。
另外,本部分还讨论了一些当下研究的热点问题,比如域自适应、部署等。