行人重识别综述“Deep Learning for Person Re-identification: A Survey and Outlook“

原文链接

目录

1 概述

1.1 Query和Gallery

​1.2 难点 

1.3 总体步骤

 2 Closed-world Re-ID

2.1 表征学习

2.2 度量学习

2.3 排序优化

2.4 数据集以及衡量指标

3 Open-world Re-ID

3.1 复杂的Re-ID

3.2 端到端的Re-ID

3.3 半监督和无监督Re-ID

3.4 对噪声更加鲁棒的Re-ID

4 展望


本文只对行人重识别的各个方向进行大致梳理,不涉及或只简要概括算法。

1 概述

        行人重识别(以下简称reid)问题是在没有重叠场景的摄像机拍摄画面下,对目标行人进行检索。

        现阶段的reid问题主要分为两大类:closed-world和open-world。说人话就是,closed-world重在研究,主要是从一大堆行人的bounding box图片中去检索目标行人,而open-world重在“落地”,主要是直接从视频中去检索目标行人,或者是偏向无监督、弱监督学习。以下是两个world的具体区别。

1.1 Query和Gallery

        在了解reid之前,我们需要知道什么是Query和Gallery。Query其实就是目标行人(person of interest),而Gallery就是检索的库,也就是一大堆行人的照片或者视频。

        宽泛地讲,Query和Gallery的形式有很多种,Query可以是一个行人的bounding box(照片)(一张或多张),也可以是一段视频,但是无论是图片还是视频,画面中一定只能有一个人例如:(图片取自Market-1501)

Gallery可以是从一整张画面截取的每个行人的bounding box,也可以是一段视频,例如:(图片取自Market-1501)

1.2 难点 

reid最主要的难点就在于:

  • Gallery中同一个行人照片的视角不一样
  • 光照条件不一样
  • 行人在照片中的尺寸很小,也就导致了行人的bounding box像素很低
  • 行人的姿势不一样
  • 可能存在遮挡
  • ...

而对于现实的“落地”,难点就更多了:

  • 摄像机可能在不断增加,拍摄的场景也就更加复杂
  • Gallery十分巨大
  • 训练时可能不存在标注的信息(也就是需要无监督或者弱监督学习)
  • 对网络的泛化能力要求很高(跨域)
  • testing环节是未知的
  • 行人可能换衣服了
  • ...

1.3 总体步骤

看图吧,懒得废话了。

 2 Closed-world Re-ID

2.1 表征学习

        表征学习主要是研究如何提取一个行人的特征。主要有以下几种方法:

  • 全局表征学习
  • 局部表征学习
  • 辅助表征学习
  • 基于视频的表征学习
  • ...

        直观的对比可以看下面这张图:

 全局表征学习:直接将行人图片送入卷积神经网络去提取特征,这对主干网络的精度要求很高。此外文章还着重介绍了注意力机制在这里的作用。

局部表征学习:将行人的图片进行分块,使用网络对每一块抽取特征,最后将所有局部特征结合起来。

辅助表征学习:在网络中加入一些辅助性的元素,比如可以加入一些描述行人外观视角的文字,或者加入一些Domain的描述,或者加入一张使用GAN网络生成的图片。这样做可以加强网络的精度。

基于视频的表征学习:对网络输入一系列的图片,对每个图片抽取特征,最后合成一个总特征。

此外,文章还着重讲述了网络结构设计的重要性。

2.2 度量学习

        现阶段的度量学习主要是设计不同的损失函数,以及如何设计训练网络的策略。

        损失函数主要有:identity loss, Verification loss, triplet loss, OIM loss,前三个损失函数的示意图如下:

        在训练策略方面,着重解决以下几个问题:

  • 行人(ID)的数量过多,需要在训练的每个batch中尽量多地选择ID进行训练。
  • 对于每个ID,正样本数远远少于负样本数。

2.3 排序优化

        先来讲一下什么是排序(rank),在网络的预测阶段,需要对Gallery中的图片进行排序,排序越靠前的就是和Query越相似的,排序优化顾名思义就是优化排序这一阶段。

        优化的主要方法有:re-ranking, rank-fusion...

2.4 数据集以及衡量指标

  • 数据集如图

  •  衡量指标主要有CMC, mAP等,本文提出了另外一个指标mINP

3 Open-world Re-ID

3.1 复杂的Re-ID

        这一部分主要讲述一些复杂情况下的reid,主要包括:

  • 在深度图和普通的RGB图下进行reid
  • 根据文字信息进行reid,比如给出一些行人的描述性文字,再进行reid
  • 基于红外线的reid
  • 跨分辨率下的reid

3.2 端到端的Re-ID

        端到端的意思就是,根据原始的视频信息去进行reid,直接返回目标ID在视频中的位置,这也更加贴近reid真实的应用。

3.3 半监督和无监督Re-ID

        主要是如何进行聚类。

3.4 对噪声更加鲁棒的Re-ID

        噪声主要是以下几个方面:

  • 物理的遮挡
  • 数据集采样的噪声,比如:没有框住行人、只框住了行人的一部分等
  • 数据集标注的噪声,比如这个人原本是A,但是标注成了B

由于现在reid的数据集越来越多,越来越大,很多数据集不可能进行手工标注,所以很容易产生以上问题。文章这里就参数了如何解决这些问题。

4 展望

        本部分作者主要提出了一种新的衡量模型好坏的标准mINP,以及提出了一个新的baseline,可以用于单模态(single-modality)以及跨模态(cross-modality)下的reid。

        另外,本部分还讨论了一些当下研究的热点问题,比如域自适应、部署等。

猜你喜欢

转载自blog.csdn.net/fuss1207/article/details/123500362