行人重识别(Person Re-idenfication,Person ReID)是判断图像或者视频序列中,是否存在特定行人的技术,也称跨境追踪技术。尽管人脸识别技术已经十分成熟,但在人群密集、监控摄像头分辨率低、拍摄角度较偏等情况下,人脸无法被有效识别。行人重识别变成了重要补充。
Multiple Granularity Network (MGN)是1个将全局信息和各粒度局部信息结合的端到端特征学习策略。
论文地址:https://arxiv.org/pdf/1804.01438
项目地址:https://github.com/GNAYUOHZ/ReID-MGN
目录
一.方法
1.网络结构
MGN的网络机构如下图所示。
输入图像尺寸:384*128,每个mini-batch选取P=16个人,每个人K=4张照片。
从resnet-50的res_conv4_2分为3个分支,提取全局和部分特征。
•global branch
在res_conv5_1中使用stride=2的卷积进行下采样,对得到的feature map采用global max pooling生成2048维的特征向量,并利用1*1的卷积压缩为256维的特征向量。
•Part-N Branch
Part-N Branch分支用于学习局部的特征表示,为了保留适合局部特征的感受野,没有使用下采样。通过在水平方向上均匀的将feature map划分为N块,并利用global max pooling和1*1卷积来得到对应的局部特征,N越大粒度越细。
Part-2 Branch分支中,N=2,可以理解为将行人分为上半身和下半身;Part-3 Branch分支中,N=3,可以理解为将行人分为上,中,下3个部分。
在测试的时候,将3个256维的全局特征向量和5个256维的局部特征向量concat起来得到的2048维向量作为行人的特征表示,用于相似性搜索。
2.Loss函数
将用于分类的softmax函数和用于度量学习的三元损失函数(triplet loss)用作训练过程中的损失函数。
二.实验
1.数据
Market-1501
在清华大学校园中采集,夏天拍摄,2015年构建并公开。包括由6个摄像头(5个高清摄像头和1个低清摄像头)拍摄到的1501个行人,32668个检测到的行人矩形框。每个行人至少由2个摄像头捕获到,并且在1个摄像头中存在多张图像。
训练集751人,包含12936张图像;
测试集750人,包含19732张图像,前缀0000表示在提取750人的过程中DPM检测错的图,-1表示检测出来其他人的图(不在这750人中);
3368张查询图像的行人检测矩形框是人工绘制的,而gallery中的行人检测矩形框是使用DPM检测器得到的。
(1)目录结构
(2)命名规则
以0001_c1s1_000151_01.jpg为例;
0001:表示每个人的标签编号,从0001到1501;
c1:表示第1个摄像头(camera1),共有6个摄像头;
s1:表示第1个录像片段(sequence1);
000151:表示c1s1的第000151帧图片,视频帧率为25fps;
01:表示c1s1_000151这1帧上的第1个检测框,由于采用DPM检测器,1帧上可能会框出好几个行人检测框bbox;00表示手工标注框。
DukeMTMC-reID
DukeMTMC-reID为DukeMTMC数据集的行人重识别子集。DukeMTMC-reID包含85分钟的高分辨率视频,采集来自8个不同的摄像头,并且提供了人工标注的bounding box。
从视频中每120帧采样1张图像,得到36411张图像。一共有1404个人出现在大于2个摄像头下,有408个人只出现在1个摄像头下。
随机采样702个人作为训练集,702个人作为测试集。在测试集中,采样每个摄像头下的1张照片作为查询图像(query),剩下的图像加入测试的搜索库(gallery),并且将之前的408人作为干扰项,也加到中gallery。
(1)目录结构
Bounding_box_test:17661张图像(随机采样,702ID+408 distractor ID)。
Bounding_box_train:16522张图像(随机采样)。
query:测试集中的702人在每个摄像头中随机选择1张图像作为query,共有2228张图像。
(2)命名规则
以0001_c2_f0046182.jpg为例。
0001:表示每个人的标签编号;
C2:表示来自第2个摄像头(camera2),共有8个摄像头;
f00461822:表示第46182帧。
CUHK03
图像采集于香港中文大学校园。数据已.mat文件格式存储,含有1467个不同的人物,由5对摄像头采集。
(1)目录结构
Detected:5*1 cells,由机器标注。每个cell中包含1对摄像头组采集的照片。每个摄像头组由M*10 cells组成,M为行人索引,前5列和后5列分别来自同一组的不同摄像头。cell内每个元素为1幅H*W*3的行人框图像(uint8数据类型),个别图像可能空缺,为空集。
labeled:5*1 cells,行人框由人工标注,格式及内容和Detected相同。
Testsets:20*1 cells,测试协议,由20个100*2 double 类型矩阵组成(重复20次)。100*2 double ,100行代表100个测试样本,第1列为摄像头pair索引,第2列为行人索引。
2.结果
Market-1501 | DukeMTMC-reID | CUHK03 |
![]() |
![]() |
![]() |