行人重识别-姿态检测

行人重识别-姿态检测

前言

从抽取图像特征进行分类, 行人重识别的方法可以分为基于全局特征 (Global feature) 和基于局部特征 (Local feature) 的方法. 全局特征比较简单,是指让网络对整幅图像提取一个特征, 这个特征不考虑一些局部信息. 正常的卷积网络提取的都是全局特征。
然而, 随着行人数据集越来越复杂, 仅仅使用全局特征并不能达到性能要求, 因此提取更加复杂的局部特征成为一个研究热点.
局部特征是指让手动或者自动地让网络去关注关键的局部区域, 然后提取这些区域的局部特征. 常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及行人前景分割等等.

全局特征

每一张行人图片的全局信息进行一个特征抽取,这个全局特征没有任何的空间信息
在这里插入图片描述通过简单的卷积神经网络,得到关于图片的一个特征,这种特征被称为全局特征,但这种方法存在某些缺陷,比如噪声区域会对全局特征造成极大的干扰,姿态的不对齐也会使得全局特征无法匹配。

基于局部特征的检测方法

局部特征是指对图像中的某一个区域进行特征提取,最后将多个局部特征融合起来作为最终特征。
在这里插入图片描述

局部特征-姿态检测

利用人体姿态关键点进行局部特征对齐是一种常见的方法。现在的一些论文大都是利用一些先验知识(预处理的人体姿态和骨架关键点模型)将行人进行对齐,然后对局部特征进行检测再判断的。
在这里插入图片描述通常一个行人会定义14个姿态点(pose/keypoint),两个相邻的姿态点相连形成骨架(skeleton)。
常用的姿态点估计模型包括:Hourglass、OpenPose、CPM、AlphaPose。

相关算法

1.PIE

Pose Invariant Embedding for Deep Person Re-identification
上面提到的这篇文章是姿态检测早期的文章,主要工作大致如下:
在这里插入图片描述采用CPM进行关键点的采集。CPM是一个顺序卷积体系结构,可以检测到14个身体关节,即头部、颈部,左肩和右肩,左肘和右肘,左肘和右肘右手腕,左右臀部,左右膝盖,还有左右脚踝,如上图中第一列到第二列。
在这里插入图片描述将图片分成几个part,并进行仿射变换对齐,得到矩形区域,这样可以解决不同图片中相同部位大小姿势不同的问题,如上图中第三列,第四列:
在这里插入图片描述融合原图和仿射图特征,并采用ID损失训练网络:
在这里插入图片描述如上图,原始图像和poseBox先经过两个权重不共享的卷积神经网络,分别得到各自的特征,然后再结合一个14维的姿势置信度得分一起输入PIE网络,融合相应的特征,对应得到的最后三个损失从上到下分别为全局loss,融合loss,局部loss。

2.Spindle Net

Spindle Net: Person Re-identification with Human Body Region GuidedFeature Decomposition and Fusion
这是一篇比较经典的利用姿态点进行行人重识别的论文,如下图所示,首先通过骨架关键点提取的网络提取14哥人体关键点。这些关键点提取7个人体结构的ROI,对应头、上半身、下半身、左臂、右臂、左腿、右腿。
在这里插入图片描述然后将这7个ROI区域和原始图片进入同一个CNN网络提取特征,原始图片经过完整的CNN网络得到一个全局特征,三个大区域经过FEN-C2和FEN-C3子网络得到三个局部特征,四个四肢区域经过FEN-C3子网络得到四个局部特征。之后这8个特征按照图示方式在不同尺度进行连接,最后得到一个融合全局特征和多个尺度局部特征的行人重识别的特征。

在这里插入图片描述

3.PDC

Pose-driven Deep Convolutional Model for Person Re-identification
和上面的栗子不同,PDC的作者在对行人进行提取关键点时,虽然也是提取了14个关键点,却将行人划分为了6个part在这里插入图片描述并采用改进的PTN网络来对仿射变换的参数进行学习,并将它们自动放在图中的某些位置,这里允许不同的部位之间存在空隙,
在这里插入图片描述在得到局部图像之后就可以对原图和姿态图分别进行特征抽取,浅层共享网络,深层不共享的方式,训练网络,最后得到类似上面的效果,全局loss、局部loss以及融合loss。

在这里插入图片描述

4.GLAD

GLAD: Global-Local-Alignment Descriptor for Pedestrian Retrieval
GLAD是将人体划分为头、上身、下半身三个part在这里插入图片描述然后通过一个可以共享权重的网络分别计算loss,最后将得到的特征进行了拼接,得到:在这里插入图片描述

在这里插入图片描述

5.PABP

Part-Aligned Bilinear Representations for Person Re-identification
从像素级别讨论问题,利用ReID网络提取feature map A,利用openpose提取feature map P,A和P每个对应像素位置的向量进行外积,并向量化。在这里插入图片描述

总结

  • 利用一个姿态估计模型得到行人的(14个)关键姿态点
  • 根据姿态点得到具有语义信息的part区域
  • 对于每个part区域提取局部特征
  • 联合局部特征和全局特征往往能够得到更好的结果

猜你喜欢

转载自blog.csdn.net/qq_37747189/article/details/109670946