Coarse-Fine CNN Person re-id in camera sensor networks

特征提取,全局特征和两个分支的局部特征融合成为最终的特征

零 ABSTRACT

这篇论文,作者提出了一个新的深度模型,(CFCNN),同时联合了全局和部分特征的学习,提出的框架也是多分支的。一个Coarse 分支用来提取全局特征,两个Fine 分支用来提取局部级别的特征,并且大小都不一样(different scale),然后,每一个分支后边跟着分类损失。来做人物预测。最后融合三个特征,作为最后的特征。

壹 INSTRODUCTION

从整张图片上面提取特征,往往会导致忽略行人的细节信息,对于身材相似,衣服相似的人,导致辨别不出来是不是同一个人。细节的信息对于不同人物的辨别提供了很大的帮助。

目前一些论文直接把行人图片分为几个固定的部分,然后提取这些部分的特征,【20-21】另外,一些方法利用额外的信息来挖掘有意义的局部(姿态评估等)【22-23】,但是这些方法需要监督,也有可能带来错的精度。

这篇论文,提出的CFCNN有三个分支,分别学习全局和局部特征,每一个分支后边跟着classification loss 来增加辨别能力。
贡献:
(1) 一个深度模型,融合全局和局部特征
(2) 学习不同尺度的局部有利于辨别能力。

贰 RELATED WORK

A、 hand-crafted featrues

B 、deep featrues

叁 APPROACH

A 、THE STRUCTURE CFCNN

在这里插入图片描述

(1) BACKBONE NETWORK
CFCNN 可以用任何基于深度的网络作为主干网络,VGG[44] OR ResNET50[45],因为resnet的很好的特性并且简洁,这篇论文选择resnet50 作为主干网络。

(2)FROM BACKBONE TO CFCNN
本篇论文在resnet-50的结构上做了改变,移除了GAP以及后边的所有层(FC SOFTMAX),同时把Conv5_1的卷积步长设为1,这样可以得到大的空间尺寸,其他保持一样。如下图所示。
在这里插入图片描述
由修改后的resnet-50,我们得到了2048维度的tensor T,沿着通道方向定义列向量,对于全局特征来说,对tensor T 直接进行GAP,然后利用卷积层(1* 1* 256)降维,得到了global feature g 【R256*1】.

同时,我们利用Fine branch 进行局部特征的提取。

首先,CFcnn 把tensor T 划分成n1和n·2个水平条纹。
然后,利用局部水平平均池化所有同一个水平条纹的列向量得到一个单独的列向量。
再然后,对于所有的水平条纹(n1和n2个)我们应用卷积层(1* 1* 256)降维。,
最后,我们得到了两种不同尺度类型的局部特征。接下来
在这里插入图片描述
需要指出的是,为了得到不同尺度的局部特征,我们的n1和n2的值是不同的。
对于==每一个局部特征和全局特征,我们后边都分别跟着FC层和softmax function ==。

B 、LOSS FUNCTION

对于每一个特征后边的FC和softmax function ,我们使用交叉熵损失函数(cross-entropy)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
我们使用反向传播和随机梯度下降(SGD)算法更新CFCNN参数

C feature fusion

在测试阶段,我们得到了完整的图片描述符,通过连接全局和所有的局部特征
在这里插入图片描述
在这里插入图片描述

D Hyperparameters

(1) n1 = 3
n2 = 6

(2) 卷积层降维的时候 卷积核个数是 256

(3) 行人图片设置大小 180* 160 比例 3:1

(4)λ = u = 1

EXPERIMENTS(Result)

在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_37405118/article/details/105847809