读Video-Based ReID by Simultaneously Learning Intra-Video,Inter-Video metric

读SCI论文[Video-Based Person Re-Identification by Simultaneously Learning Intra-Video and Inter-Video Distance Metrics]

目录

预备知识

正文


预备知识

如下(一红一黑只是为了方便阅读):

fisher vector

https://www.cnblogs.com/jie-dcai/p/5740480.html

argmin函数多参数与min函数

https://blog.csdn.net/weijianmeng/article/details/7073134

压缩感知中的数学知识:稀疏、范数、符号arg min - 彬彬有礼的专栏 - CSDN博客  https://blog.csdn.net/jbb0523/article/details/40262629

机器学习中的范数规则化之(一)L0、L1与L2范数 - zouxy09的专栏 - CSDN博客  https://blog.csdn.net/zouxy09/article/details/24971995第二篇是24972869

[##原来看矢量的时候看过一点,本人并非数学专业,错了请轻喷。 
我的理解这货就是一函数,它给矢量一个长度值。 
比如二维欧几里德空间里面,用一个箭头表示矢量,对应范数就是这矢量的长度。 
然后他还有几个性质,WIKI上有,很好理解。 
学计算机的理解到这基本就够了,别的还是请数学系的来回答把##]来自豆瓣#范数是什么

范数对于数学的意义?1范数、2范数、无穷范数 - yangpan011的博客 - CSDN博客  https://blog.csdn.net/yangpan011/article/details/79461846

first-order statistics 一阶统计量

一阶就是期望,中位数等,二阶就是方差,二阶中心距,二阶原点距等,来自百度贴吧

exp()为e^x

对于一些机器学习的算法中为什么要加exp - 坤健的博客 - CSDN博客  https://blog.csdn.net/hsj1213522415/article/details/70500289

论文链接: https://pan.baidu.com/s/1MmlUne2tZsVtDRvxsTQ6Tw 提取码: aua9

这篇的word链接: https://pan.baidu.com/s/1CZInp6VtlvNdJv3ihcyQEQ 提取码: iwgg

先不更了2018-11-4 10:35:16

正文

K pedestrian videos中的一组 p维训练样本 记为X =[X1,...,X i,...,XK]

 代表一个行人video, 是一个行人video里的第i个sample set.

SI2DL的框架为,(1)

其中, 分别代表要学习的视频内与视频间距离度量,

是V和W中第i列向量

f(V,X)是视频内congregating term ,g(W,V,X)是视频间的discriminant term

µ is a balancing factor,是用来限制V和W 的scale的

为了把视频内的dist learning 结果直接用到视频间的度量学习中,这篇论文直接用了first-order statistics, which shows the在高维空间中sample set的 averaged position 来represent每个视频

对于feature set Xi, 用mi来表示它的first-order statistics , 且(2),

Denote by xij the jth sample in Xi.

所以, (3),N是X中的图片数量

(4)

D代表collection of video triplets,每个triplet包含一对matching的video和一个under V的错误的video

一个video triplet的结构可以定义一, |D|代表D中video triplets的数量,

是一个惩罚因子(penalty factor)

把(3)和(4)带入(1)中,可以得到目标函数:

(5)

度量V保证每个视频中的每个samples都离firstorder statistics够近,这样才能更好的represent每个视频,才能有利于video 间的度量W学习

此外,W是通过挖掘impostor video的信息,根据行人data的特性(characteristics)来的,所以有很好的区分能力(favorable discriminative ability)

定义一:(Video Triplet),根据video间距离V和视频Xi,Xj和Xk还有他们对应的first-order statistcs representations : mi,mj和mk.其中Xj是Xi的正确匹配,Xk是Xi的错误匹配.

如果,则说Xk是V下的Xi的impostor video,则Xi,Xj和Xk组成一个video triplet,用<I,j,k>来表示

3.2 The Optimization of SI2DL

The 目标函数(5) is not jointly convex to (V,W).为了更新V和W,作者引入两个变量:矩阵A和B,缓解目标函数(5)的如下问题:

 (6)

其中M1和M2是矩阵,他们对应列都分别是,<I,j,k>属于D

用来表征Frobenius norm ,那么我们就能通过迭代更新A,B,V,W解决(6)的问题,具体步骤如下:

  1. 通过修正V和W来更新A和B:

首先,应该初始化V和W,在这里,V通过解决(7)式来初始化

通过构建(constructe)Lagrange函数和设置偏差(derivative)为0, 我们得到

(8)

其中 (8).显然(8)式是一个特征分解(eigen-decomposition)的问题且容易解决,我们选择最小的K1特征值对应的特征向量(eigenvector),记为V.在初始化V后,我们通过解决(9)式来初始化W:

(9)

与(7)相似,这个问题可以通过特征分解(eigen-decomposition)来解决,最后,W被设置为最小的K2特征值对应的特征向量.

在V和W被修改后(fixed),A和B都能分别轻易地通过解决(10)和(11)来获得(obtained)

  1. 通过修正A,B和W来更新V

当A,B和W都被修正(fixed)后,关于(regarding)V的目标函数可以被写成

其中(13)

我们用一个类似于XXX([Gu et al.,2014],)的方法来优化(12),比如.

引入一个变量S: (14)

最佳解决(14)的办法can be obtained by the ADMM 算法:

其中P的初始值是零矩阵

3.通过修正A,B和V来更新W

通过修正A,B,V,关于(regarding)W的目标函数可以写成:

(16)

与(12)相似,问题(16)也可以用ADMM算法来解决,通过引如一个变量S.已发布(proposed)的SI2DL算法的总结在算法1

算法1: 视频间与视频间距离同步学习(SI2DL)

所需: 训练样本集X

保证: 已学习的距离度量V和W

1:通过(7)和(9)来分别初始化V和W

2:当没有收敛的时候(while not converge do):

3:修正V和W.通过(10)和(11)来分别更新A和B

4:根据(15)来修正A,B和W与更新V

5:通过(16)来修正A,B和V,更新W

       6.当中止的时候返回V和W

在PRID 2011数据集上的SI2DL收敛曲线:略

3.3Complexity and Convergence

在SI2DL的训练阶段,V和W一开始被初始化了,然后V和W被不断(alternatively)更新.

初始化V和W的时间复杂度分别为

在每次迭代, 都没变…略

3.4

Video-based Person Re-identification with the Learned Distance Metrics

通过已学习的视频内视频间距离度量(V,W),我们可以轻易地进行视频的ReID

是n个gallery行人视频里的中的一组p维样本,其中

是对应第i个gallery视频的样本集,且是Yi中的样本数量.

对应第i个待查找(probe)视频的样本集用来表示,其中ni是Zi中训练样本的数目.

来代表第j个样本.在Zi和Y间的具体的重识别步骤如下:

  1. 根据(17)式计算V和W下的Zi和各个gallery视频Yi first-order statistics representations
  2. (17)
  3. (2)计算要查找的视频和各个gallery视频的距离,用来计算

  4. (3)排序已经得到的距离,有着最小距离的gallery视频就是Zi中正确的匹配

4 Experimental Results

在iLIDS-VID [Wang et al., 2014] and PRID 2011[Hirzer et al.,2011].做了extensive 实验

4.1 Experimental Settings

Baselines.与state-of-the-art 基于视频的ReID方法比较,包括:略

特征提取:在实验中,我们运用了高效的特征,由xxx提供的,而是现存的基于视频行人ReID 最新work中的特征(提取).特别的,每个视频都由一个样本集来表征,每个样本作为一个从waling cycle抽取的fisher vector.

参数设定,在SI2DL模型中有三个参数,比如,在实验中,我们通过在每个数据集中5层(5-fold)交叉验证来选择这些参数.With respect to K1和K2,我们把他们设置为(2200,80) for iLIDS-VID… K1和K2的值选择会在4.4中讨论

Evaluation Settings,遵循xxx文章里的evaluation设定,特别的,作者把所有的sequence pairs随机分为两个相等大小的部分,一个用来训练一个用来测试.

然后我们通过测试集中第一个(first)摄像头来选择序列(sequences)用于组成查找(probe)集,

在另一个摄像头中的就作为gallery集. 我们运用了 the standard cumulated matching characteristics(CMC) curve 作为我们的评估(evaluation)度量, 并报告十次评估(trials)

前k名平均准确(macthing)率

4.2 Evaluation on the iLIDS-VID Dataset

4.3 Evaluation on the PRID2011 Dataset

4.4 Discussion

准确学习一堆距离度量还是仅一个?

我们的方法学习了一个视频内的度量和一个视频外的度量来分别解决视频内和视频间的变化问题.为了评估这样的方法的有效性,我们修改成只有一个距离度量的SI2DL来和两个的比较.我们把改过的方法叫做SI2DL_c,通过实验知道SI2DL比SI2DL_w明显性能好很多,说明the manner of learning a common distance metric to catch both the intra-video and inter-video variations will lead to a compromise to the discriminability of the learned distance metric. Therefore, we should learn different distance metrics to handle variations of different levels.

视频间和视频内的距离度量的维度(dimensionality)

因为视频间距离学习依赖于视频内的,所以给视频内度量(V)选择正确的维度例如K1,是在SI2DL模型中很重要的一部分.因为V是由(8)来初始化的,它是通过解决特征分解(eigen-decomposition)来的,K1的值应该比样本维度小.比如…略.在实验中,我们发现K1的值应该与每个训练样本(p)的维度接近.而K2应该小点.图6显示了K1,K2和准确率(matching rate)的关系.我们不难发现,SI2DL在所见范围内对K1,K2的选择不是很敏感,…

和其他set-based 距离学习方法比较:…略

5 Conclusion

这篇论文提出了一个全新的用来行人重识别的基于视频样本集的距离学习方法,这个方法同时学习一对视频间和视频内的距离度量…略

猜你喜欢

转载自blog.csdn.net/ptgood/article/details/83592725