SiamRPN---High Performance Visual Tracking with Siamese Region Proposal Network

1. Introduction

  • 目前的跟踪器可以分为两大类:
    1.第一类是基于相关滤波:通过利用循环特性在傅里叶域训练一个回归器,能够在线跟踪并更新滤波器参数。近来一些相关滤波算法通过使用深度特征来提高精度,但在滤波器更新是严重降低了速度。
    2.另一类方法是使用非常强大的深度特征,此类方法不更新模型,所以性能没有相关滤波好。
  • 本文提出的SiamRPN是离线训练好的基于深度特征的跟踪器,并取得了比目前最先进相关滤波方法更优的性能。SiamRPN由模板分支和检测分支组成,用端到端的方法在大规模的图像对上进行离线训练。不同于标准的RPN,本文使用两个分支的相关特征图来提取候选区域。由于跟踪任务不区分类别,所以作者将模板分支上的目标外观信息编码到RPN特征中来判别前景和背景。
  • 贡献可总结为以下三点:
    1.提出了孪生区域建议网络,能够利用ILSVRC和Youtube-BB大量的数据进行离线端到端训练。
    2.在线跟踪时,将proposed framwork视为单目标的检测任务,这使得可以不用高耗时的多尺度测试就能精确的候选区域。
    3.在VOT2015, VOT2016 and VOT2017的实时比赛中达到了最优性能,并且可达到160FPS,同时具有精度的效率的优势。

2. Related Works

2.1 RPN in detection

  • RPN是在Faster R-CNN提出来的,后来Faster R-CNN的变种如FPN利用特征金字塔来提高小目标检测的性能。

2.2 One-shot learning

  • 最常见的例子就是人脸检测,只知道一张图片上的信息,用这些信息来匹配出要检测的图片,这就是单样本检测,也可以称之为一次学习。

3. Siamese-RPN framework

  • Siamese-RPN由提取特征的Siamese子网络和区域生成的候选区域子网络组成。
    在这里插入图片描述

3.1 Siamese feature extraction subnetwork

  • 网络基于AlexNet
  • 该子网络由模板分支和检测分支组成:模板分支将历史帧的目标块作为输入,用 z z 表示;检测分支用当前帧的目标块作为输入,用 x x 表示。两个网络共享CNN参数,用 φ ( z ) \varphi(z) φ ( x ) \varphi(x) 表示网络输出。

3.2 Region proposal subnetwork

  • 该子网络由分类分支和回归分支组成,分类分支输出有 2 k 2k 个channels(前景和背景),回归分支有 4 k 4k 个channels( x , y , w , h x,y,w,h ),其中 k k 表示anchors,即每个位置预测框的个数。
  • 分类分支使用cross-entropy损失,回归分支使用Faster R-CNN中的smooth L 1 L1 损失。

3.3 Training phase:End-to-end train Siamese-RPN

  • sample pairs:从ILSVRC随机间隔帧和Youtube-BB连续帧提取
  • Siamese子网络首先在ImageNet上进行预训练,然后用SGD对Siamese-RPN进行端到端训练
  • 由于在跟踪任务中相邻帧间的变化不会太大,所以选用的anchors个数比检测任务要少。只选用了一个尺度的5种不同宽高比 [ 0.33 , 0.5 , 1 , 2 , 3 ] [0.33,0.5,1,2,3]
  • 正样本:IOU > 0.6 >0.6 ,负样本:IOU < 0.3 <0.3
  • 对每个样本对限制最多16个正样本和总共64个样本

4. Tracking as one-shot detection

4.1 Formulation

  • 平均损失 L \mathcal L (1) m i n W = 1 n i = 1 n L ( ζ ( φ ( x i ; W ) ; φ ( z i ; W ) ) , i ) \underset{W}{min}=\frac{1}{n}\sum^n_{i=1}\mathcal L(\zeta(\varphi(x_i;W);\varphi(z_i;W)),\ell_i)\tag{1} 1. W W 训练的网络权重
    2. φ \varphi 表示Siamese子网络
    3. L \mathcal L 表示 RPN子网络
    4. n n 表示样本对数
    5. i \ell_i 表示样本标签

4.2 Inference phase:Perform one-shot detection

  • 模板分支在初始帧得到的输出作为检测分支的卷积核,然后在整个跟踪过程中固定不变。
    在这里插入图片描述

4.3 Proposal selection

  • 直接丢弃距中心太远的BB,如下图所示,丢弃大于7的BB
    在这里插入图片描述
  • 用余弦窗和尺度变化惩罚来对proposal进行排序,选最好的。余弦窗是为了抑制距离过大的,尺度惩罚是为了抑制尺度大的变化。
  • 非极大值抑制(NMS)

5. Experiments

5.1 Implementation details

5.2 Result on VOT2015

在这里插入图片描述

5.2 Result on VOT2016

在这里插入图片描述

5.4 Result on VOT2017

在这里插入图片描述

6. 与baseline–SiamFC对比

  • 视觉跟踪领域主流的实时跟踪方法是以SiameseFC为代表的孪生网络结构,Siamese FC网络非常简单,通过相同的网络提取出图像的特征,通过类似卷积的相关操作方法,可以快速的实现模板与搜索区域中的17x17个小图像进行比对,输出的17x17的响应图,相当于每个位置和模板帧的相似度。但SiameseFC有以下缺陷:首先由于没有回归,网络无法预测尺度上的变化,所以只能通过多尺度测试来预测尺度的变化,这里会降低速度。其次,输出的相应图的分辨率比较低,为了得到更高精度的位置,Siamese FC采用插值的方法,把分辨率放大16倍,达到与输入尺寸相近的大小。
  • SiameseRPN通过引入物体检测领域的区域推荐网络(RPN),通过网络回归避免多尺度测试,一方面提升了速度,另一方面可以得到更为精准的目标框,更进一步,通过RPN的回归可以直接得到更精确地目标位置,不需要通过插值得到最终的结果。在训练过程中,我们引入了大规模的视频数据集Youtube-BB进行训练,相比较SiameseFC使用的VID数据集,Youtube-BB在视频数量上有大约50倍的提升,这保证了网络能够得到更为充分的训练。

7. 参考

https://blog.csdn.net/fzp95/article/details/80982201

猜你喜欢

转载自blog.csdn.net/u013187057/article/details/85214324
今日推荐