【Tracking 系列:二】GOTURN|Learning to Track at 100 FPS with Deep Regression Networks

基于回归的SOT算法
可以跟踪未见过的类别样例
FPS高

Motivation

只关注单一目标,物体运动是连续的,使用相邻帧回归位置

Network

在这里插入图片描述

  • 两个输入分别过5层conv ,然后将feature concat
  • 再过3层4096维的FC(包含 ReLU 和 Dropout),最后连接到一个输出为4的FC分别对应中心点x、y、w、h

其主要步骤是:

  • 拿到上一帧图像以及我们要跟踪的目标在上一帧中的box position;
  • 按照得到的box在上一帧和当前帧上裁剪出两倍于box大小的patch;
  • 将两个patch输入到conv中,并通过fc来对特征进行综合,以预测当前帧中target box的位置。

注意,网络中的conv是在ImageNet预训练得到的,并且在这里不会再进行更新,只有fc才会被训练。

Dataset

视频+静态图像
静态图像用了个 数据增广的 trick

数据增广

  • 将静态图片中待跟踪的object放在中间并框定区域(相当于作为t-1帧的region)
  • 将整张图做形变当做第t帧来跟踪上一帧中的目标

Experiments

两个跟踪指标:Acurracy和Robustness

在这里插入图片描述
在这里插入图片描述

Thoughts

快速移动目标,增大搜索空间,或许可以
cnn参数 还有调参空间

猜你喜欢

转载自blog.csdn.net/qq_31622015/article/details/105460981