【MOT】C-BIoU:Hard to Track Objects with Irregular Motions and Similar Appearances?

Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space

rank:CVPR2022 SoccerNet MOT和ECCV2022 MOTComplex DanceTrack挑战中排名第二
论文链接:https://arxiv.org/pdf/2211.14317.pdf
代码:目前未开源
论文接收情况:WACV 2023

1、动机

为什么HOTA评分在DanceTrack上显著下降?
作者指出两个问题,也即本文的动机:
(i)同一目标在相邻帧中的检测和跟踪不重叠(比如快速移动)导致跟踪失败
(ii)运动估计不准确导致检测和跟踪不匹配,特别是对于做不规则运动、非线性运动的目标

2、方法

作者的贡献:
提出了一种级联缓冲联合交叉(C-BIoU)跟踪器,以跟踪具有不规则运动和不可区分外观的多个对象。

  • 采用BIOU代替IOU,在原来box的基础上进行等比放大,增加搜索区域,使原来关联不上的det和track增加匹配机会。(作者说BIoU在两个方面减轻不规则运动的影响:一是直接匹配相邻帧中相同但不重叠的检测和轨迹,二是补偿匹配空间中的运动估计偏差)
  • 采用级联匹配方式:首先,使用小缓冲区匹配活动轨迹和检测,然后使用大缓冲区再次匹配未匹配的轨迹和检测。(为了防止BIOU随意扩展导致误匹配)

框架

在这里插入图片描述
如图4,整个跟踪框架还是比较简单的,第一次匹配时将扩展因子设置为0.3,即变为原来的1.3倍,代价函数为扩展后的IOU,对于未匹配的det和track做二次匹配,这次将扩展因子设置为0.5,再次关联,此时未匹配的det初始化为track,未匹配的track根据寿命判断是否保留。

BIOUBIOU

如图2,缓冲区域(buffer)就是在原来box基础上等比扩大,通过扩展因子b控制,不改变中心点位置、box宽高比。
例子
如图3,右下角的球员在两帧中位置偏差很大,IOU为0,采用buffer扩充后BIOU>0,就有可能匹配上了。(这个应该不是相邻两帧)

运动模型

没有采用卡尔曼滤波,采用了更简单的线性平均运动(好像只有在track失配时才用来估计位置,如果每一帧都匹配则直接用det的结果作为状态),具体式子为
在这里插入图片描述
其中o=(x,y,w,h)表示检测结果,s表示估计的状态,△表示失配的帧数,n是超参数(用来计算某个周期内的平均速度)。某目标在第t帧获得更新,之后连续△帧失配,则第t+△帧后的状态s为第t帧检测结果加上失配帧数△*前n帧的平均速度。

track管理方法

如图4,基本同sort一样。

3、实验

  • 在MOT17和DanceTrack上进行比较,都取得了SOTA(私以为TBD类的MOT方法检测结果严重依赖检测器的质量,自从bytetrack开始就使用yolox-x做检测器,跟踪结果一下子就都上来了,对于JDT类的方法不太公平)
    表1

  • 速度测试,在Intel志强CPU上跑到360+fps,比较的都是不使用网络推理的方法,这些方法更容易在工业界落地(比如百度的pp-human和pp-vehicle使用的ByteTrack和OC-SORT)
    在这里插入图片描述

  • 其他数据集的结果
    表3

  • 与使用其他IOU指标的结果(验证BIOU的有效性),以及消融实验结果,其中“C.M.”和“Mo.”分别表示级联匹配和运动估计
    表4

  • 级联匹配中两阶段扩展因子的组合,作者在表4中提到完全不使用BIOU,即第一行IOU Tracker的结果比使用BIOU差(不知道为啥不加一组b1=0的组合)
    在这里插入图片描述

  • 检测噪声实验(独一份的实验),因为BIOU需要对原先的box进行扩展,必然导致更多的关联(IOU=0,BIOU>0),因此非常依赖检测器的质量,当存在误检和漏检时影响很大,作者这个实验也证明了这点
    表5

4、个人总结

作者另辟蹊径,提出了一种既简单粗暴的方法改进了MOT方法。

  • 简单是因为总体方法非常简单,感觉是在IOUTracker: High-Speed tracking-by-detection without using image information上的改进,增加了一个非常简单的运动估计模型(线性平均运动),以及非常简单的增大搜索区域的BIOU方法。

  • 粗暴是因为当大家都在绞尽脑汁考虑怎么精确估计目标运动时,作者说“我不管啦~”,只要把搜索区域扩大,总能关联上,完全不需要考虑怎么运动,从BIOU到运动模型都是一种模糊估计的方法(类比过程噪声Q很大而观测噪声R很小的卡尔曼滤波)。

此外,随着检测器质量的提高,TBD以及无网络推理的模型表现也越来越好,如表1,SORT在yolox-x的加持下也可以取得非常好的结果,这类速度非常快的方法往往更容易落地。

猜你喜欢

转载自blog.csdn.net/LoveJSH/article/details/128810478