DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion

论文地址: https://arxiv.org/abs/2111.14690

代码地址: https://github.com/DanceTrack/DanceTrack

作者单位:香港大学,CMU,总部

已有的MOT数据集虽然有很多遮挡,但运动是规律的,只使用IoU匹配都能获得最好的性能,这显然无法准确评估跟踪器的性能。遮挡和相似仍是制约算法性能的主要因素

摘要

多目标跟踪的常用做法是使用检测器定位位置,使用Re-ID进行关联。这条流水线在受益于最近目标检测和Re-ID的进展,部分来自于已有数据集的偏见(场景不够丰富),它们中大多数物体都有显著可分的特征,只使用Re-ID提取的特征就能很好的做目标关联。为了处理这些偏见,我们认为多目标方法更应该聚焦在那些没有什么可区分特征的目标上。因此我们提出了一个名为DanceTrack的大规模多人跟踪数据集,它们有相似的外观和多样的运动。我们希望DanceTrack能为多目标跟踪算法提供更好的评估基准,促使算法减少对外观特征的依赖,更多的提升运动分析的能力。我们评估了几个最好性能的跟踪器,和已有的测试基准相比观察到很多性能下降,数据、代码在DanceTrack可以获得。

引言

目标跟踪已经被研究了很久,广泛应用于自动驾驶、视频分析和运动规划等应用中。目标跟踪的目标是在视频中定位物体并且把他们在前后帧联系起来。有趣的是我们发现多目标跟踪的发展严重依赖于检测和Re-ID,大多数使用表观特征进行关联。算法的发展趋势导致现有的方法在相似外观的目标上的效果差强人意,这启发我们提出一个鼓励通过融合运行模式和时序特征建模的测试基准。

和其他喝多计算机视觉领域一样,多目标跟踪的发展受益于基准测试集的提出。基于特定数据集的算法很容易带有某些分布上的偏见。在本文中,我们认识到了现有多目标跟踪的局限性,那就是大多数物体都有明显可区分的外观并且运动模式也是固定的(几乎匀速直线运动)。受这些数据集影响,最近提出的算法高度依赖于外观特征进行关联很少考虑运动方面的线索,这对于我们构建更通用和智能的算法是十分不利的。

我们还观察到当目标有相似外观或者被遮挡时使用外观匹配是十分不可靠的,这导致了当前最好的算法在实际应用中大幅下降、不及预期。为了给更复杂的算法提供一个更好的平台,我们提出了一个新的数据集,由于大部分是跳舞的视频,因此我们称之为DanceTrack.它包含10万多张图(是MOT17的10倍),如图1所示,这个数据集的特点在于(1)相似的外观:视频中的人非常相似甚至穿的都是同样的衣服,这使得很难通过Re-ID提取的特征进行区分(2)多样的运动,人都有很大幅度的运动并且姿态变化也很丰富,对运动建模能力提出了很高的要求。第二个特性还带来了遮挡以及交叉,人会有很大程度的重合,并且运动的方向也在不断的变换。

基于这个数据集,我们构建了一个包含现有流行多目标算法的测试基准。结果表明简单的使用表观模型或者线性运动模型很难获得满意的性能。考虑到这个数据集中的场景在现实生活中经常遇到,我们认为它能够暴露现有算法在实际应用中的问题。为了更进一步的知道下一步的研究方向,我们还分析了数据关联不同方法的效果并且得出如下结论(1)细粒度的特征,比如分割和姿态相比于粗粒度的包围框能获得更好的性能(2)虽然我们要解决的是2D问题,但是深度信息仍然有有益的影响(3)对时序运动信息建模是非常重要的

总而言之,这篇文章对于目标跟踪领域的关键贡献如下:

1. 我们构建了一个大规模的目标跟踪数据集,覆盖了当前数据集缺乏相似外观物体的问题

2.在这个新数据集上我们对很多方法进行了评估,展现了当前算法的不足

3.我们提供了详细的分析来发掘更复杂现实生活中多目标算法的更多线索

猜你喜欢

转载自blog.csdn.net/minstyrain/article/details/122900468