借助CenterNet以热图的形式传播先前可靠的长期检测以提高后面的图像的结果
ECV2020
论文地址:https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700222.pdf
1. 总述
当直接用静态图像目标检测器应用于视频流时,由于运动模糊或物体外观不完整而导致的采样图像质量问题(视频通常包含移动的物体或在摄影机移动时表示运动。这会导致低图像质量)对检测性能有不良影响。然而,视频中包含时间信息,例如同一物体在连续帧中的一致性。利用这些信息来补偿图像质量缺陷是值得考虑的。
现有视频目标检测方法一般是使用两阶段目标检测器,而两阶段检测器速度慢,达不到实时;而一阶段方法用于视频低效甚至不可行(时间信息融合不太适用于一阶段检测器)。本文以CenterNet为基础,以热图的形式传播先前可靠的长期检测以提高后面的图像的检测结果。
具体来说:对于视频片段的一帧,将稳定检测到的目标转化为传播热图。在得到的热图中,用每个物体对应的类的置信度来突出每个物体中心的潜在位置。对于下一帧,生成平衡热图,同时考虑传播热图和网络输出热图。
2. Heatmap Propagation
- 首先在每一个峰值,扩大方形核大小从 ( 2 P + 1 ) (2P+1) (2P+1)到 ( 2 P + 1 ) 2 − 1 (2P+1)^2 -1 (2P+1)2−1得到扩展的热图
- 然后通过在每个位置和类别保持最大值将m个扩展的热图重叠为1个传播热图,这样,即使物体可能存在遮挡,但物体的中心很少位于同一点上。因此,保持检测结果最大化的方法仍然有效
- 最后融合网络的输出— t + 1 t+1 t+1帧的热图和 t t t帧的传播热图,为了对图像的大变化具有鲁棒性,将最终热图设置为网络的长期热图和即时检测热图之间的平衡:
3. 实验
(1)在ImageNet VID数据集上的SOTA对比
(2)消融实验