一. 前言

与传统的两段pipline不同，论文提出了在一段检测之后再进行区域级的选择，避免了处理大量低质量的候选区域。此外，还构建了一个新的模块来评估目标帧与参考帧之间的关系，并指导聚合。

作者进行了大量的实验来验证该方法的有效性，并揭示了其在有效性和效率方面优于其他最先进的VID方法。在ImageNet VID数据集上，采用单个2080Ti GPU，达到了超过30帧/秒的87.55% AP50。

论文原文：
原文

代码：
源码

二. 创新思路

基于区域的CNN系列（R-CNN）是两阶段物体检测器的先驱，具有多种后续功能给定区域级特征，这些静止图像检测器可以很容易地转移到更复杂的任务，如分割和视频对象检测。然后，由于两阶段性质，效率是实际应用的瓶颈，而对于单阶段目标检测器，定位和分类是由特征图的密集预测联合直接产生的。

视频对象检测可以被视为静止图像对象检测的高级版本。可以通过将帧一帧一帧地馈送到静止图像对象检测器中来处理视频序列。但是，通过这种方式，跨帧的时间信息将被浪费，这可能是消除/减少单个图像中出现的模糊性的关键。

如图1所示，诸如运动模糊、相机散焦和遮挡等劣化经常出现在视频帧中，显著增加了检测的难度。例如，仅通过查看图1中的最后一帧，人类很难甚至不可能分辨出物体在哪里和是什么。另一方面，视频序列可以提供比单个静止图像更丰富的信息。也就是说，同意序列中的其他帧可能支持特定帧的预测。
在这里插入图片描述
图1：遭受各种退化，如运动模糊和遮挡，使基础YOLOX无法完成任务

帧聚合有两种主要类型，即框级和特征级。这两种技术路线可以从不同角度提高检测精度。关于框级方法，它们通过链接边界框来连接静止对象检测器的预测以形成tubelet，然后在同一tubelet中细化结果。盒级方法可被视为后处理，可灵活应用于一级和两阶段检测器。

而对于特征级方案，关键帧的特征通过其他帧（也称为参考帧）中查找和聚集相似特征来增强。两阶段方式以由区域建议网络（RPN）提取的主干特征图的显示表示，得益于这种性质，两阶段检测器可以很容易地迁移到视频对象检测问题。因此，大多数视频对象检测器构建在两阶段检测器上。

然而，由于引入了寻求方案之间的关系，这些两阶段视频对象检测器进一步减速，因此难以满足实时场景的需要。与两阶段基础不同，提出了由一阶段检测器的特征图元素隐式表示。尽管没有对象的显示表示，但特征图的这些元素仍然可以从聚集VID任务的时间信息中受益。

在这些考虑的驱动下，自然产生了一个问题：能否使这种区域级设计适用于仅包含像素级特征的单阶段检测器，以构建实用（准确和快速）视频对象检测其。

本文通过设计一种简单而有效的策略来聚集单阶段检测器在这项工作中生成的特征，回答了上述问题。

三. 本文的主要贡献

提出了一个特征相似性度量模块来构建亲和矩阵，然后用该矩阵来指导聚合。
为了进一步缓解余弦相似性的限制，定制了参考特征上的平均池算子。
YOLOV可以在单个2080Ti GPU上以40+FPS的速度在ImageNet VID数据集上实现85.5%的AP50，通过进一步引入后处理，其精度在超过30fps时达到87.5%的AP50。

四. 方法

考虑视频特征（各种退化与丰富的时间信息）的方法，而不是单独处理帧，如何从其他帧中为目标帧（关键帧）寻找支持信息，在提高视频检测精度方面起着关键作用。大多数现有方法是基于两阶段的技术。

如前所述，**它们的主要缺点是与单阶段基础相比，推理速度相对较慢。**为了缓解这一限制，作者将区域/特征选择放在单阶段检测器的预测头之后。框架如图3所示。

在这里插入图片描述
图3：本文的设计框架。以YOLOX为基础检测器，相应的模型称为YOLOV。从视频中随机采样若干帧，并将其输入基础检测器以提取特征。

传统的两阶段管道：首先“选择”大量候选区域作为 proposals；确定每个 proposal是否为对象，以及它属于哪个类别。计算瓶颈主要来自处理大量的低置信度区域候选。

如图3所示，pipeline 还包含两个阶段。不同的是，其第一阶段是预测（丢弃大量具有低置信度的区域），而第二阶段可以被视为区域级细化（通过聚合利用其他帧）。

根据这一原理，作者的设计可以同时受益于单阶段检测器的效率和从时间聚集获得的精度。所提出的策略可以推广到许多基本检测器，如YOLOX、FCOS和Pyoloe。

FSM：特征选择模块
由于大多数预测的可信度较低，单阶段检测器的检测头是从特征图中选择（高质量）候选的自然和合理的选择。在RPN过程之后，首先根据置信度得分选出前k（例如750）个预测。然后，非最大值抑制（NMS）选择固定数量a的预测（例如，a=30），以减少冗余。为了获得用于视频对象分类的特征，基本检测器的精度应得到相应保证。

在实践中，作者发现直接聚集分类分支中的选定特征并反向传播聚集特征的分类损失将导致不稳定的训练。

为了解决上述问题，作者将两个3×3卷积（Conv）层作为一个新分支插入模型颈部，称为视频对象分类分支，它生成用于聚合的特征。然后，将视频分类和回归分支中与位置相关的特征输入到特征聚合模块中。

FAM：功能聚合模块
当关键帧出现某些退化时，与这些相似特征相对应的选定方案很可能出现相同的问题。将这种现象称为同质性问题。

为了克服这个问题，进一步考虑了来自基础的预测置信度Pi,Pi的每一列仅包含2个分数，即分别来自分类和回归头的分类分数和IoU分数。然后，构建查询、键和值矩阵，并将其输入多头注意力。通过注意的标度点积，得到了相应的Ac和Ar，收集P中的所有分数得到一个大小为2×FA的矩阵[P1，P2，…，Pf]。

为了使这些分数适合注意力权重，作者构建了两个矩阵，即Sr和Sc。然后，得到分类和回归分支的自我关注结果：

在这里插入图片描述

将Vc与等式（3）的输出连接起来，以便通过以下方式更好地保留初始表示：

在这里插入图片描述

此外，考虑到softmax的特性，它常常忽略具有低权重的特征，这限制了可能后续使用的参考特征的多样性。

为了避免此类风险，作者引入了一种基于参考特征的平均池（A.P.）。选择所有相似度得分高于阈值τ的参考，并将平均合并应用于这些参考。这样，可以维护来自相关功能的更多信息。然后将平均合并特征和关键特征传输到一个线性投影层中进行最终分类。该过程如图4所示。
在这里插入图片描述

五. 实验

为了观察不同采样策略的效果，在全局和局部模式下改变参考帧的数量。数值结果如表1所示。
在这里插入图片描述
表1：全局fg和局部fl参考系数量的影响。

将FSM中每个帧a保留的最有信心建议的数量从10调整到100，以查看其对性能的影响。如表2所示，随着a的增加，精度不断提高并趋于稳定，知道达到75。

在这里插入图片描述
表2：FSM中帧a数量的影响。

为了验证关联方式（A.M.）和参考特征平均池（A.P.）的有效性，评估了使用和不使用这些模块的性能。表4中的结果表明，这些设计都可以帮助特征聚合从一级检测器捕获更好的语义表示。与YOLOX-S（69.5%AP50）相比，仅配备A.M.的YOLOV-S的精确度提高了7.4%。
在这里插入图片描述
表4：亲和力方式（A.M.）和参考特征池（A.P.)的有效性。