TPAMI 2024 | STMixer: 一种单阶段稀疏动作检测器

题目:STMixer: A One-Stage Sparse Action Detector

STMixer: 一种单阶段稀疏动作检测器

作者:Tao Wu, Mengqi Cao, Ziteng Gao, Gangshan Wu, Limin Wang

摘要

传统的视频动作检测器通常采用两阶段流程,首先使用人员检测器生成演员框,然后使用3D RoIAlign提取特定于演员的特征进行动作识别。这种检测范式需要多阶段训练和推理,并且特征采样仅在框内受限,未能有效利用外部更丰富的上下文信息。最近,提出了几种基于查询的动作检测器,以端到端的方式预测动作实例。然而,它们在特征采样和解码方面的适应性仍然不足,因此存在性能较差或收敛速度较慢的问题。在本文中,我们提出了一个更灵活的单阶段稀疏动作检测器的两个核心设计。首先,我们提出了一个基于查询的自适应特征采样模块,它使检测器具有从整个时空域挖掘一组区分性特征的灵活性。其次,我们设计了一个解耦的特征混合模块,该模块分别沿空间和时间维度动态地关注并混合视频特征,以更好地解码特征。基于这些设计,我们实例化了两个

猜你喜欢

转载自blog.csdn.net/qq_42722197/article/details/142736430