TPAMI 2024 | STMixer: 一种单阶段稀疏动作检测器 - 代码天地

TPAMI 2024 | STMixer: 一种单阶段稀疏动作检测器

企业开发 2024-11-01 15:49:46 阅读次数: 0

题目：STMixer: A One-Stage Sparse Action Detector

STMixer: 一种单阶段稀疏动作检测器

作者：Tao Wu, Mengqi Cao, Ziteng Gao, Gangshan Wu, Limin Wang

摘要

传统的视频动作检测器通常采用两阶段流程，首先使用人员检测器生成演员框，然后使用3D RoIAlign提取特定于演员的特征进行动作识别。这种检测范式需要多阶段训练和推理，并且特征采样仅在框内受限，未能有效利用外部更丰富的上下文信息。最近，提出了几种基于查询的动作检测器，以端到端的方式预测动作实例。然而，它们在特征采样和解码方面的适应性仍然不足，因此存在性能较差或收敛速度较慢的问题。在本文中，我们提出了一个更灵活的单阶段稀疏动作检测器的两个核心设计。首先，我们提出了一个基于查询的自适应特征采样模块，它使检测器具有从整个时空域挖掘一组区分性特征的灵活性。其次，我们设计了一个解耦的特征混合模块，该模块分别沿空间和时间维度动态地关注并混合视频特征，以更好地解码特征。基于这些设计，我们实例化了两个

猜你喜欢

转载自blog.csdn.net/qq_42722197/article/details/142736430

TPAMI 2024 | STMixer: 一种单阶段稀疏动作检测器

TPAMI 2024 | 区域评估：揭示目标检测中的空间偏差

TPAMI 2024 | PPDM++: 用于快速准确检测人-物交互的并行点检测与匹配

TPAMI 2024 | 基于角度回归的任意方向目标检测中的边界不连续性

TPAMI 2024 | 一种用于块结构整数规划的定制增广拉格朗日方法(一)

TPAMI 2024 | 一种用于块结构整数规划的定制增广拉格朗日方法（二）

TPAMI 2024 | 一种基于贝叶斯方法的稳健多维椭圆体特定拟合

TPAMI 2024 | 一种任务引导、隐式搜索和元初始化的图像融合深度模型

TPAMI 2024 | 基于正交平面解缠和多视图几何一致性感知的 360 布局估计

TPAMI 2024 | DeepNet: 将Transformer扩展到1000层

TPAMI 2024 | 创造你的世界：终身文本到图像扩散

TPAMI 2024 | 使用合成负样本的混合开放集分割

TPAMI 2024 | 走向理解AdamW的收敛与泛化

TPAMI 2024 | 面向实例依赖标签噪声的参数化模型

TPAMI 2024 | 无需训练的Transformer架构搜索：零成本代理引导进化

TPAMI 2024 | 基于粗糙网格的三维场景构建与渲染：探索光照传递的新途径

TPAMI 2024 | 图像恢复中深度展开方法的旋转等变近端算子

TPAMI 2024 | EGCN++：基于骨架的康复运动评估中集成学习的新融合策略

TPAMI 2024 | NICEST：用于鲁棒场景图生成的噪声标签修正与训练

TPAMI 2024 | 自监督学习综述：算法、应用与未来趋势

TPAMI 2024 | PAGE：图神经网络的基于原型的模型级解释

TPAMI 2024 | MURF：相互增强的多模态图像配准与融合

TPAMI 2024 | 通过域适应提升弱监督目标定位和分割

TPAMI 2024 | 模块化神经运动重定向系统：解耦骨架与形状感知

TPAMI 2024 | Split-GCN：用于分割不连续实例的有效交互式标注

TPAMI 2025 | 指代表达伪装物体检测

TPAMI 2024 | 3D-PSSIM：用于3D网格质量评估的投影结构相似性，对拓扑不规则性具有鲁棒性

TPAMI, 2023 | 用压缩隐逆向神经网络进行高精度稀疏雷达成像

TPAMI 2023 | Temporal Perceiver：通用时序边界检测方法

TIM 2024 | TTSDA-YOLO：一种用于恶劣天气下目标检测的两阶段训练域自适应框架

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

更多

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)