视频行为识别论文阅读[4]

[9]A Key Volume Mining Deep Framework for Action Recognition[2016CVPR]

之前介绍的文章很多都是不同的融合技巧,这一篇文章是从输入入手,提取关键帧进行检测。
大多数现有的深度框架同等地处理每一个视频片段,例如,空间 - 时间视频切片,并直接将视频标签分配给所采样的片段。 然而,在视频中,有歧义的动作可能在几个视频片段中稀疏地产生,并且大多数与标记的操作类别无关。 大量不匹配样本会阻止我们去学习重要的特点捕获重要的分类。
论文的重要思想就是在前向传递中,我们将一包视频段输入我们的网络,然后根据响应挖掘每个操作的关键视频片段; 在后向传递中,我们借助这些关键卷更新网络参数。文中核心在于关键视频段的判定方式。
这里写图片描述

[10]AdaScan: Adaptive Scan Pooling in Deep Convolutional Neural Networks for Human Action Recognition in Videos

这也是一个从关键帧提取入手的动作识别方案。

猜你喜欢

转载自blog.csdn.net/weixin_40100431/article/details/82629980