论文学习犀利1

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_31390999/article/details/82596491

BSN:BoundarySensitiveNetworkforTemporalAction ProposalGeneration

用于时序动作提名生成的边界敏感网络

这张图是这篇论文的流程,大体总结如下:

首先将视频分为S小段,每段随机选取一帧,提取RGB和光流信息,分别编码后形成二维的F特征,这是BSN网络的输入。

接下来进入BSN网络正题,首先是时序评估模块。采用三层的时序卷积网络对输入中的每个位置上动作开始的概率,动作结束的概率以及动作进行概率,同时进行建模,从而生成动作开始概率序列,动作结束概率序列和动作概率序列。

第二阶段是提名生成阶段  通过一定的规则如大于某个阈值或是极大值直接融合开始概率位置和结束概率位置,形成候选提名,在候选提名中采样出BSP特征

第三阶段是提名估计阶段。用有一层隐藏层的感知机将BSP特征作为输入,输出为该候选提名的置信度。

后续过程是对结果进行非极大化抑制,从而去除重叠的结果。具体是通过置信度最高的提名和其它提名比较,利用Soft-NMS函数,去除冗余的其它提名。

在训练过程中要计算IoP,个人理解是提名和视频中标记的相似度类似的东西。

ECO: Efficient Convolutional Network for Online Video Understanding
用于在线视频理解的高效卷积网络

这篇论文的流程十分清晰,优点是速度快。大体流程介绍如下:

 讲视频分为S等段,从每段中随机抽样一帧,对每个部分中抽取的祯,采用共享的2D卷积网络,得到K*28*28的特征映射,将其堆叠成N*K*28*28,喂进一个3D网络进行处理,直接输出对应动作类别数目的一组向量。

以上部分得到的是ECO Lite,如果想要得到ECO Full,如图所示,使用一个 BN-Inception(另一篇论文中的一个东西)得到的 1024 维的特征向量,融合到3D网络中。

这篇论文的一个很好的应用是用于在线视频理解。算法如下:

这个算法很容易理解,它在很大程度上既保留了原来的历史视频信息,也有现存的视频流信息。

猜你喜欢

转载自blog.csdn.net/qq_31390999/article/details/82596491
今日推荐