[行为识别]VideoLSTM Convolves, Attends and Flows for Action Recognition

一、文章主要创新点

1.将乘法变成卷积

用convolution ALSTM(卷积注意力网络)代替传统的ALSTM(注意力网络),说白了就是把LSTM和soft attention模型中所有的乘法都变成卷积,LSTM网络的输入不再是一个向量,而是一个二维的数组,这样可以保存feature map在空间上的关系
这里写图片描述
LSTM内部各个门的更新方程,乘法全部变成卷积
这里写图片描述
注意力模型,也变成卷积
这里写图片描述
这里写图片描述
这里写图片描述

2.改变attention模型

之前的注意力模型都是用当前状态的输入和上一时刻的隐藏状态,
通过加上一层bottom layer(其实就是一层LSTM)
t时刻的注意力取决于frame t 的hidden state H t ,而不是前一帧的Ht-1

二、网络模型

videolstm

top layer :
bottom layer: generate the motion-based attention
bottom
图中的参数:previous hidden state from top layer Ht−1
Mt is the feature map extracted from optical flow image at timestep t.

不懂的问题

3.the motion-based attention map is applied on the input
feature map Xt from the top layer

猜你喜欢

转载自blog.csdn.net/u013608336/article/details/81060735