驾驶员行为识别论文研读(一)---LearningMotionRepresentationforActionRecognition

版权声明:学无止境,好好学习 https://blog.csdn.net/m0_38116269/article/details/88615332

1.论文名称:ActionFlowNet: LearningMotionRepresentationforActionRecognition
2.可用的方法:
利用 local patches 的轨迹;
spatio-temporal 联合的手工特征;
从光流运动中得到的深度特征,这是个像素级别的短期特征表达;
还有用两个卷积神经网络的,分别利用静态图像学习appearance ,和利用 optical flow 学习motion,但是这种方法没有对appearance 和motion进行良好交互,而且光流的学习计算复杂度特别高。
如果给定大型的数据集可以利用3D卷积的CNN架构,训练出一个大容量的分类器。
还有人使用feature pooling 和LSTM来训练视频序列的。
有个论文中用大数据集训练出的结果还不如小数据集用光流得到的好,这说明,用一个合适的 representation learning方法往往更加重要。
最后提出,这篇文章重点研究如何找到有效的learn motion representations 在没有大规模数据集的情况下。
这篇文章是在一篇用神经网络估计光流的论文中得到启发,先训练了个前馈卷积神经网络叫做ActionFlowNet 来同时识别行为和估计光流,他们是基于 raw pixels 而不是手工特征表述。
这是这篇论文的网络架构。
在这里插入图片描述这篇论文在两个行为识别基准 UCF101 和 HMDB51做了实验。

Multi-frameOpticalFlowwith3D-ResNet :
有人提出了个FlowNet基于卷积神经网络来估计高质量的光流。还有人提出用3D卷积和解卷积层来从视频中学习 multi-frame 的光流。 还有人弄了个通过快捷连接跳过卷积层的残差网络。
这篇文章的方法:
使用残差网络的好处:容易训练;因为它是全卷积的,所以容易应用于像素层面的光流估计;相比较于其他架构例如,Alexnet和VGGNet,它没有很多最大池化层,因为这种最大池化层容易对光流估计产生损害,残差网络只在第一个卷积层后面连了个池化层而已。这篇文章认为,减少池化层有利于保存空间信息,这就有利于进行光流估计,这篇文章用了个18层的resnet,运算效率高。后来又将其扩展为3D-ResNet18,就是把kk的2D卷积核变成了kk*3的3D卷积核。还有编码解码操作。
在预测上,不仅计算T输入帧的光流,还预测最后一帧的,好处有,有利于语意推断,容易学习到更好的动作特征;由于输入和输出的尺寸相同,更好实践。
通过微调进行Knowledge Transfer ,文中提到,对于训练的模型进行微调是个惯例了,而且对于图像分类、跟踪检测、语义分割这些任务,知识转移比较容易实现,但是对于像素级别的光流行为识别却带有挑战,即catastrophic forgetting,即原先初始的光流信息可能会消失来适应新的信息,这篇文章通过使用多任务学习网络来防止上述现象,叫做ActionFlowNet,它来同时学着估计光流,并且预测最后一帧的光流,还进行行为分类来防止catastrophic forgetting。
模型输入是16连续帧,在编码的最后一层,全局平均池化穿过spatial-temporal 特征图,来获得512维的特征向量,后面接一个线性softmax分类器进行行为识别。框架的loss由分类损失和光流损失两部分组成。
在这里插入图片描述后面那个可以看做个正则化项。
评价其模型:尽管有篇论文说两个不同网络之间共享参数不利于模型性能,但是这篇却表现良好,因为光流是先验的来显著提高识别效果。而且他们的架构包含多个 从底层卷积层到编码层的skip connections ,这样使得更高层的编码器学习更多抽象的high level的特征。这是个广泛的架构,工程量比较小,具有普适性。

Two-Frame Based Models :
这个模型使用两个连续输入帧,好处有三个:首先,很难确定来自motion模型的性能是否提升了,而且整合长期的表现信息很难,使用两连续帧更有利于分析;第二,计算更快比起多帧;第三,有利于在大型数据集上进行衡量。
Learning Optical Flow with ResNet:
使用的是resnet18,两个连续帧生成的输入是6224224,在解码器部分,有四个输出用于不同任务,损失是四条路之和。
这人先提出了个初级版的叫做StackedModel,现在搞了个改进版的叫做ActionFlowNet-2F。

数据集介绍:
UCF101有一万三千多视频,101种动作。 HMDB51 有六千七百多视频,51种动作种类。这篇文章是用前者训练初始化,在第二个数据集上微调的。
实验细节:
防止过拟合:用了数据增强和dropout。在FlyingChairs数据集上,使用的数据增强方法有多尺度裁剪,水平翻转,平移,旋转操作。在UCF101没使用平移和旋转来保持原始光流的分布,但加了个 color jittering (颜色抖动方法),并有多尺度裁剪和水平翻转。Dropout层只是在平均池化之后,线性分类器之前用的,概率是0.5。
模型用Adam方法,迭代了八万次,学习率是0.0003。评估方法是,从视频中随机裁剪64个随机连续帧向网络中运行前向传播,平均化预测分数。

猜你喜欢

转载自blog.csdn.net/m0_38116269/article/details/88615332
今日推荐