论文笔记《On the Integration of Optical Flow and Action Recognition》:光流的作用

参考:https://zhuanlan.zhihu.com/p/32443212
个人学习使用,如有侵权请联系

1、为什么将光流特征作为行为识别模型的输入?

作者通过对打乱光流场的顺序和打乱rgb图像后的光流场进行实现,表明运动轨迹信息并不是关键因素,rgb的motion信息也并非是关键因素。
作者提出:光流在行为识别模型中效果好的原因在于其对于图像表观的不变性,这使得行为识别模型在低variance的情况下更容易得学习。这个观点可以通过实验以及一些相关工作来佐证:
(1)通过变动图像表观信息,分别观察以flow以及rgb图像作为输入的行为模型的性能。
这个实验中训练照常,但测试时修改图像的颜色。在变动颜色后,基于RGB的方法效果降低非常明显,而基于Flow的方法效果变化不大。这说明了光流对于颜色这种表观信息具有很好的不变性。
(2)2stream模型在大型视频数据集中的表现
当视频数据集的大小非常大时,仅使用图像的网络会比仅使用光流的网络获得更好的效果。这里作者的观点是认为,当数据集够大时,其本身能够涵盖复杂的光照、纹理、背景等信息,使得模型能够获得更好的泛化能力,也使得光流的表观不变性没有那么重要了。

小结:光流在行为识别模型中发挥作用的主要原因是其对于表观的不变性,而非其包含的motion或轨迹信息。

2、光流的准确性与行为识别的准确性相关吗?

通常使用终点误差(end-point-erroe,EPE)来衡量准确性。
光流算法的准确性和行为识别的准确性并没有很强的关联性。并非EPE误差低的光流方法就能获得更好的行为识别精度。
作者探索了光流中的局部区域EPE与动作识别准确率之间的关系:
1)光流算法在边缘部分的准确度对动作识别的效果的相关性比较大。
2)光流算法在小位移的准确度对动作识别的效果的相关性比较大,不过由于光流算法本身对于小位移表现较好而对大位移表现较差,所以这个结果也可能是由于光流本身的特性造成的。

小结:光流整体的准确率与动作识别的准确率联系不大,而物体边缘附近的光流以及小位移光流的准确性对动作识别准确率的影响比较大。

3、对于行为识别任务而言,存在比光流更好的运动表示吗?

作者使用行为识别分类的损失函数来fine tune光流网络,从而获得提升。并未套索光流之外的表示方法。得出一下两个结论:
1)使用action loss来fine tune光流,最终能获得更好的行为识别精度
2)使用action loss来fine tune光流,光流本身的精度基本不会下降


总结

1)作者在文中主要是想用action loss来改进光流,但既然光流发挥作用的主要原因在于其表观不变性,那么更换另外一种专门针对表观不变性设计的表示作为行为识别模型的输入会不会更好?比如使用分割的结果替代光流。
2)若舍弃光流,同时针对表观的色彩/纹理/光照做数据增强,那么只用RGB图像可能也能获得不错的效果。
3)可以通过提高网络本身对表观变化的学习能力,来替代光流表观不变性的作用。
4)若不采用光流,是否还能构建另外一种针对运动/轨迹信息的low-level特征,来更好地提供视频中的时序信息。

猜你喜欢

转载自blog.csdn.net/qq_18644873/article/details/87805517
今日推荐