动态360°沉浸式视频中的人眼注视点预测

本文出自论文 Gaze Prediction in Dynamic 360° Immersive Videos, 基于时空显著性和历史注视点路径线索,提出了一个深度学习框架来进行未来帧的注视点预测。


基于历史浏览路径和VR视频内容,我们将预测观看者在下一段时间内所观看的位置。在图像内容中,那些显著性的目标更容易吸引观看者的注意力,并且显著性与目标的外观和动作信息有关。本文提出在不同的空间尺度上计算显著性映射:以当前注视点为中心的子图像块,与视野域(FoV)对应的子图像,以及全景图像。接着我们将整个显著性映射和相关的图像输入到一个CNN来提取特征,与此同时,我们也使用一个LSTM结构来编码整个历史浏览路径,接着将CNN特征和LSTM特征结合在一起,对当前时间点和未来时间点之间的注视点位移进行预测。


一、简介

  1. 在传统视频的注视点预测中,用户被动地观看视频,而在360°沉浸式视频中,用户可以主动的旋转头部和身体,来决定所看的内容位置。在动态场景中,对于每一帧,一个参与者所看的位置点取决于它的起始点和运动方向的决定,因此对于显著性检测来说很难标注ground-truth。
  2. 在动态360°视频中的注视点预测有利于VR视频数据传输中的压缩过程,一旦我们预测到未来视频帧中的每个参与者的观看区域,我们可以通过为专门观看者制定交互方法,从而来进一步提高人机交互体验。在VR游戏领域,对于不同玩家来有效设计不同难度水平的游戏也是非常重要的。
  3. 我们利用一个LSTM模块在固定的视野域下去估计观看者的行为,在以当前注视点为中心的区域内,在当前视野域里的视频内容,和整个360°视频场景下,我们考虑了视频内容在不同空间尺度下的显著性程度。然后我们将图像和它们在不同尺度下的显著性映射输入到一个CNN,接着我们将这个CNN特征和LSTM特征结合在一起,来预测从当前场景到下一个场景中的注视点位移。

二、相关工作

  1. Saliency Detection: 一些工作尝试使用低级别的外观特征和动作线索来作为输入,或者扩展深度学习方法到更加复杂的场景中,例如立体图片或者视频。
  2. Gaze Prediction on Egocentric Videos: 在这种设置下的注视点预测通常基于摄像头设备的转动速度,移动方向和手的位置。

三、数据集

  1. 注视点和显著性区域的关系:基于在每一帧中的最高或最低显著性值,我们将这些像素点划分成10bins。基于与帧相关联的注视点所在的bins,我们可以获得所有视频的注视点落在不同bins的频率直方图。我们可以看到注视点通常与显著性点所一致。另外注视点和动作线索也有着一致性。
  2. 相邻帧注视点的角度分布:通常两个连续的相邻注视点之间的位移是很小的,换句话说,下一个帧的注视点落在当前注视点的领域内。
    数据集表
    数据集展示
    数据集分析

四、方法

  1. 未来帧注视点影响因素:一方面,注视点很大部分和来自图像内容大的空间显著性有所关系,时间显著性可以从相邻帧之间的光流中推断出来;另一方面,用户的历史注视路径对于预测其未来注视点也很关键,因为不同用户在观看一个场景时有着不同的习惯。注视点预测和其历史注视点路径之间的关系也激励了我们去连续预测每个未来帧的注视点。

  2. 我们将注视预测作为一个学习非线性映射函数F的任务,将历史注视路径和所关联的图像内容相映射。我们将注视点追踪的目标定义如下: F = arg min F t = o b s o b s + T 1 l t + 1 ( l t + F ( V t : t + 1 , L 1 : t ) ) 2 F^*=\mathop{\arg\min}_{F}\sum_{t=obs}^{obs+T-1}||l_{t+1}-(l_t+F(V_{t:t+1},L_{1:t}))||^2 .

    其中 o b s obs 是所观察帧的数量,这里我们仅考虑了当预测下一帧的注视点时,将当前帧和下一帧以及历史注视路径作为输入。两个相邻帧描述了动作信息,下一帧提供了显著性特征的内容。然后我们使用一个深度神经网络来对 F F 进行建模。该网络由一个轨迹编码模块,一个显著性编码模块和一个位移预测模块所组成。
    深度神经网络架构

  3. 轨迹编码模块:其被用来编码用户的历史注视路径,历史帧的注视路径提供了未来帧注视点预测信息。我们使用一个LSTM网络来沿着时间维度对注视点样式进行编码,对于每一个视频切片,我们按顺序将与历史帧所关联的注视点输入到一个stacked LSTM, 然后在t+1帧的输出表示为: f t + 1 p = h ( l 1 p , l 2 p , . . . , l t p ) f_{t+1}^p=h(l_1^p,l_2^p,...,l_t^p)

  4. 显著性编码模块:显著性提供了未来帧注视预测的重要线索,我们提出了一个多尺度方案来计算显著性,分别为local saliency,FOV saliency 和 Global saliency。

  5. 位移预测模块:将显著性编码模块和轨迹编码模块的输出作为输入,使用两个全连接层来预估两个相邻帧注视点之间的位移,表示为: δ l t + 1 p = r ( [ f t + 1 p ; g t + 1 p ] ) \delta l_{t+1}^p=r([f_{t+1}^p;g_{t+1}^p]) . 其中 r ( . ) r(.) 表示两个连接层。一旦获得位移,我们可以计算 t + 1 t+1 的注视点: l t + 1 p = l t p + δ l t + 1 p l_{t+1}^p=l_t^p+{\delta}l_{t+1}^p , 通过最小化训练集中所有人和视频切边的损失函数,来训练此模型。

五、实验

  1. 实验设置:相邻帧之间的时间为0.2s,使用前五个帧的历史注视路径来预测下五个帧的注视点,即前1s预测下1s的注视点。我们使用预测注视点和真实值之间的观察角度来衡量注视点预测的性能,用所有用户和视频的平均交叉角度误差(MIAE)来衡量整体性能,表示为: M I A E = 1 T P i , p d i MIAE=\frac{1}{TP}\sum_{i,p}d_i , 这里 P P 为用户观看此视频的总量, d i d_i 为误差。
  2. 实验对比:我们分别验证了多个模块结合的必需性,时间显著度的必需性,显著性编码器中有无RGB图像和显著性映射的必需性,以及多尺度输入的必需性。
    不同部分的有效性
  3. 坐标回归和位移回归:基于位移和基于注视点预测坐标的MAE分别为20.96和30.72,位移回归策略的良好性能展示了残差分析的有效性。实验展示

六、结论

我们的工作重在理解用户如何体验一个动态360°的沉浸式视频,展示了时空显著性,历史注视路径来作为注视预测的重要性。然后我们提出了一个基于深度学习框架的注视预测模型,通过实验证明了其有效性。对于未来工作,有着两个重要的因素需要进行考虑,一个是长时间的动作线索有利于提高性能,另一个是声音信息,这是一个很好的发展方向。

发布了31 篇原创文章 · 获赞 40 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/librahfacebook/article/details/105123832
今日推荐