超分论文笔记2020CVPR视频超分:Zooming Slow-Mo- VSR with Temporal Group Attention-TDAN

Space-Time Video Super-Resolution (STVSR) 问题定义:
从一个低像素低帧率恢复出高帧率高分辨率的视频。

1.Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution

代码链接

1.1 总结

之前的一些方法采用手工制作的正则化方法,并做出比较强的假设,这些方法限制了模型的容量和扩展到更多样的模式,同时计算量大。
现在的一些深度学习的方法,一种直接的方法是组合对视频插针和视频超分,形成一个two-stage方式。先对LR视频进行查证,然后重建高分辨率图像。然而这两部分是结合在一起的,使用two-stage的方式将这两部分分开。
作者提出了一个统一的one-stage STVSR框架通过做时间和空间的超分。提出了自适应学习一个可变形的特征插值函数来临时插值中间LR帧特征,而不是像两阶段方法那样合成像素级LR帧。插值函数可以集合local temporal contexts,可以处理复杂的运动。同时引入了一个新的可变性的ConvLSRM模型利用全局纹理信息,并同时进行时空对齐和聚合。然后通过一个深度SR重建网络从聚合的LR特征重建HR视频。

1.2 方法

任务设定:
给了低帧低分辨率视频序列: I L = { I 2 t − 1 L } t = 1 n + 1 I^{L} = \{I_{2t-1}^L\}_{t=1}^{n+1} IL={ I2t1L}t=1n+1,重建出对应的高分辨率慢动作视频序列: I H = { I t H } t = 1 2 n + 1 I^H = \{I_t^H\}_{t=1}^{2n+1} IH={ ItH}t=12n+1。对于中间从帧 { I 2 t H } t = 1 n \{I_{2t}^H\}_{t=1}^n { I2tH}t=1n,没有对应的低像素输入。
作者提出了一个一阶段的空间时间超分框架。包括了四部分:

  • feature extractor
  • frame feature temporal interpolation module
  • deformable ConvLSTM
  • HR frame reconstructor
    在这里插入图片描述

1.2.1 Frame Feature Temporal Interpolation

这个模块的设计如下所示。以往的方法是先得到中间帧的低分辨率图像,其实就是把视频超分分成了两部分。这个网络是直接得到中间帧的特征,然后通过上一帧,中间帧和下一帧的低分辨率特征做超分。
所以这个模块主要是做中间层的特征。让前一帧得到一个前向运动信息,后一帧得到后向运动信息,合在一起得到中间帧的特征,所以得到了两个offset field。然后通过一个混合函数得到最后的特征。
F 2 L = α ∗ T 1 ( F 1 L , Φ 1 ) + β ∗ T 3 ( F 3 L , Φ 3 ) F_2^L = \alpha * T_1(F_1^L, \Phi_1) + \beta * T_3(F_3^L,\Phi_3) F2L=αT1(F1L,Φ1)+βT3(F3L,Φ3)
这里觉得还挺不错的, α \alpha α β \beta β 是两个可学习的 1 × 1 1 \times 1 1×1 卷积核。然后得到了中间帧的特征~~在这里插入图片描述

1.2.2 Deformable ConvLSTM

使用一个sequence-to-sequene mapping,除了从对应的低像素图片做超分,还集合了相邻帧的时序特征。使用了ConvLSTM结构。然而convLSTM只能通过小的感受野隐式捕获运动信息。这个时候 h t − 1 h_{t-1} ht1 c t − 1 c_{t-1} ct1传递的是不匹配的噪声,而不是全局信息。重建的图像会有伪影。于是作者显示地嵌入了一个具有可变形对齐的状态更新单元。
在这里插入图片描述
g h g_h gh g c g_c gc卷积运算, Δ p t h \Delta p_t^h Δpth Δ p t c \Delta p_t^c Δptc是预测的偏差, h t − 1 a h_{t-1}^a ht1a c t − 1 a c_{t-1}^a ct1a是对齐的隐藏状态和单元格状态。相比以往的,这里显示地将 h t − 1 h_{t-1} ht1 c t − 1 c_{t-1} ct1 F t L F_t^L FtL对齐。此外,为了充分挖掘时间信息,我们以双向方式使用可变形ConvLSTM。将时间反转的特征映射到同一个可变形的convLSTM中,并将前向和后向的隐藏状态串联起来作为最终的隐藏状态ht,用于HR帧重建。
在这里插入图片描述

1.2.3 Frame Reconstruction

l r e c = ∣ ∣ I t G T − I t H ∣ ∣ 2 + ϵ 2 l_{rec} = \sqrt{||I_{t}^{GT} - I_t^H||^2 + \epsilon^2} lrec=ItGTItH2+ϵ2

2. Video Super-resolution with Temporal Group Attention

代码地址

2.1 总结

作者提出一个新的方法,可以有效地将时间信息以分层的方式合并。输入的序列被分成几个组,每一个组对应一个帧率,这些组提供了恢复丢失细节的补充信息,之后进一步与注意模块和深层组内融合模块集成在一起。

2.2 方法

给定一个连续的低分辨率视频序列, I t L I_t^L ItL 2 N 2N 2N个相邻的帧 { I t − N L : I t − 1 L , I t + 1 L : I t + N L } \{I_{t-N}^L: I_{t-1}^L,I_{t+1}^L:I_{t+N}^L\} { ItNL:It1L,It+1L:It+NL},通过相邻帧的时空信息重现出高分辨率的视频序列 。 I ^ t \hat I_t I^t
在这里插入图片描述

2.2.1 Temporal Group Attention

输入不同帧率的视频序列
Temporal Grouping
将原来 2 N 2N 2N帧图片分成 { G 1 , . . . , G n } , n ∈ [ 1 : N ] \{G_1, ..., G_n\}, n \in [1:N] { G1,...,Gn},n[1:N]组,每一组记成 G n = { I t − n L , I t L , I t + n L } G_n = \{I_{t-n}^L, I_t^L, I_{t+n}^L\} Gn={ ItnL,ItL,It+nL}。所以网络可以泛化到任意帧的输入。这样可以更好地提取特征,特别是有一些帧有遮挡现象之类的。
Intra-group Fusion
Inter-group Fusion with Temporal Attention
对每个组,得到一个一通道的特征层 F n g F_n^g Fng,计算每个channel的权重,然后再时间轴上使用softmax根据 F n g F_n^g Fng计算attention maps。最后attention weighted feature可以这样计算得到 F ^ n g = M n ⊙ F n g , n ∈ [ 1 : N ] \hat F_n^g = M_n ⊙ F_n^g, n\in[1:N] F^ng=MnFng,n[1:N]

2.2.2 Fast Spatial Alignment

先检测出interest point,然后再建立点之间的对应关系。以往对每个点都做的光流法,会比较容易引进pixel-level的失真,同时是独立地做邻帧和参考帧的预测,会带来很多冗余的计算。

3.TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution

代码地址

3.1 总结

对于VSR,有个重要的问题时如何对齐supporting frames 和 reference frames。之前主要有光流估计和image warp操作,这些方法容易引进伪影。使用光流方法也不易得到高质量的运动估计。即使有比较准确的运动场,imagewarp会产生伪影。作者采用了一个不依赖于光流的方法。同时,由于固定核设置,CNN在对几何变形有固有的局限,以往也有通过可变形卷积的操作实现高层任务。所以作者引进了可变形卷积。

3.2 方法

问题设置:
输入为 I t L R ∈ R H × W × C I_t^{LR}\in R^{H\times W\times C} ItLRRH×W×C,输出为 I t H R ∈ R s H × s W × C I_t^{HR} \in R^{sH \times sW \times C} ItHRRsH×sW×C s s s是上采样倍数。输入除了 I t L R I_t^{LR} ItLR,还有supporting LR frames { I t − N L R , . . . , I t − 1 L R , I t + 1 L R , . . . , I t + N L R } \{I_{t-N}^{LR}, ... ,I_{t-1}^{LR},I_{t+1}^{LR},...,I_{t+N}^{LR}\} { ItNLR,...,It1LR,It+1LR,...,It+NLR},总共输入了连续的 2 N + 1 2N + 1 2N+1 帧,网络包括一个时序变形对齐网络(TDAN)和一个超分重建网络。最后得到目标帧的超分图。
TDAN

3.2.1 Temporally-Deformable Alignment Network

将support frame序列和参考帧对齐。包括三个部分

  • feature extraction
  • deformable alignment
  • aligned frame reconstruction 这里还用了一个对齐loss作为让变形对齐模块可以采样到有用的信息。

3.2.2 SR Reconstruction Network

  • temporal fusion 先做concatenate,然后卷
  • nonlinear mapping 将shadow融合特征作为输入然后得到deep feature
  • HR frame reconstruction 提取特征后,通过ESPCN的方法实现重建

3.2.3 Loss

L a l i g n = 1 2 N ∑ i = t − N , ≠ t t + N ∣ ∣ I i L R ′ − I t L R ∣ ∣ 2 2 L_{align} = \frac{1}{2N}\sum_{i=t-N,\neq t}^{t+N}||I_i^{LR^{'}} - I_t^{LR}||_2^2 Lalign=2N1i=tN,=tt+NIiLRItLR22
L s r = ∣ ∣ I t H R ′ − I t H R ∣ ∣ 2 2 L_{sr} = ||I_t^{HR'} - I_t^{HR}||_2^2 Lsr=ItHRItHR22
L = L a l i g n + L s r L = L_{align} + L_{sr} L=Lalign+Lsr
第一个loss没有label,所以作者将reference frame的特征作为gt。

猜你喜欢

转载自blog.csdn.net/eight_Jessen/article/details/108444269