QUALITY-GATED CONVOLUTIONAL LSTM FOR ENHANCING COMPRESSED VIDEO

用于增强压缩视频的质量门控卷积LSTM

ABSTRACT

过去十年,深度学习在提高压缩视频质量方面取得了巨大成功。然而,现有的方法旨在单个帧上的质量增强,或仅使用固定的相邻帧。因此,它们未能充分利用视频中的帧间相关性。本文提出了具有双向递归结构的质量选通卷积长短时记忆网络,以充分利用大范围帧中的优势信息。更重要的是,由于压缩帧之间存在明显的质量波动,高质量的帧可以为其他帧提供更多有用的信息以提高质量。因此,我们建议从质量相关特征中学习ConvLSTM单元中的“忘记”和“输入”门。因此,具有不同质量的帧以不同的重要性贡献了ConvLSTM中的内存,使每个帧的信息得到合理和充分的利用。最后,实验验证了我们的QG-ConvLSTM方法在提高压缩视频质量方面的有效性,烧蚀研究表明,我们的QG-ConvLSTM方法在利用多帧信息时学会了在质量和相关性之间进行权衡。The project page: https://github.com/ryangchn/QG-ConvLSTM.git

1. INTRODUCTION

如今,视频在多媒体应用中变得越来越流行。在带宽有限的信道上传输视频时,必须应用视频压缩以显著节省比特率。然而,压缩视频不可避免地会产生压缩伪影,这可能会导致体验质量(QoE)严重下降。因此,有必要研究如何提高压缩视频的视觉质量

在过去的十年中,越来越多的工作集中在压缩图像和视频的质量增强上。其中大多数[1、2、3、4、5、6、7、8、9]旨在提高JPEG图像的视觉质量。具体来说,[1、2、3]利用非深度学习方法进行JPEG恢复。然后,董等人[4]率先应用深度网络来增强JPEG图像质量。之后,考虑到JPEG的先验知识,提出了D3[6]和DDCN[5]来去除JPEG伪影。后来,DnCNN在[7]中被提出用于多个图像恢复任务。最近,采用内存块的MemNet[9]成为最先进的图像增强方法,为了提高压缩视频的质量,VRCNN[10]被设计为HEVC帧内编码的后处理滤波器。后来,王等人[11]提出通过基于CNN的方法(称为DCAD)增强解码的HEVC视频。最近,提出了QE-CNN方法[12,13],其中QE-CNN-I和QE-CNN-P网络分别用于处理编码内和编码间失真。然而,上述所有方法都是单帧方法,即只有一帧输入到网络一次。因此,这些方法没有考虑帧间相关性,这严重限制了它们的性能。为了克服这一缺点,杨等人提出了用于视频增强的多帧CNN(MF-CNN)。在MF-CNN中,峰值质量帧(PQF)1用于帮助相邻的非PQF提高质量。然而,MF-CNN仅使用有限数量的固定帧,即两个最近的PQF。因此,它忽略了有用的在其他帧中可用的信息,并且没有考虑质量和相关性之间的权衡

本文提出了一种质量选通卷积长短时存储(QG-ConvlTM)网络,用于提高压缩视频的质量。在我们的QGConvLSTM方法中,ConvLSTM[14]结构被用来充分利用整个视频中的有利信息。此外,由于压缩帧之间的质量波动,不同质量的帧在帮助其他帧提高质量方面应该是不同等重要的。因此,我们建议使用另一个LSTM网络从质量相关特征中学习ConvLSTM中“忘记”和“输入”门的权重,替换原始ConvLSTM单元中的这些门。因此,用于忘记先前存储器和将当前信息更新到存储器单元的权重由压缩质量引导。例如,高质量帧期望忘记先前内存中的低质量信息,并将其高质量信息更新到内存中,以帮助增强其他帧。因此,我们的QGConvLSTM方法能够合理、充分地利用多帧信息来提高压缩视频的质量。注意,由于原始视频在解码器端不可用,因此在本文中,我们使用了从压缩帧和视频解码器中提取的无参考质量相关特征

我们的QG-ConvLSTM方法的示例如图1所示。如图1所示,在我们的QG-ConvLSTM方法中,大量帧有助于增强帧198。其中,帧196、197和200的质量高于帧198,并且时间距离较低,因此它们对增强帧198的贡献最大。此外,与帧201相比,帧204与帧198的相关性较小,但其质量明显高于帧201。因此,帧201和204对帧198的贡献几乎相同。注意,贡献是通过第4.3节中介绍的公式计算的。最后,我们可以从图1-(a)中看出,与MF-CNN相比,我们的QG-ConvLSTM方法实现了更好的性能和更低的增强质量波动。本文的主要贡献是:

(1) 我们提出了一种用于增强压缩视频质量的ConvlTM网络,充分利用了视频中可用的有用信息。

(2) 我们建议通过从质量相关特征中学习权重来对ConvLSTM网络进行选通,以合理利用具有各种压缩质量的帧中的信息。

2. PRELIMINARY

由于我们的QG-ConvLSTM方法是由连续帧之间的高度相关性和压缩质量的明显变化所驱动的,因此在本节中,我们分析了视频帧之间的相关性和帧旁压缩视频的质量波动。在本文中,我们遵循[15]使用70个视频(表示为Vid70)的数据库,这些视频由各种标准编码,包括MPEG1、MPEG-2、MPEG-4、H.264\/A VC和HEVC

2.1. Content correlation

根据皮尔逊相关系数(PCC)评估两帧之间的相关性。在这里,我们计算每个帧与其40个相邻帧(20个前帧和20个后帧)之间的PCC。图2显示了Vid-70数据库中所有帧之间的平均PCC值。从图2可以看出,PCC值在5帧内大于0.79。在10帧间隔时,两者之间的平均PCC也高于0.72。当距离扩大到20帧时,该数字约为0.65。这些验证了大范围内的帧在内容上存在强相关性,并且这种相关性随着帧间隔而降低

因此,充分利用大范围帧中的信息可以明显提高增强压缩视频的性能。因此,本文建议采用双向ConvLSTM结构。

2.2. Quality fluctuation

 根据[15]中的分析,压缩后帧质量显著波动。通过峰值信噪比(PSNR)评估压缩质量。具体来说,在Vid-70数据库中,每个压缩视频的帧级峰值信噪比的平均标准差(STD)分别为1.83 dB(对于MPEG-1/2)、1.78 dB(对于MPEG-4)、1.64 dB(对于H.264)和1.06 dB(对于HEVC)。峰值-视频通道差异(PVD)表示峰值信噪比曲线中最近的峰值和谷值之间的差异,对于MPEG-1/2/4和H.264也高于1.00 dB。对于最新的HEVC标准,平均PVD高达1.51 dB。这验证了压缩帧旁边的较大质量差异。图3示出了一个示例,显示了压缩帧之间的明显质量波动。

因此,在利用ConvlTM提高压缩质量时,还应考虑质量波动。也就是说,具有不同质量的帧在向其他帧提供有用信息方面的贡献应该不同。基于此,我们建议通过从质量相关特征中学习的权重来选择ConvLSTM。

3. PROPOSED QG-CONVLSTM APPROACH

3.1. Framework

 图4说明了我们的QG-ConvLSTM方法的框架。总的来说,我们的QG-ConvlTM网络被设计为一种时空结构,它采用双向ConvlTM结构来充分利用前一帧和传入帧中的信息。更重要的是,我们建议通过1D LSTM网络,输入质量相关特征,在ConvLSTM单元中生成“忘记”(fn)和“输入”(in)门的权重。因此,压缩质量指导了在ConvLSTM中忘记先前记忆和更新当前信息的比率。因此,具有不同压缩质量的帧对ConvLSTM中的存储单元的贡献具有不同的意义。这使得不同质量的信息得到合理利用。

具体来说,我们的QG-ConvLSTM方法包含四个组件,即空间网络、门生成器、质量门单元和重构网络。这四个网络的功能分别表示为FS(·)、FG(·)、FC(·)和FR(·)。此外,我们将压缩视频定义为{Yn}Nn=1,其中n表示帧索引,n是总帧数。因此,在n的时间步长上将质量特征定义为Qn,我们的QG-ConvLSTM方法的函数可以表示为:

Spatial network

如图4-(a)所示,我们采用了具有整流线性单元激活函数的CNN层(ReLU)[16]在空间网络中,从压缩帧中提取空间特征。具体来说,让Wsm和Bsm表示第m个卷积层的权重和偏差矩阵,我们的第n个压缩帧Yn的空间网络的表达式如下所示:

 其中CNN层的总数表示为M。因此,作为时间序列,

 Gates generator

回想一下,原始视频无法在质量增强中获得,我们的gates生成器中使用了无参考特征。在本文中,我们遵循[15]利用通过无参考质量评估方法[17]提取的36个空间特征。此外,量化参数(QP)和比特分配也作为压缩域特征应用于我们的方法中,可以直接从视频解码器获得。因此,对于第n帧,我们得到了38维质量相关特征,表示为qn。一个帧对于增强其他帧的重要性取决于其与其他帧相比的相对质量,而不是绝对质量。因此,对于第n帧,我们将当前帧和T个相邻帧的质量特征输入到我们的门生成器网络。也就是说,我们有

 作为38·(T+1)维度的输入特征。

......

猜你喜欢

转载自blog.csdn.net/mytzs123/article/details/126054059
今日推荐