Multiscale Structure Guided Diffusion for Image Deblurring

多尺度结构引导扩散图像去模糊

论文链接:https://arxiv.org/abs/2212.01789

项目链接:没找到

Abstract

扩散概率模型(DPM)最近被用于图像去模糊,它被表述为一个图像条件生成过程,将高斯噪声映射到高质量的图像,条件是模糊的输入。在对两两域内数据进行训练时,图像条件DPM (icDPM)显示出比基于回归的方法更真实的结果。然而,当呈现域外图像时,它们在恢复图像方面的鲁棒性尚不清楚,因为它们没有施加特定的退化模型或中间约束。为此,我们引入了一种简单而有效的多尺度结构引导,作为一种隐式偏差,告知icDPM关于中间层锐利图像的粗结构。这种引导配方导致去模糊结果的显著改善,特别是在看不见的领域。该引导是从一个回归网络的潜在空间中提取的,该网络被训练用来预测多个较低分辨率下的清晰目标,从而保持最显著的尖锐结构。在模糊输入和多尺度引导下,icDPM模型可以更好地理解模糊并恢复干净的图像。我们评估了不同数据集上的单数据集训练模型,并展示了更鲁棒的去模糊结果,在未见数据上的伪像更少。我们的方法优于现有的基线,实现了最先进的感知质量,同时保持了具有竞争力的失真指标。

1. Introduction

图像去模糊基本上是一个病态逆问题,其目的是在一个模糊的观测值下估计一个(或几个)高质量的图像。深度网络允许通过成对监督学习实现端到端的图像去模糊。虽然基于深度回归的方法[86,96,102,84,6,94,7,88,83,41,65,57]优化了失真指标,如PSNR,但它们经常产生缺乏视觉保真度的过度平滑输出[39,5,13,4]。因此,感知驱动的方法[43,26]旨在产生仍然忠实于清晰参考图像的清晰且视觉上令人愉悦的图像,通常在失真性能上略有折衷,即PSNR下降小于3dB[4,60]允许显著更好的视觉质量,同时仍然接近目标图像。GAN[17]被用于改善去模糊感知[36,37]。然而,GAN训练存在不稳定性、模式崩溃和伪影[52],这可能会妨碍生成图像的可信性。最近,DPM[19]进一步提高了各种成像逆问题的照片真实感[72,42,88,70],将其表述为图像条件生成过程,其中DPM将退化估计作为辅助输入。图像条件DPM (icDPM)不估计退化核,也不施加任何中间约束。这些模型是使用标准去噪损失[19]和有监督方式的两两训练数据进行训练的。在图像恢复中,这种两两训练数据集通常是通过在一组干净图像上应用已知的退化模型来人为管理的,这不可避免地在合成训练数据集和真实世界的模糊图像之间引入了域间隙。当出现看不见的数据时,icDPM的稳健性相当不清楚,因为中间恢复过程很难处理。例如,当我们将综合训练的icDPM应用于域外数据时,我们观察到明显的性能下降,包括未能对输入进行去模糊处理(图1)和注入伪影(图4“icDPM”和图7“DvSR”)。

在这里插入图片描述

我们在现有的去模糊icDPM中建立了域灵敏度和图像调节之间的联系[70,72,88],其中观察到的较差泛化归因于原始的输入级连接和去模糊过程中缺乏中间约束。当在合成训练集上进行优化时,可能会出现过拟合或记忆[76],使模型容易受到输入分布偏移的影响。目前,对模糊或损坏图像的DPM调节研究尚不充分[67],我们假设对icDPM进行更有效的图像调节对于使模型对未知域更具约束和鲁棒性至关重要。

受传统盲去模糊算法的启发,其中使用显式结构先验(例如,包含图像显著性[61,91])进行优化,我们在中间层使用多尺度结构引导增强icDPM主干(UNet[69])。这些引导特征是通过一个经过训练的回归网络来预测输入的显著尖锐特征而获得的。该引导与模糊图像一起,为模型提供了关于图像特定退化的更多信息线索。结果表明,该模型能更准确地恢复干净图像,并能更有效地进行泛化。

我们的贡献有三个方面:

  1. 研究和分析了运动去模糊任务中条件扩散模型的域泛化,并通过经验发现了模型鲁棒性与图像条件调节之间的关系;
  2. 我们提出了一个直观而有效的引导模块,它将输入图像投影到多尺度结构表示中,然后将其作为辅助,使扩散模型更具鲁棒性;
  3. 与现有的基准测试相比,我们的单数据集训练模型通过产生更合理的去模糊和更少的伪像,通过最先进的感知质量和同等的失真指标进行量化,在不同的测试集中显示出更强的鲁棒性结果。

2. Related Works

单图像去模糊是从模糊观测中恢复一幅或多幅高质量、清晰图像的相反过程。通常,经典的去模糊方法涉及变分优化[16,35,40,53,62,91,25],对模糊核、图像或两者都有预先假设,以减轻逆问题的病态性。手工制作的结构先验,如边缘和形状,已经成功地应用于许多算法中,以引导去模糊过程在去除模糊的同时保留图像中的重要特征[61,62,91]。随着深度学习的出现,去模糊可以被视为一个特定的图像到图像的转换问题,其中深度模型将模糊图像作为其输入,并通过恢复图像和目标之间的像素损失来预测高质量的对应图像[86,96,102,84,64,94,7,88,83,83,41,65,57,24]。像素方面的损失,如L1和L2,已知会导致过度平滑的图像[39,5,13],因为它们具有“回归均值”的性质。为此,在像素约束的基础上添加感知驱动的损失,包括感知损失[26,98,50,49,100,13]和对抗损失[36,37],以提高去模糊图像的视觉保真度,同时降低失真分数[4,60]。与此同时,最近的工作通过探索注意力机制[59,93,87,92,83,84]、多尺度范式[56,7]和多阶段框架[95,6,94]来改善结构设计。

扩散概率模型(Diffusion probistic Models, DPM)[75、19、77、14]、基于分数的模型[79、80、81]以及它们最近的探索性推广[2、23、12]在各种应用中都取得了显著的成果[10],从图像和视频合成[71、63、68、20、30、21],到解决一般成像逆问题[11、27、32、29、38、8]。DPM的特点是训练稳定[19,14,28],模式覆盖多样[78,33],感知能力强[71,14,63]。DPM公式包括一个固定的正向过程,逐步向图像中加入高斯噪声,以及一个可学习的反向过程,以马尔科夫链结构进行操作,去噪并恢复干净的图像。条件DPM的目标是使用额外的输入(类[14],文本[71,63],源图像)执行图像合成。

图像条件DPM (icDPM) 已经成功地重新用于图像恢复任务,如超分辨率[72,42]、去模糊[88]、JPEG恢复[70,31]。这是通过在输入级连接损坏的观测值来实现的。它们不需要特定任务的损失或架构设计,并且由于高样本感知质量而被采用。然而,将DPM推广到不可见的域移位,以及它们的低质量/损坏图像调理仍然没有被探索。

对未知领域的推广 如上所述,用于去模糊的深度恢复模型依赖于合成的成对训练数据。然而,任何训练良好的深度恢复模型都可能无法在域外数据上产生可比较的结果(图1)。为了解决这一问题,研究人员在提高模型泛化方面主要追求两个方向:增强训练数据的代表性和真实感,或者提高模型的域泛化能力。我们的方法侧重于后一个方向,但与前一个方向并不排斥,可以结合起来进一步改善结果。为了解决数据限制,以前的工作侧重于获取或组合更具代表性的训练数据[55,66,65101],和/或使用生成方法生成逼真的退化图像[97,89]。其他先前的工作集中在显式领域适应,利用迁移学习技术来减少领域差距。这些方法包括非配对图像翻译[22,64]和领域自适应[85,73,46,57],它们通常涉及两个特定领域之间的对抗性表述和联合训练。然而,当引入新的数据集时,这些方法可能需要重新训练。相比之下,我们的方法不涉及指定域之间的显式适应。相反,我们专注于引入更有效的图像调节机制,自然地使模型对分布转移更加健壮。

3. Method

3.1. 概述

在这里插入图片描述

我们假设访问样本为 ( x , y ) ∼ p train  ( x , y ) (\boldsymbol{x}, \boldsymbol{y}) \sim p_{\text {train }}(\boldsymbol{x}, \boldsymbol{y}) (x,y)ptrain (x,y),其中 x \boldsymbol{x} x表示高质量的清晰图像, y \boldsymbol{y} y表示各自的低质量模糊观测值(如图2所示)。这种配对数据集通常是采用特定的退化模型对高质量图像进行退化模拟而生成的。目标是从低质量观测 y ^ ∼ p real  ( y ^ ) \hat{\boldsymbol{y}} \sim p_{\text {real }}(\hat{\boldsymbol{y}}) y^preal (y^)中重建一个或多个干净、清晰的图像 x \boldsymbol{x} x。一般来说,训练集 p train  p_{\text {train }} ptrain 的分布与未见图像 p real  p_{\text {real }} preal 的分布不同。因此,一个模型不仅要在训练上表现良好,而且要能推广到训练上,这一点至关重要。鉴于DPM在高质量图像恢复方面的优异性能,我们考虑将其用于我们的配方[72,88]。在接下来的内容中,我们将简要描述DPM的训练和抽样,以使我们的工作具体化。无条件DPM的目的是从数据分布 p ( x ) p(\boldsymbol{x}) p(x)中采样,方法是对高斯分布中的样本进行迭代去噪,并将其转换为目标数据分布中的样本。为了训练这样的模型,需要一个正向扩散过程和一个反向扩散过程。如图2所示,在扩散步骤 t t t,目标图像 x \boldsymbol{x} x的带噪版本 x t x_t xt x t = α t x + ( 1 − α t ) ϵ \boldsymbol{x}_t=\sqrt{\alpha_t} \boldsymbol{x}+\sqrt{\left(1-\alpha_t\right)} \boldsymbol{\epsilon} xt=αt x+(1αt) ϵ, ϵ ∼ N ( 0 , I d ) \boldsymbol{\epsilon} \sim \mathcal{N}\left(0, \boldsymbol{I}_{\boldsymbol{d}}\right) ϵN(0,Id)生成,其中, ϵ \boldsymbol{\epsilon} ϵ从标准高斯分布 N ( 0 , I d ) \mathcal{N}\left(0, \boldsymbol{I}_{\boldsymbol{d}}\right) N(0,Id)中采样,并且 α t \alpha_t αt控制在每个步骤 t t t添加的噪声量。在相反的过程中,图像到图像网络(即UNet) G θ ( x t , t ) \mathcal{G}_\theta\left(x_t, t\right) Gθ(xt,t)(xt;由θ参数化的T)学习从部分噪声输入 x t \boldsymbol{x}_t xt中估计干净图像。在实践中,通过模型的重新参数化来预测噪声,而不是干净的图像,可以获得更好的样本质量[19]。一旦训练完成,它就会从一个纯高斯噪声开始迭代运行 T T T步来采样一个干净的图像 x T ∼ N ( 0 , I d ) \boldsymbol{x}_T \sim \mathcal{N}\left(0, \boldsymbol{I}_{\boldsymbol{d}}\right) xTN(0,Id)。图像条件化DPM进一步注入一个输入图像 y \boldsymbol{y} y,从而生成高质量的样本,与低质量的观测结果配对。这涉及到从 p ( x ∣ y ) p(x \mid y) p(xy)(后验)的条件分布生成样本。条件DPM G θ ( [ x t , y ] , t ) \mathcal{G}_\theta\left(\left[\boldsymbol{x}_t, \boldsymbol{y}\right], t\right) Gθ([xt,y],t)使用,其中图像调节通常通过输入级 y y y x t \boldsymbol{x}_t xt的连接来实现[72,88,70]。然而,我们发现该公式对输入图像的域移位很敏感,导致泛化效果差(图1中的“DPM”)。此外,在许多情况下,它会引入视觉伪像(图7中的“DvSR”)。我们推测这是由于低级的图像条件反射(输入级拼接),在中间过程中缺乏约束。因此,我们将多尺度结构引导 h ( y ) h(y) h(y)集成到icDPM主干的潜在空间中,以告知模型有关显著图像特征的信息,例如重建高质量图像所必需的重要粗结构,同时解耦不相关信息,例如模糊核的足迹和颜色信息。为了获得具有上述特征的这种引导,我们提出了一个辅助回归网络,并利用其学习到的特征作为引导的实现,将在下文第3.2节中描述。

3.2. 多尺度结构引导

在这里插入图片描述

图3显示了我们提出的引导的细节,用 h ( ⋅ ) h(\cdot) h()表示。配备这种多尺度引导的DPM能够更好地意识到输入的潜在显著结构,从而学习更好地从目标条件分布采样到 p real  ( x ∣ y ) p_{\text {real }}(\boldsymbol{x} \mid \boldsymbol{y}) preal (xy)。此外,当输入域发生变化时, h ( y ) h(y) h(y)的分布不会发生显著变化,因此即使应用于看不见的域,它也可以可靠地提供辅助结构引导。对于两端,我们构建了 h k ( ⋅ ) = H ( φ k ( ⋅ ) ) h_k(·)= H(φ_k(·)) hk()=H(φk())的引导模块。在尺度 k k k上,它由一个图像变换函数 φ k ( ⋅ ) φ_k(·) φk()和一个回归驱动的引导网络 h h h组成。具体来说, φ k ( ⋅ ) φ_k(·) φk()对输入图像 y y y进行变换,以抑制与粗糙的锐利图像结构无关的信息(例如,颜色和关于特定域退化的信息)。这确保了 H H H在一个输入域不太敏感的空间上运行。我们首先将 y y y转换为灰度空间 y ˉ \bar{y} yˉ,然后, y ˉ \bar{y} yˉ被下采样 2 k 2^ k 2k,其中 k = 1 , 2 , 3 k = 1,2,3 k=1,2,3。这样可以去除精细的细节(包括一定数量的模糊足迹),同时在多个较低分辨率下保留粗结构。在[89]的激励下,我们还添加了少量高斯噪声来掩盖其他特定于域的退化/特征,并使输出对输入域移位不那么敏感。因此,
ϕ k ( y ) = d ↓ k ( y ‾ ) + n , n ∼ N ( 0 , σ 2 I ) . (1) \phi_k(\boldsymbol{y})=d_{\downarrow k}(\overline{\boldsymbol{y}})+\boldsymbol{n}, \quad \boldsymbol{n} \sim \mathcal{N}\left(0, \sigma^2 \boldsymbol{I}\right) . \tag{1} ϕk(y)=dk(y)+n,nN(0,σ2I).(1)
然后,引导网络 H φ \mathcal{H}_{\varphi} Hφ通过将 ϕ k ( y ) \phi_k(\boldsymbol{y}) ϕk(y)映射到表示/潜空间中,以 h k ( y ) = H φ ( ϕ k ( y ) ) h_k(\boldsymbol{y})=\mathcal{H}_{\varphi}\left(\phi_k(\boldsymbol{y})\right) hk(y)=Hφ(ϕk(y))的形式提取引导特征。为了确保它获得显著的结构特征并进一步过滤掉不重要的信息,我们在 h k ( y ) h_k(\boldsymbol{y}) hk(y)之上应用回归任务 R φ \mathcal{R}_{\varphi} Rφ,并约束输出更接近其尖锐目标 R φ \mathcal{R}_{\varphi} Rφ。通过这种方式,k尺度下的导引 h k ( y ) h_k(\boldsymbol{y}) hk(y)被强制执行,以保持与清晰图像相关的信息,并抑制特定于输入的其他信号(例如,模糊痕迹)。

最后,我们通过将提取的表示添加到扩散编码器上相应尺度的特征映射(图2)中作为额外的偏差,将多尺度引导 { h k ( y ) } \left\{h_k(\boldsymbol{y})\right\} { hk(y)}合并到原始扩散UNet中。为了补偿深度上的差异,在每个相应的尺度上,我们应用一个卷积层,该层具有与扩散编码器相同数量的特征。附录中提供了详细的图表。

3.3. 训练损失

我们的模型是端到端训练的,既有用于优化引导网络的多尺度回归损失,也有用于icDPM的去噪损失。回归损失为各尺度k的均方误差,定义为:
L guidance  k = E ( x , y ) ∼ p trait  ∥ R φ ( H φ ( ϕ k ( y ) ) ) − ϕ k ( x ) ∥ 2 , (2) \mathcal{L}_{\text {guidance }}^k=\mathbb{E}_{(\boldsymbol{x}, \boldsymbol{y}) \sim p_{\text {trait }}}\left\|\mathcal{R}_{\varphi}\left(\mathcal{H}_{\varphi}\left(\phi_k(\boldsymbol{y})\right)\right)-\phi_k(\boldsymbol{x})\right\|_2, \tag{2} Lguidance k=E(x,y)ptrait Rφ(Hφ(ϕk(y)))ϕk(x)2,(2)
其中 H φ \mathcal{H}_{\varphi} Hφ为引导特征提取器, R \mathcal{R} R被实例化为单个卷积层,将引导特征投影到最终输出的干净图像上(如图3所示)。总回归损失为不同尺度上的平均值 L guidance  = ∑ k L guidance  k \mathcal{L}_{\text {guidance }}=\sum_k \mathcal{L}_{\text {guidance }}^k Lguidance =kLguidance k。注意,我们没有在引导网络中使用任何额外的下采样/上采样操作,因此在每个尺度上空间维度保持不变。我们的经验观察到,当k = 1,2,3时,三种不同尺度的积分效果最好,详情见第4.6节。

通过聚合来自输入图像 y \boldsymbol{y} y的信息,以及多尺度引导 { h k ( y ) } \left\{h_k(\boldsymbol{y})\right\} { hk(y)},我们的icDPM G \mathcal{G} G通过最小化去噪损失来训练:
L D P M = E ( x , y ) ∼ p rina  E t ∼ Unif ⁡ ( 0 , 1 ) E ϵ ∼ N ( 0 , I ) ∥ G θ ( x t , y , { H φ ( ϕ k ( y ) ) } , α t ) − ϵ ∥ 1 . (3) \begin{array}{r} \mathcal{L}_{\mathrm{DPM}}=\mathbb{E}_{(\boldsymbol{x}, \boldsymbol{y}) \sim p_{\text {rina }}} \mathbb{E}_{t \sim \operatorname{Unif}(0,1)} \mathbb{E}_{\boldsymbol{\epsilon} \sim \mathcal{N}(0, \boldsymbol{I})} \\ \left\|\mathcal{G}_\theta\left(\boldsymbol{x}_t, \boldsymbol{y},\left\{\mathcal{H}_{\varphi}\left(\phi_k(\boldsymbol{y})\right)\right\}, \alpha_t\right)-\boldsymbol{\epsilon}\right\|_1 . \end{array} \tag{3} LDPM=E(x,y)prina EtUnif(0,1)EϵN(0,I)Gθ(xt,y,{ Hφ(ϕk(y))},αt)ϵ1.(3)
在给定噪声损坏 x t x_t xt、模糊输入 y y y、噪声调度器 α t \alpha_t αt以及提出的多尺度引导 { H φ ( ϕ k ( y ) ) } \left\{\mathcal{H}_{\varphi}\left(\phi_k(\boldsymbol{y})\right)\right\} { Hφ(ϕk(y))}的情况下,用 θ \theta θ参数化的去噪模型预测噪声 ϵ \epsilon ϵ。总训练损失 L = \mathcal{L}= L= L guidance  + L D P M \mathcal{L}_{\text {guidance }}+\mathcal{L}_{D P M} Lguidance +LDPM,用于对引导网络 H \mathcal{H} H、回归层 R \mathcal{R} R、icDPM G \mathcal{G} G进行端到端优化。在推理过程中,该模型从高斯噪声开始,并在每个去噪步骤中以模糊输入和多尺度引导为条件,迭代恢复干净图像。

4. Experiments

4.1. 设置和指标

如上所述,我们对DPM对看不见的模糊数据的模型泛化特别感兴趣。因此,我们在只使用合成配对数据集训练模型的场景下设置了实验,并将在一些看不见的测试集上进行评估,其中图像可能呈现与域内数据不同的内容和扭曲。为了进行基准测试,我们使用广泛采用的运动去模糊数据集GoPro[56]作为训练数据,并假设Realblur-J[66]、REDS[55]和HIDE[74]是未见过的测试集的代表。

在GoPro[74]中,提供了3214对模糊/干净的训练样例进行训练,并保留了1111张图像进行评估。Realblur-J[66]是一个最新的真实感数据集,主要由带有运动模糊的低光场景组成,提供了980张测试图像。我们认为它与GoPro的领域差距最大。REDS[55]提供了一个免费的视频去模糊数据集,具有更逼真的运动模糊。我们遵循[55,6]并提取300张验证图像用于运动去模糊测试。HIDE[74]是最常用的数据集,用于测试从GoPro训练的2025张测试图像的模型泛化能力。

4.2. 实现细节

我们的框架是在TensorFlow 2.0中实现的,并在32个TPU v3内核上进行了训练。我们只从回归损失开始训练,并在前60k次迭代中将去噪损失的权重线性增加到1。训练时使用Adam优化器[34] (β1 = 0:5;β2 = 0:99),在128 × 128随机裁剪上批量大小为256。我们在前20k次迭代中使用线性递增的学习率,然后以恒定的学习率1 × 10−4。我们为icDPM使用了全卷积UNet架构[88],以确保该模型可以在任意图像分辨率下使用。在推理过程中,我们遵循[88],在不同参数下进行一系列采样。更多的细节包含在附录中。

4.3. 引导的有效性

我们首先通过与我们的基线设置进行定性比较来验证所提出的引导模块的有效性,基线设置是一个标准的图像条件DPM(简称为“icDPM”),在其之上我们将引入引导模块(简称为“icDPM w/ Guide”)。

引导和领域差距。由于引导旨在提高对域漂移的鲁棒性,我们对来自不同中间“图像空间”的Inception距离进行了分析,以验证引导模块是否正在逐步减少来自不同来源的输入之间的差距(即我们场景中的不同模糊图像)。在表1中,我们首先计算GoPro(域内)和Realblur-J(域外)图像之间的逐尺度初始距离。在×2、×4和×8下采样空间的每个尺度上,与下采样的灰度输入相比,我们观察到引导网络输出上FID和KID的一致减少。这表明,引入学习引导可以提供更多的领域不可知信息,有利于模型在未知领域的泛化。

在这里插入图片描述

在图4中,我们在域外输入上显示了不同尺度的多尺度回归输出。结果与我们的预期一致,因为每个尺度的灰度预测逐渐接近干净的图像。此外,在这个例子中,我们注意到来自icDPM的明显采样伪影,这些伪影被建议的引导有效地消除了。

在这里插入图片描述

引导和模型能力。随着引导网络引入更多的参数,我们研究其性能的提高是否仅仅是由于更大的模型。我们对有和没有引导网络的不同模型大小进行了联合分析,结果如表2所示。

在这里插入图片描述

我们使用单一的GoPro训练模型,将GoPro测试集的结果称为“域内”,将Realblur-J数据集的结果称为“域外”。我们保持构建块的数量不变,并通过仅改变卷积滤波器的数量来调节网络的大小。’ -S ‘和’ -L '分别表示较小和较大的模型。我们在不同的网络规模下,图像条件DPM (icDPM)不含所提出的引导网络。在表2的(a)和(b)行中,我们观察到通过增加UNet容量,在感知和失真质量方面,域内去模糊性能有了显着改善。然而,在更大的网络中,域外测试结果会变得更差,暗示训练过程中可能存在过度拟合。通过目视检查,我们还发现较大的DPM在呈现未见过的数据时容易产生伪影,如图1、4和8所示。通过引入引导网络,我们观察到域内和域外的性能提升。我们还在图5中给出了一个扭曲感知图,其中从不同的采样参数(即步数和噪声的标准偏差)中获得的样本。与[88]类似,我们发现了感知质量和失真度量之间的一般权衡。此外,我们观察到,在不同的采样参数下,所有引导模型都始终优于基线DPM。我们在附录中提供了其他数据集的额外结果,并观察到与基线icDPM相比使用引导模块的类似效果和益处。

在这里插入图片描述

4.4. 去模糊结果

我们将我们的去模糊结果与最先进的方法进行了比较,这些方法大致分为扭曲驱动模型[6,94,7],基于感知驱动的GAN方法[36,37],以及最近基于扩散的方法[88]。在这项工作中,我们特别强调评估(1)对未见数据的泛化能力,以及(2)输出的感知质量,愿意妥协平均失真分数的轻微下降,以更好地在失真和感知之间进行权衡[4]。对于基准测试,我们主要考虑生成模型的标准度量量化结果的感知质量,包括LPIPS[99]、NIQE[54]、FID (Frechet Inception Distance)[18]和KID (Kernel Inception Distance)[3]。我们还提出失真指标,包括PSNR和SSIM的完整性。然而,我们注意到它们与人类感知的相关性较小[58],最大化PSNR/SSIM会导致视觉感知的妥协[4]。我们的方法是基于生成模型和执行随机后验抽样。训练数据集中提供的参考图像只是其他可能性中的一种可能的恢复结果(由于逆问题的病态性质)。因此,与[4,60]类似,我们的结果折衷了一定数量的像素平均失真,同时仍然忠实于目标。我们突出了每个指标的最佳值和次优值。为了可读性,KID值按1000倍缩放。

我们首先在表4中展示了域内GoPro的性能。我们的模型全面实现了最先进的感知指标,同时通过取多个样本的平均值来保持竞争失真指标(“Ours-SA”)。

在这里插入图片描述

此外,我们对Realblur-J(表5)、REDS(表7)和HIDE(表6)上的域泛化和域外结果感兴趣。我们在未见过的Realblur-J和REDS上取得了明显更好的感知质量,并在HIDE上取得了竞争结果。

在这里插入图片描述

在这里插入图片描述

此外,我们通过比较表3中总结的所有四个测试集的平均性能,分析了性能最好的单数据集训练模型的鲁棒性。我们的方法显著提高了感知分数,同时保持了高度竞争的失真分数,与最佳PSNR的差异< 0.08 dB,与平均样本的最佳SSIM的差异< 0.001 ('Ours - SA ')。

在这里插入图片描述

图6在GoPro[56]和HIDE[74]上、图7在RealblurJ[66]上、图8在REDS[55]上分别给出了视觉去模糊的例子。

在这里插入图片描述

在GoPro(域内)测试示例中,我们发现所有方法都能够产生合理的无伪影去模糊,并且我们的方法产生的结果更清晰,视觉更逼真。在三个域外数据集上,从基线方法开始出现性能下降。例如,基于GAN的模型[37]和先前基于扩散的模型[88]往往会在域外数据上产生伪影,而基于状态回归的模型[87]会产生过度平滑的结果。我们的公式在不同的数据集上表现得更加一致,显著减少了高感知真实感的未见数据上的伪影。更多放大的视觉例子在附录中。

4.5. 感知研究

我们进一步对人类受试者进行了用户研究,以验证对未见数据的去模糊性能的感知质量,所有模型都在GoPro上进行了训练,并在Relblur-J上进行了测试。我们要求亚马逊土耳其机器人评分员从给定的一对图像中选择质量最好的图像。我们使用了30对独特的尺寸512×512,并平均了25个评分者的750个评分。在表8中,每个值表示评分者选择行而不是列的次数。可以看出,我们的方法优于现有的解决方案。此外,值得指出的是,在有和没有引导机制(表示为icDPM)的情况下,我们的方法的偏好存在显着差距。

在这里插入图片描述

4.6. 其他建模选择

我们对回归目标(RGB vs .灰度),引导采用的尺度数量(单个v.s.多尺度),以及结合引导的机制(输入水平与潜在空间)上引导网络的建模选择进行了额外的消融研究。

在这里插入图片描述

表9 (a)表示在没有任何引导的情况下我们的基线icDPM。我们首先比较了在输入级和潜在空间中纳入引导的差异(表9 (b)和 ( c ) (c) (c))。在(b)中,我们将回归输出升级到原始输入大小,并将结果连接到扩散UNet。在 ( c ) (c) (c)中,我们通过上述加法操作将回归输出前的特征映射合并到UNet潜在空间中。结果表明,潜在空间引导优于输入级连接。(b)和 ( c ) (c) (c)都对(a)进行了改进,显示了引入指南的总体好处。我们还观察到,通过在(d)行使用多尺度引导而不是在 ( c ) (c) (c)行使用单尺度引导,有了适度的改进。在第(e)行中,我们将回归目标从颜色空间简化为灰度空间,这进一步改进了结果。

5. Discussion

我们提出了一种学习到的多尺度结构引导机制,作为一种内隐偏差,增强了其去模糊鲁棒性。然而,我们承认存在局限性,需要进一步调查。虽然我们的重点是提高模型在不访问大规模真实训练数据的情况下泛化到未见数据的能力,但我们认识到训练数据集的质量和真实感最终限制了模型的去模糊能力。在我们的实验中,我们仅限于GoPro训练数据集进行基准测试,这并不能充分覆盖可能遇到的所有现实场景,例如光线条件差的饱和区域,夜间的光条。我们观察到,几乎所有的方法都无法消除此类图像的模糊,我们在附录中列出了失败的案例。在实践中,我们相信我们的方法可以进一步受益于对大规模不同训练数据集的访问。

Appendix

A. Additional Results

对GoPro, HIDE和red的引导效果。

在这里插入图片描述

额外的视觉效果。

为了补充主要论文图6、7、8,我们对下面所有数据集提供了额外的和放大的定性结果。Realblur-J(域外)去模糊示例如图25、26、27、28所示。red(域外)去模糊示例如图13、14、15、16所示。HIDE(域外)去模糊示例如图17、18、19、20所示。GoPro(域内)去模糊示例如图21、22、23、24所示。

引导特征。

在这里插入图片描述

失败情况。

图29、30、31、32。

B. Additional Ablation

输入连接。

在这里插入图片描述

进一步跨域对齐。

在这里插入图片描述

C. Additional implementation details

网络结构。

在这里插入图片描述

推理。

在这里插入图片描述

计算成本。

在这里插入图片描述

基准测试结果。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43790925/article/details/131839808