Dif-Fusion:第一个基于扩散模型实现的红外光与可见光图像融合的论文

1. 论文介绍

题目:Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models

作者:Jun Yue, Leyuan Fang, Shaobo Xia, Yue Deng, Jiayi Ma

录用期刊:TIP 2023 (CCF-A)

arxiv 论文下载地址:paper

开源代码地址:code

论文主要创新点:提出了第一个基于扩散模型 (Diffusion) 实现的红外光与可见光图像融合模型,但模型不止简单的依赖于 Diffusion,而是一个新颖的 two-stage 的图像融合模型。在一个没有 ground-truth 的任务中,该论文的 idea 非常具有启发性。

2. 关键背景知识

  • 任何基于 Diffusion 实现的算法都高度依赖于对 Diffusion 的理解,这里就不讲解 Diffusion 了。关于 Diffusion 的介绍和数学原理的推导可以参考书籍 《生成式深度学习的数学原理》
  • 相比于多聚焦/多曝光图像融合这种能够获得 ground-truth(即真实融合图像) 的任务,红外光与可见光图像融合中的 ground-truth 是不可获取的。这导致我们无法使用 ground-truth 作为 label 进行训练,这使得这个任务变得困难。因为对于有 ground-truth 的任务(如图像超分/去噪/增强),训练一个 Conditional Diffusion Model(条件扩散模型)是很容易的,比如 FusionDiff:第一个基于扩散模型实现的多聚焦图像融合的论文

3. 模型结构

Dif-Fusion 的总体结构如下:

        

Dif-Fusion 是一个二阶段(two-stage)的图像融合模型,包括两个相互独立的模型:

  • Diffusion 模型:将 Diffusion 的噪声预测网络作为一个特征学习和提取器
  • 特征融合模型:提取噪声预测网络中的特征,通过两种 loss 的约束,获得融合如下

3.1 Diffusion 模型

在看这部分内容之前,建议先看 FusionDiff:第一个基于扩散模型实现的多聚焦图像融合的论文,Dif-Fusion 的网络结构之所以比 FusionDiff 更复杂,是因为红外光与可见光图像融合的训练集中只有源图像,没有 ground-truth;而多聚焦图像融合既有源图像,也有 ground-truth,因此很容易以 ground-truth 作为 label 训练网络。

Diffusion 的输入是单通道的 Infrared(红外光图像)和三通道的 Visible(可见光图像),输出是三通道的融合图像。在实际操作中,作者将 Infrared 和 Visible 在通道方向合并为四通道图像进行输入,这是条件生成模型的常用手段。

由于没有 ground-truth 的融合图像,作者另辟蹊径,将四通道源图像作为 ground-truth 训练一个自监督的 Diffusion 模型。

  • 前向扩散过程:对四通道源图像加噪,扩散步长 T = 2000 T=2000 T=2000
  • 逆向扩散过程:以高斯噪声为label,训练噪声预测网络。

Dif-Fusion 使用的噪声预测网络就是 SR3: Image Super-Resolution via Iterative Refinement 中的 U-Net 网络。

3.2 特征融合模型

在训练完噪声预测网络后,作者使用该噪声预测网络来提取多通道特征。具体来说,从噪声预测网络的上采样的五个 stage 中分别提取特征再相加获得融合特征,将融合特征送到融合模型中获得融合图像。如下图所示:

        

为什么要从噪声预测网络中提取特征呢?因为该网络是以四通道源图像的噪声作为 label 进行训练的,那么网络中必然包含很多与四通道源图像相关的特征信息。 将这些特征提取出来自然可以得到融合图像。

为了训练特征融合模型,作者使用了两种损失函数:

  • 多通道梯度损失(multi-channel gradient loss) L M C G L_{MCG} LMCG
  • 多通道强度损失(multi-channel intensity loss) L M C I L_{MCI} LMCI
        

总 loss 为: L f = L M C G + L M C I L_f=L_{MCG}+L_{MCI} Lf=LMCG+LMCI

其中 I f I_f If 表示融合图像, I i r I_{ir} Iir 表示红外图像, I v i s I_{vis} Ivis 表示可见光图像; I f I_f If I v i s I_{vis} Ivis 都是三通道, I i r I_{ir} Iir 是单通道。

可以发现,两个 loss 的计算对象都是 I f I_f If 和源图像,因为红外光与可见光图像融合任务没有 ground-truth,只能用源图像做监督。

4. 消融实验:验证扩散模型的有效性

论文的其他实验都很常规,消融实验比较有意思。

本文只是将扩散模型的噪声预测网络作为一个特征提取器,那么这种操作是不是有必要/有意义的呢?作者做了消融实验,去掉了扩散过程,保留原有的网络结构。

存疑:怎么去掉扩散过程的我没搞懂,论文没有讲。

实验表明,去掉扩散过程后,三个公开数据集在 6 种评价指标上的得分均有下降:

        

猜你喜欢

转载自blog.csdn.net/qq_43799400/article/details/134385129