Dif-Fusion：第一个基于扩散模型实现的红外光与可见光图像融合的论文

文章目录

1. 论文介绍

题目：Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models

作者：Jun Yue, Leyuan Fang, Shaobo Xia, Yue Deng, Jiayi Ma

录用期刊：TIP 2023 (CCF-A)

arxiv 论文下载地址：paper

开源代码地址：code

论文主要创新点：提出了第一个基于扩散模型 (Diffusion) 实现的红外光与可见光图像融合模型，但模型不止简单的依赖于 Diffusion，而是一个新颖的 two-stage 的图像融合模型。在一个没有 ground-truth 的任务中，该论文的 idea 非常具有启发性。

2. 关键背景知识

任何基于 Diffusion 实现的算法都高度依赖于对 Diffusion 的理解，这里就不讲解 Diffusion 了。关于 Diffusion 的介绍和数学原理的推导可以参考书籍《生成式深度学习的数学原理》
相比于多聚焦/多曝光图像融合这种能够获得 ground-truth（即真实融合图像）的任务，红外光与可见光图像融合中的 ground-truth 是不可获取的。这导致我们无法使用 ground-truth 作为 label 进行训练，这使得这个任务变得困难。因为对于有 ground-truth 的任务（如图像超分/去噪/增强），训练一个 Conditional Diffusion Model（条件扩散模型）是很容易的，比如 FusionDiff：第一个基于扩散模型实现的多聚焦图像融合的论文

3. 模型结构

Dif-Fusion 的总体结构如下：

Dif-Fusion 是一个二阶段（two-stage）的图像融合模型，包括两个相互独立的模型：

Diffusion 模型：将 Diffusion 的噪声预测网络作为一个特征学习和提取器
特征融合模型：提取噪声预测网络中的特征，通过两种 loss 的约束，获得融合如下

3.1 Diffusion 模型

在看这部分内容之前，建议先看 FusionDiff：第一个基于扩散模型实现的多聚焦图像融合的论文，Dif-Fusion 的网络结构之所以比 FusionDiff 更复杂，是因为红外光与可见光图像融合的训练集中只有源图像，没有 ground-truth；而多聚焦图像融合既有源图像，也有 ground-truth，因此很容易以 ground-truth 作为 label 训练网络。

Diffusion 的输入是单通道的 Infrared（红外光图像）和三通道的 Visible（可见光图像），输出是三通道的融合图像。在实际操作中，作者将 Infrared 和 Visible 在通道方向合并为四通道图像进行输入，这是条件生成模型的常用手段。

由于没有 ground-truth 的融合图像，作者另辟蹊径，将四通道源图像作为 ground-truth 训练一个自监督的 Diffusion 模型。

前向扩散过程：对四通道源图像加噪，扩散步长 $T = 2000$
逆向扩散过程：以高斯噪声为label，训练噪声预测网络。

Dif-Fusion 使用的噪声预测网络就是 SR3: Image Super-Resolution via Iterative Refinement 中的 U-Net 网络。

3.2 特征融合模型

在训练完噪声预测网络后，作者使用该噪声预测网络来提取多通道特征。具体来说，从噪声预测网络的上采样的五个 stage 中分别提取特征再相加获得融合特征，将融合特征送到融合模型中获得融合图像。如下图所示：

为什么要从噪声预测网络中提取特征呢？因为该网络是以四通道源图像的噪声作为 label 进行训练的，那么网络中必然包含很多与四通道源图像相关的特征信息。将这些特征提取出来自然可以得到融合图像。

为了训练特征融合模型，作者使用了两种损失函数：

多通道梯度损失（multi-channel gradient loss） $L_{MCG}$ ：

多通道强度损失（multi-channel intensity loss） $L_{MCI}$ ：

总 loss 为： $L_f=L_{MCG}+L_{MCI}$

其中 $I_f$ 表示融合图像， $I_{ir}$ 表示红外图像， $I_{vis}$ 表示可见光图像； $I_f$ 和 $I_{vis}$ 都是三通道， $I_{ir}$ 是单通道。

可以发现，两个 loss 的计算对象都是 $I_f$ 和源图像，因为红外光与可见光图像融合任务没有 ground-truth，只能用源图像做监督。

4. 消融实验：验证扩散模型的有效性

论文的其他实验都很常规，消融实验比较有意思。

本文只是将扩散模型的噪声预测网络作为一个特征提取器，那么这种操作是不是有必要/有意义的呢？作者做了消融实验，去掉了扩散过程，保留原有的网络结构。

存疑：怎么去掉扩散过程的我没搞懂，论文没有讲。

实验表明，去掉扩散过程后，三个公开数据集在 6 种评价指标上的得分均有下降：