【 Deep-Shallow 融合框架:Detail Extractor and Spectral Attention:高光谱泛锐化】

A Deep-Shallow Fusion Network with Multi-Detail Extractor and Spectral Attention for Hyperspectral Pansharpening

(多细节提取和光谱注意力机制的深-浅融合网络在高光谱全色锐化中的应用)
高光谱(HS)全色锐化的目的是将低分辨率HS(LRHS)图像与高分辨率全色(PAN)图像融合,以获得具有较高光谱和空间分辨率的高光谱图像。然而,现有的HS全色锐化算法主要基于多光谱(MS)全色锐化方法,不能在连续光谱波段和较宽光谱范围内完美地恢复较多的光谱信息和高频空间细节,导致光谱失真和空间模糊。本文提出了一种新的高光谱全色锐化网络结构(Hyper-DSNet),通过多细节提取和光谱注意力的深浅融合结构,充分保留了潜在的空间细节和光谱保真度。具体而言,该架构主要由三部分组成。首先,为了解决PAN图像的空间模糊问题,挖掘图像中的潜在信息,采用5种高通滤波模板对PAN图像进行空间细节提取,构建了多细节提取器(multi-detail extractor,MDE)。然后,在通过多尺度卷积模块之后,顺序地利用深-浅融合(DSF)结构,该结构通过随着网络深入而减少输出通道的数目来减少参数。最后,利用光谱注意力机制(SA)模块对HS图像进行光谱保存,以获得丰富的光谱信息。在3个常用的模拟数据集和1个全分辨率数据集上进行的可视化和定量实验证明了所提Hyper-DSNet算法对最新高光谱全色锐化技术的有效性和鲁棒性。消融研究和讨论进一步验证了我们的贡献,例如:更好的光谱保留和空间细节恢复。

介绍

高光谱(HS)图像在同一场景中同时具有数百个连续的窄波段,包含了丰富的光谱信息,使得HS图像在军事监视、环境监测、矿产勘探、农业和商业产品变化检测等领域得到了广泛的应用。但是,由于传感器的物理限制,扩展光谱范围也带来了空间分辨率的降低。与全色(PAN)图像相比,HS图像通常具有较低的空间分辨率,这在一些需要高空间和光谱分辨率的实际应用中可能是不够的。因此,旨在融合HS和PAN图像以生成具有更高光谱和空间分辨率的融合HS图像的高光谱全色锐化从多个角度来看具有重要意义,也受到遥感和图像处理界的极大关注。
在最近的十年中,许多数据融合的技术已经开发改善商品图像的空间分辨率。他们大致可以分为五类:组件替换(CS),多分辨率分析(MRA),贝叶斯,矩阵分解和基于深度学习(DL)的方法。
CS方法依赖于用PAN图像替换HS图像的分量,包含诸如主分量分析(PCA)、强度-色调-饱和度(IHS)、Gram-Schmidt(GS)谱锐化和引导滤波(GF)的算法。它们在空间性方面表现良好,特别是抵抗配准问题,但可能导致频谱失真。MRA方法首先从PAN图像获取空间特征,然后以多分辨率方式将其注入HS图像,包括基于小波变换的方法、基于拉普拉斯金字塔的方法、基于平滑滤波器的强度调制(SFIM)、调制传递函数(MTF)广义拉普拉斯金字塔法(MTFGLP)和带高通调制的MTF-GLP(MTFGLP-HPM)。这些方法可以很好地保留光谱信息,但主要遭受空间失真。除此之外,还有一些混合方法同时使用分量替换和多尺度分解,如引导滤波PCA(GFPCA)。
贝叶斯方法取决于给定LRHS和PAN图像所需高分辨率HS(HRHS)图像的后验分布的使用。其中,高斯先验(贝叶斯稀疏)、贝叶斯朴素高斯先验(贝叶斯朴素)、贝叶斯HySure是典型的贝叶斯方法。此外,基于矩阵分解的方法是在首先用信号子空间表示对观测数据建模之后利用优化工具来分解相关矩阵,包括称为耦合非负矩阵分解(CNMF)的代表性方法。此外,还有其他一些典型的变分方法也属于基于VO的方法。基于贝叶斯和矩阵分解的方法往往受到表示能力不足的限制,如果先验假设不符合实际情况,可能会导致质量严重下降。此外,现有的融合模型优化策略大多是迭代求解,耗时且效率低下。
近年来,基于深度学习(DL)的方法,特别是基于卷积神经网络(CNN)的DL技术,在图像处理领域中取得了显著的进步,例如,图像分辨率重建、图像分类、图像去噪、图像融合等。因此,许多基于深度学习的方法也被应用于解决全色锐化问题。Dong等人最初引入浅三层CNN(SRCNN)来学习LR和HR面片之间的映射,以获得单幅图像超分辨率。Ledig等人基于有效的残差学习技术,采用残差网络(ResNet)来构建用于图像SR的更深层网络。尤其是CNN取得了可喜的成果不仅在单一图像超分辨率也在MS泛锐化方面取得了不错的成绩。最近,更多的研究人员尝试将CNN用于HS全色锐化。Masi等人开发了一种用于全色锐化的三层CNN架构,利用与PAN图像堆叠的预插值低分辨率MS图像作为输入。这是第一个工作利用CNN的MS全色锐化,灵感来自SRCNN。此外,Yang等人针对全色锐化问题提出了一种深度网络(PanNet),其主要贡献是将上采样多光谱图像添加到网络输出中,以在高通滤波域而不是图像域中传播光谱信息和训练参数。He等人引入谱预测结构(HyperPNN)来增强CNN对HS全色锐化任务的谱预测能力。此外,HS全色锐化也被处理为一个受限的最小化问题,Xie等人通过CNN学习了额外的先验知识。此外,He等人开发了用于HS全色锐化的新的谱保真度CNN架构(HSpeNet)以保持全色锐化图像的保真度,其关注HS细节的可分解性,同时引入谱保真度损失。近年来,一些工作直接利用无参考丢失而不进行下采样来模拟训练数据,取得了较好的效果。Xiong等人首先设计了一种不需要参考融合图像的损失函数。在此基础上,Li等人将CNN与变压器模块相结合,设计了一种无参考损耗的CNN+金字塔变压器网络。
然而,在这些方法中的一些中,由于从输入图像提取的所有特征被同等地对待,因此忽略了遥感图像(尤其是高光谱图像)的特殊性,进一步限制了选择性地采用相关信息的能力。此外,由于高光谱图像光谱范围比多光谱图像宽的特点,大多数网络没有针对光谱保存的特殊性进行设计,没有考虑光谱信息的重要性和敏感性,容易造成光谱失真。另外,对于PAN图像,前人往往将其与HS图像一起直接送入网络或使用固定的高频模板进行预处理,这不可避免地会丢失一些空间信息。而且,当涉及到深层网络结构时,研究人员往往只关注多层卷积后的结果,而忽略了浅层特征的重要性。此外,从网络中的深层和浅层提取的特征是不同的,浅层特征通常包含更多的纹理细节。
为了解决上述问题,提出了一种Hyper-DSNet,它包含一个具有多细节提取器和光谱关注的深浅融合结构,用于HS全色锐化任务。

贡献

1)针对HS全色锐化中光谱保持的难题,我们通过一个光谱注意力模块,产生不同的通道权重,来区别性地保持HS图像丰富而敏感的光谱信息。它可以降低频谱失真并提高网络的频谱保真度。
2)我们给予了一个多细节提取器(MDE)模块,它包含几个不同的高通滤波模板,用于从PAN图像中提取不同的空间细节,并将它们与PAN图像一起注入网络。丰富多样的高频信息以及其他特征促进了PAN图像空间信息的更好利用。
3)提取的特征经过多尺度卷积后进入专门设计的深浅融合(DSF)模块,不仅连接了深浅特征,而且减少了网络参数,更好地恢复了空间信息。

在三个基准HS数据集上的实验结果证明了所提出的Hyper-DSNet优于最新的(SOTA)HS全色锐化技术,如图1所示。最后,在全分辨率下获得了最好的评价结果,证明了该方法的鲁棒性。请添加图片描述

相关工作

CNN-based HS Pansharpening Framework

近年来,神经网络在图像处理和计算机视觉领域得到了广泛的应用。它们主要用于连续滑动窗口(核)卷积处理正则矩阵。在训练过程中,卷积核的每个参数通过前向和后向传播不断更新和优化,以最小化损失函数。CNN的主要数学公式可以总结如下:
在这里插入图片描述
其中,* 为卷积运算,Ol表示第l层的输出特征图,Wl和bl分别表示该层的网络参数和偏置,f(·)为激活函数。
考虑到HS全色锐化的情况,基于神经网络的框架接受观察到的HS图像和PAN图像作为输入,并最终输出HRHS图像。尺寸为L × W的PAN图像表示为P0 R L × W × 1 R^{L×W×1} RL×W×1,而具有l × w像素和B个光谱波段的LRHS图像表示为H0 R l × w × B R^{l×w×B} Rl×w×B。期望的HRHS输出为H ∈ RL×W×B,并且基于CNN的框架的融合输出可以被写为具有相同维数的^H,即在这里插入图片描述
其中M(·; θ)表示从输入到输出的映射,所有参数θ均需优化。最后,基于CNN的HS全色锐化的网络参数通常可以通过最小化以下l2损失函数来更新:
在这里插入图片描述

其中||·||2指l2范数。一旦学习了M(·; θ),并且将新观察到的PAN和HS图像P0和H0再次输入到映射中,就可以获得预测的HRHS图像。
与一般的多光谱(MS)全色锐化问题相比,HS全色锐化面临着更大的挑战。一是HS图像的光谱范围(HYDICE传感器的从400 nm到2400 nm的191个波段)比MS图像的范围(WorldView-3传感器的从400 nm到1040 nm的8个波段)宽,导致HS图像和PAN图像之间的光谱间隙更大。另一个是需要同时重建具有高光谱分辨率的连续波段中的更多细节。这些挑战使得HS全色锐化更容易出现频谱失真等问题,对算法的精度和频谱预测重建能力有更高的要求。
针对HS图像的特点,提出了许多相应的解决方案。如HyperPNN 通过增加光谱预测层来增强网络的光谱预测能力,并将其分为光谱预测子网络和空间-光谱推理子网络。HSpeNet1和HSpeNet2都假设HS细节的可分解性,并相应地逐步合成这些细节。具体地,HSpeNet1从底层到顶层重构HS细节,HSpeNet2以带组重构的方式合成这些细节。此外,FusionNet关注传统CS和MRA框架,并通过对单个PAN图像与每个MS波段进行差分来直接提取细节。

Image Differential Operator

对于MS全色锐化任务,Yang等人提出了一种深度网络(称为PanNet),该网络使用上采样多光谱图像,并在高通滤波域而不是图像域中训练参数。然而,它们仅使用一个预定义的高通模板,这可能导致一些详细信息的丢失。基于这种思想,我们期望使用更多不同的高通模板来提取更多类型的高频细节,以实现更好的融合过程。在这一部分中,首先介绍了我们将要用到的几种高通图像微分算子。
第一种是最简单的一阶差分算子。对于二维图像,它包含两个方向上的差异,即:x轴和y轴,其可以由以下核表示,在这里插入图片描述
同样,我们可以使用以下2-D核来描述两个对角方向之间的差异,即:Roberts算子,请添加图片描述
但由于不存在中心像素,这种算子在实际应用中并不十分方便,因此我们打算采用3 × 3的算子,如Prewitt算子。在这里插入图片描述
在计算中心位置的梯度时,与之前的2×2只使用一对像素的正负偏差不同,3 × 3向外扩展为三对,使其对特定方向更加敏感。
请添加图片描述
Sobel算子在此基础上进行一定的加权,使最近的像素对具有较高的权重,有利于降低噪声的影响,见以下算子,在这里插入图片描述
另外,拉普拉斯算子是在图像增强中经常出现的二阶微分算子。与一阶算子相比,二阶微分算子具有更强的边缘定位能力和更好的锐化效果。拉普拉斯算子定义为对函数g先进行梯度运算▽,再进行散度运算▽·▽的结果,见下公式:在这里插入图片描述
其中g是二阶微分函数,∆是拉普拉斯算子。

Motivations

如前所述,HS全色锐化方法必须处理两个关键问题,即,HS和PAN图像之间的实质光谱覆盖差异,以及同时恢复多个连续窄带中的特征的必要性。虽然上文讨论的方法提出了许多经验方法来应对这些挑战,但仍有一些制约因素有待解决
1)PAN图像是恢复空间细节的重要基础,通常直接作为网络的输入。因此,PAN图像中的高频信息不能被充分利用。这促使我们给予多个高通滤波器来构造所谓的MDE模块以更好地提取细节。
2)其次,很少有方法考虑到连续光谱HS波段的特殊性,这使得光谱信息变得关键和敏感。频谱保存操作应该专门设计,促使我们利用频谱注意力进行频谱保存。
3)第三,大量的光谱波段也带来了参数数量的增加,导致训练的困难。另外,在图像融合任务中需要更多地重视低层特征信息。因此,可以适当地设计具有减少的参数的特殊模块,并将其嵌入或替换到其他网络中,这促使我们开发具有减少的信道数目的DSF模块。

方法

总体流程图如图2所示;请添加图片描述
总体上,我们的Hyper-DSNet包含三个子模块,分别是MDE模块、DSF模块和光谱关注度(SA)模块,下面将逐一介绍。

Multi-detail Extractor

在图像超分辨率领域,高频信息(例如,边缘、轮廓和纹理)对于性能是相当关键的。因此,我们期望提取和利用PAN图像中丰富的高频细节,而不是用原始图像进行训练。我们相信人工提取和干预过程会带来更好的效率和效果。此外,PanNet已经注意到高通滤波域上的特征的重要性,但是仅集成了一种类型的高通滤波器用于提取单个细节级别。启发我们采用更全面的细节提取方法。我们相信多级高通信息可以获得更好的性能,因此提出了所谓的MDE模块。
对于MDE模块,PAN图像P0 R L × W × 1 R^{L×W×1} RL×W×1首先经过5个高通算子提取多层次的高频信息,然后将这些高频信息与PAN图像本身连接起来构成输入特征。五个高通算子,即:一阶差分算子、Robert算子、Prewitt算子、Sobel算子、Laplacian算子已在等式(4)-(8)依次展示,这里我们将它们分别表示为αdir、αrobert、αprewitt、αsobel、αlaplacian,因此输入高通特征OP R L × W × 7 R^{L×W×7} RL×W×7如下:在这里插入图片描述
我们在图3中显示了在PAN图像上使用这五种高通算子的结果。我们可以看到,两者提取的高频信息差异显著,有的更平滑,有的更细腻,符合我们的预期。
在这里插入图片描述

Deep-Shallow Fusion Module

在本节中,我们主要介绍细节提取的结构,它可以分为两部分,即:多尺度卷积模块和DSF模块,其目标是提取有效和关键的空间-光谱信息。在此之前,首先通过多项式核将HS图像上采样到与PAN相同的大小。MDE模块的输出和上采样的HS图像(LRHSU R L × W × B R^{L×W×B} RL×W×B)沿着谱维连接作为细节提取结构的输入。
这里使用由Yuan等人在MSDCNN中首次引入的多尺度卷积模块来提取多尺度信息。采用三种不同大小的卷积核函数对不同的感受野进行特征提取。该过程可表述为:在这里插入图片描述
其中Wi和bi分别表示核权重和偏差,Oi是响应卷积层的输出,下标i(i = 3,5,7)表示卷积核的大小,Ob是该多尺度卷积模块的输出,δ(·)标准是校正线性单元(ReLU)的激活函数。这里,出于参数减少的目的,将每层处的输出特征图的通道数设置为16。
在多尺度卷积模块之后,接着是DSF模块。通常,浅卷积主要用于聚焦于感受野小的局部区域,产生细粒度特征,缺乏上下文信息。相比之下,深层具有更大的感受域,可以获得具有语义信息的抽象特征。然而,它可能过于抽象而不能用于关注像素重构而不是理解图像内容的低级视觉任务领域。因此,浅特征和深特征在我们的HS全色锐化任务中都很重要。在以往的方法中,深度卷积的结果往往直接作为最终的输出,这会导致只关注深层信息,可能会丢失部分底层特征。这里,每个浅卷积和深卷积结果将被连接以在每个步骤中保持这两种类型的关键信息。首先关注卷积的第一层,它可以被看作是前面三个不同大小卷积的权重。那么下面几个深卷积在数学上可以表示为在这里插入图片描述
其中Obi表示第i次卷积的输出,W3i和b3i表示该部分第i次3×3卷积的权重和偏置。
如前所述,我们在信道维度中级联每个浅卷积和深卷积结果以在每个步骤中保持有用的关键信息:在这里插入图片描述
此外,在逐像素视觉任务中,通过浅卷积获得的低水平空间信息需要更多的关注。相同特征数的浅、深卷积核会带来一定的信息冗余。因此,设置更多的特征图来描述低级信息以避免冗余问题。随着卷积层的加深,特征图的数量由高到低递减。更明确的是,DSF模块中的通道数按照图2所示的顺序设置为[48,32,16,8,8]。

扫描二维码关注公众号,回复: 14768317 查看本文章

请添加图片描述

Spectral Attention Module

与其他全色锐化融合任务相比,高光谱全色锐化最大的挑战在于光谱信息丰富而敏感,这对高光谱图像的光谱保真度提出了更高的要求。为此,我们认为需要一个专用的模块来保证超分辨率中的光谱信息。
从先前细节提取模块提取的特征图同等重视每个特征通道,而忽略了光谱贡献的不同程度,这需要一些注意以帮助唤起不同通道的重要性并去除信息冗余。众多的注意机制中,我们给予了SA模型,它实际上是基于通道注意机制,由于其具有性价比和光谱保持的竞争能力,因此被称为SA模型。因此,构造SA模块来表征信道之间的关系。具体而言,LRHSU图像作为SA模块的输入。首先,为了更方便地聚合空间信息,采用了全局平均池层,它将输出向量vb R 1 × 1 × B R^{1×1×B} R1×1×B在这里插入图片描述
其中Ib(i,j)是LRHSU图像的第b通道中的位置(i,j)处的值,Vb表示输出矢量的第b个值。接着,全局谱信息被压缩成一个B长度的向量。为了正确和完全捕获通道特异性依赖性,这里我们采用具有Sigmoid激活的简单门控机制,
请添加图片描述

其中输出s ∈ RB,W1 R C / r × C R^{C/r ×C} RC/r×C,W2 R C × C / r R^{C× C/r} RC×C/r是核大小为1×1的两个全连通卷积层的权值,σ表示sigmoid激活。为了减少计算量,首先以比率r减少信道的数目,然后通过两个连续的卷积层连续地扩展回B:在这里插入图片描述
应用该SA模块,对提取的细节输出进行尺度变换,跳过连接,加入初始LRHSU作为残差部分,得到最终输出。据信,目标地面实况可视为在LRHSU基础上增加了更详细的信息。因此,采用初始LRHSU作为跳跃连接可以保留其原始谱信息,避免过拟合,防止随着网络深度增加而退化,并加速收敛,允许网络更好更快地训练以达到预期效果,He等人提出了该方法,并通过其他全色锐化方法进行了证明。

Loss Function

为了描述网络输出与地面实况(GT)之间的差异,我们在训练过程中采用l1损失函数来优化所提出的网络。损失函数可以表示如下,在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43690932/article/details/129674482