【文献25/03/26】Hyperspectral Image Transformer Classification Networks

高光谱图像Transformer分类网络

Hyperspectral Image Transformer Classification Networks | IEEE Journals & Magazine | IEEE Xplore

摘要

高光谱图像(HSI)分类是地球观测任务中的一项重要工作。

卷积神经网络(CNN)凭借其强大的特征抽取能力,在HSI分类任务中表现突出。

然而,现有的基于CNN的方法无法充分挖掘光谱特征的序列属性,阻碍了HSI分类性能的进一步提升。

本文提出了一种高光谱图像Transformer(HiT)分类网络,通过将卷积操作嵌入到Transformer结构中,以捕捉细微的光谱差异并传递局部空间上下文信息。

HiT由两个关键模块组成,即光谱自适应3-D卷积投影模块卷积置换器(ConV-Permutator),用于提取细微的空间-光谱差异。

  • 光谱自适应3-D卷积投影模块使用两个光谱自适应3-D卷积层而不是线性投影层,从HSI中生成局部空间-光谱信息。

  • 此外,Conv-Permutator模块利用深度卷积操作分别沿高度、宽度和光谱维度对空间-光谱表示进行编码。

在四个基准HSI数据集(包括印度松、帕维亚大学、休斯顿2013和雄安(XA)数据集)上的大量实验表明,所提出的HiT在现有的Transformer和最先进的基于CNN的方法中具有优越性。


1-引言

  • 利用SACP模块从输入的高光谱影像(HSIs)中提取局部空间-光谱融合表示,并使用Conv-Permutator模块对这些表示进行编码。

  • •SACP模块旨在提取局部空间信息并自适应捕捉长期光谱信息。

  • •Conv-Permutator模块则可以分别沿高度、宽度和光谱维度对表示进行编码。

  1. 1.1) 我们提出了一种新颖的基于Transformer框架的高光谱图像分类方法,称为HiT。据我们所知,本文是首次将视觉Transformer与卷积操作应用于高光谱图像分类

  2. 2.2) 我们提出了一个自适应提取光谱信息的SACP模块,并进一步捕获光谱-空间融合信息。据我们所知,本文是首次采用3-D卷积操作对输入的高光谱图像进行投影。

  3. 3.3) 我们提出了一个新模块,称为Conv-Permutator,通过分别沿高度、宽度和光谱维度对输入表示进行编码,以捕获更多的光谱-空间信息

  4. 4.4) 基于四个基准数据集的实验结果表明,所提出的HiT在性能上优于最先进的Transformer框架和基于卷积神经网络的方法。

我们将本文的其余部分组织如下:

  • •第二部分讨论了基于深度学习的高光谱图像分类及Transformer网络的相关工作。

  • •第三部分简要介绍了所提出的HiT。

  • •第四部分说明了四个基准高光谱图像数据集、实验设置、实验结果及相应的分析。

  • •第五部分最后总结了结论并对未来的工作进行了简要展望。

2-相关工作

基于深度学习的高光谱图像分类方法

  • •尽管卷积神经网络(CNN)及其变体已经取得了令人鼓舞的分类结果,但它们固有的网络结构和对局部空间信息的过度关注可能无法捕捉到更多有用的光谱序列信息。这将阻碍它们在高光谱图像分类任务中产生更高的分类准确率。

ViTs在图像分类中的应用

  • •然而,所有这些ViT都是为自然图像分类任务建立的。尽管存在一些基于Transformer的高光谱图像分类方法,但它们未能捕捉到高光谱图像分类任务中的局部光谱差异

3-方法

A:HIT

  • •SACP模块,该模块使用光谱自适应3D卷积层提取局部空间信息和长期光谱信息,

  • •以及Conv-Permutator,该模块分别通过深度卷积层和点卷积层对高度、宽度和光谱维度的表示进行编码。

  • •因此,所提出的HiT可以增强局部空间-光谱信息的捕获容量,并在加深网络时减少局部信息损失。

B:SACP模块

  • •我们的SACP由两个光谱自适应的3-D卷积层构成,如图2所示,包含两个分支:局部空间分支L和全局光谱分支G。

  • •局部空间分支旨在学习空间位置敏感的重要性图,对于局部分支:它试图通过使用3D卷积来捕捉短期谱空间信息并关注重要特征。

  • •全局光谱分支则以卷积方式自适应地聚合光谱信息。 对于全局分支:它旨在通过使用3D卷积层来整合长范围谱信息,以进行自适应谱聚合。

  1. 1.局部分支:它对空间位置敏感,旨在利用短期光谱动态执行局部空间-光谱特征抽取操作。如图2所示,局部分支由一系列带有分段线性单元的3-D卷积层构成[26]。

  2. 2.全局分支:它结合了全局光谱信息,并学会生成用于动态聚合的光谱自适应卷积核。

  3. 3.光谱自适应聚合:在此步骤中,我们通过结合局部分支和全局分支输出最终特征

C:卷积置换(ConvPermute)

我们的卷积-置换器模块由两个关键组件组成,即卷积置换和通道-多层感知机(MLP),分别用于编码局部空间信息和光谱信息。

  • •通道-MLP采用与ViP相似的结构,由两个全连接层和一个高斯误差线性单元(GELU)中间激活函数组成。

  • •与ViP中空间编码的类似处理方式,空间-光谱信息分别沿高度、宽度和光谱维度进行处理。与ViP不同的是,我们通过利用深度卷积和点卷积层而不是线性投影来提取空间-光谱表示。

SACP模块:该模块旨在提取输入图像的空间-光谱表示。SACP模块由两个分支组成:

  • 局部分支:专注于捕捉短期的空间-光谱信息,通过一系列3D卷积层进行局部特征提取。首先,对输入图像进行自适应平均池化,然后通过3D卷积学习重要性图,最后生成与光谱位置敏感的权重。

  • 全局分支:负责整合全局光谱信息,生成动态聚合的光谱自适应卷积核。这个分支使用1×1×1的3D卷积层来学习每个通道的自适应卷积核,从而建模全局光谱关系。

Conv-Permutator模块:该模块用于分别沿高度、宽度和光谱维度对特征进行编码。Conv-Permutator采用深度卷积和点卷积来捕捉空间和光谱相关性,最后通过元素相加的方式融合来自三个分支的输出特征,并通过全连接层进行重要性重校准。

总结:通过这两个模块,HiT能够增强局部空间-光谱信息的捕获能力,并减少在深层网络中可能出现的局部信息丢失。最后,经过全局平均池化层和全连接层的处理,完成类别预测。

4-实验

  1. 数据集描

    • 本文使用了四个基准高光谱图像(HSI)数据集:Indian Pines、Houston2013、Pavia University(PaviaU)和Xiongan数据集。每个数据集的基本信息,包括图像尺寸、波段数量及类别数目等都进行了详细说明。例如,Indian Pines数据集包含145×145像素和220个波段,Houston2013数据集则由349×1905像素和144个波段组成。

  2. 实验设置

    • 实验中使用了多种评价指标来评估模型的性能,并与多种基准方法进行比较。具体的实验设置包括使用PyTorch平台进行模型实现,采用Adam优化器,并设置了相应的学习率和批处理大小。此外,还描述了不同模型的架构及其超参数配置。

  3. 实验结果与分析

    • HiT模型在各个数据集上的性能表现均优于现有的transformer基础方法和CNN基础方法。在Houston2013数据集上,HiT模型的表现达到了96.35%,优于其他多个方法。通过结果分析,强调了HiT模型在空间-光谱信息提取方面的优势,尤其是在长时间光谱信息的捕捉上。

  4. 消融研究

    • 通过对SACP模块和Conv-Permutator模块的消融研究,验证了这两个模块对模型性能的重要性。实验结果表明,使用SACP模块的HiT模型在分类准确率上表现最佳,说明了局部光谱信息对HSI分类任务的重要性。


补充:

1D、2D 和 3D 卷积

是卷积神经网络(CNN)中处理不同维度数据的核心操作,它们的区别和联系主要体现在输入数据的维度、卷积核的移动方式以及应用场景上。以下是详细对比:

基本区别

类型

输入数据维度

卷积核移动方式

输出维度

典型应用场景

1D卷积

(Batch, Channels, Length)

沿时间或序列方向滑动

(Batch, Channels, Out_Length)

文本、音频、时间序列(如传感器数据)

2D卷积

(Batch, Channels, Height, Width)

沿图像的高度和宽度方向滑动

(Batch, Channels, Out_Height, Out_Width)

图像处理(分类、分割、检测)

3D卷积

(Batch, Channels, Depth, Height, Width)

沿体积的深度、高度、宽度滑动

(Batch, Channels, Out_Depth, Out_Height, Out_Width)

视频、医学影像(如CT/MRI)


MLP 的全称是 Multilayer Perceptron(多层感知机),也称为 前馈神经网络(Feedforward Neural Network),是一种经典的 人工神经网络(Artificial Neural Network, ANN) 结构。

MLP 的基本结构

MLP 由 至少三层神经元(输入层、隐藏层、输出层) 组成,每一层由多个 神经元(Neurons) 构成,并通过 全连接(Fully Connected, FC) 方式传递信号。

  • 输入层(Input Layer):接收原始数据(如图像像素、文本向量等)。

  • 隐藏层(Hidden Layers):1 层或多层非线性变换,用于特征提取。

  • 输出层(Output Layer):生成预测结果(如分类概率、回归值等)。