【组会整理及心得】DSTrans、3D UX-Net、SimpleNet、DRSformer

【WACV2023】 DSTrans: Dual-Stream Transformer for Hyperspectral Image Restoration

【本文贡献】

  1. 将Transformer用于高光谱图像修复,提出了新模型DSTrans,它不仅利用了高光谱图像的样本,还使用了异类的数据集来学习DSTrans的参数分布。
  2. 提出了双流注意力,用于获取两个并行分支中的HIS的全局像素和光谱间相似性和相关性,使用双流前馈网络来同时提取全局信息和局部细节。

【网络结构】

网络结构主要有两点创新,一个是双流注意力模块的设计,另一个是对FFN的改进。

双流注意力模块DSTB如上图a所示,它由双流注意力DSA和双流前馈网络DSTN串联而成,DSA由空间注意力模块MSSA和光谱注意力模块MDSA并联而成。其中MSSA是之前的工作中常用的注意力模块,可以提取像素级的全局相似性,MDSA是针对高光谱图像的特点设计的注意力模块,可以提取光谱级别的特征相似性。除此之外,本文认为传统的FFN模块当中,两个全连接的操作只考虑了全局信息,忽略了局部信息,为改善这种情况,本文采用并行的方式,使用卷积提取局部信息,使用全连接提取全局信息,并将两部分相乘。

【心得体会】

对高光谱图像的处理可以参照普通图像的处理,在此基础上基于高光谱图像的特点进行改进。

【ICLR2023】3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical Transformer for Medical Image Segmentation

【本文贡献】

  1. 将3D深度卷积用于体积分割任务,提出了3D UX-Net,纯粹在体积设置中使用ConvNet模块调整Transformer。
  2. 利用 LK 大小的深度卷积作为通用特征提取主干,并引入pointwise深度卷积以更少的参数有效地缩放提取的表示。

【网络结构】

 

总体来说,本文设计的卷积块是在swin transformer的基础上进行的改进,本文的网络使用了大核卷积作为特征提取的主干,以扩大感受野,并通过扩展独立通道来丰富特征。

【心得体会】

可以尝试使用大核卷积,将大核卷积用于初步的特征提取以获得更全局的特征。

【CVPR2023】SimpleNet: A Simple Network for Image Anomaly Detection and Localization

【本文贡献】

提出了一个简单有效的应用程序友好的网络,称为SimpleNet,用于图像异常部位的检测和定位。

【网络结构】

本文的方法基于三个直觉:

  1. 将预训练的特征转换为面向目标的特征有助于避免域偏差
  2. 在特征空间中生成合成异常更有效,因为缺陷在图像空间中可能没有太大的共性
  3. 简单的鉴别器相对来讲更加高效且实用

SimpleNet由四个部分组成:

  1. 生成局部特征的预训练特征提取器
  2. 将局部特征转移到目标域的浅层特征适配器
  3. 一个简单的异常特征生成器,通过向正常特征添加高斯噪声来伪造异常特征
  4. 将异常特征与正常特征区分开来的二元异常鉴别器,在推理过程中,异常特征生成器将被丢弃

在训练阶段,样本被送入预训练的特征提取器以获得局部特征。然后,利用特征适配器将预训练的特征适应目标域,再通过将高斯噪声添加到适应的特征来合成异常特征,适应的特征和异常特征分别用作正样本和负样本来训练最终的鉴别器。

【心得体会】

感觉有点GAN那意思了(

【CVPR2023】Learning A Sparse Transformer Network for Effective Image Deraining

【本文贡献】

  1. 提出了一种稀疏 Transformer 架构,以帮助生成具有更准确细节和纹理恢复的高质量去雨结果。
  2. 开发了一个简单而有效的可学习 top-k 选择算子来自适应地保持最有用的自注意力值以获得更好的特征聚合。
  3. 设计了一种基于混合尺度融合策略的有效前馈网络来探索多尺度表示,以更好地促进图像去雨。

【网络结构】

本文提出的DRSformer主要包含具有top-k稀疏注意力(TKSA)和混合尺度前馈网络(MSFN)的稀疏Transformer块(STB),以及专家特征补偿器(MEFC)的混合。

本文认为标准Transformer 采用所有标记来全局计算自注意力,这对于图像恢复来说并不友好,因为它可能涉及不相关特征之间的噪声交互。为了解决这些限制,本文利用神经网络中出现的稀疏性的优势,开发了一个稀疏变压器块(STB)作为特征提取单元,使用TKSA替换自注意力,计算所有重构的查询和键之间的像素对的相似性,并通过选取Top-k来自适应地屏蔽掉在大小为 RˆC×^C 的转置注意矩阵M中注意力权重较低的不必要的元素,通过在传输过程中插入两个多尺度深度卷积路径来构造出MSFN。

在专家特征补偿器(MEFC)中,本文选择了多个稀疏CNN操作来形成并行层,称为专家,让自注意力成为不同专家的切换器,以根据输入自适应地选择不同表示的重要性。

【心得体会】

在做图像修复或超分的时候或许也可以引入类似的专家模块。

猜你喜欢

转载自blog.csdn.net/qq_55708326/article/details/129909539