半监督医学影像分割综述

《半监督医学影像分割综述》

引言

两种不同类型的图像分割问题。

  • 相应的语义类对每个像素进行分类,从而给图像中属于这个类的所有对象或区域一个相同的类标签。
  • 实例分割试图更进一步,试图区分同一类的不同出现
    在这里插入图片描述

内容

  • 提供了半监督SS方法的最新分类以及对它们的描述。
  • 对文献中最广泛使用的数据集进行了广泛的最先进的半监督分割方法的实验。
  • 讨论了所获得的结果,当前方法的优点和缺点,该领域的挑战和未来的工作方向。

背景

问题阐述

半监督方法的目的是提取知识从标记和未标记数据,为了获得一个比我们只使用标记数据训练得到的模型性能更好的模型。

语义分割经典方法

  1. 首先提出的图像分割方法基本上是无监督的:图像阈值、区域增长,变形模型,聚类算法基于图的模型
  2. 随后基于监督机器学习算法:随机森林、支持向量机,条件或马尔可夫随机场
  3. 最后是半监督环境。对全监督方法的一些扩展,使其具备处理无标记数据的能力:
    • 第一种方法是基于树结构的基于补丁的方法和随机森林算法的混合模型。
    • 提出了一种基于加权图的三维曲面半监督分割模型。
    • 随机森林算法在其他工作中被用于解决半监督分割问题
    • 最后,在DL出现之前,最后一个建议提出了一种结合高斯混合模型、随机游走模型和支持向量机的方法

语义分割深度学习方法

大多数DL模型的关键思想是全卷积神经网络(FCNN):

  • 重用图像分类问题的知名CNN(如VGG , ResNet或EfficientNet),使其适应于解决SS问题。
  • 用卷积层取代这些模型的最终完全连接层,从而获得作为输出的特征图,而不是分类分数向量。
  • 最后,通过反卷积运算对得到的特征图进行上采样,得到最终的分割图。

有许多新的方法改进了FCNN的原始建议:

  • 主要区别在于他们对卷积网络的输出进行上采样以获得最终的分割图
  • 编码器-解码器架构(例如UNet模型)将解码器链接到CNN
  • 另一个著名的例子是DeepLab模型,该模型使用空洞卷积来增加其视野范围,并增加其捕获上下文信息的能力

数据集

数据集如图所示

PASCAL VOC 2012
  • 有20个对象类和一个额外的背景类
  • 用于训练、验证和测试的官方分区分别由1464、1449和1456个图像组成
  • 通常使用来自分割边界数据集(SBD)的9118张额外图像的增强版本,使训练集达到10582张图像,并进行相关的像素标记。
  • 对于半监督场景,通常选择以下训练集中数据的比例作为标记分区:1/100(106张图像)、1/50(212张图像)、1/20(529张图像)、1/8(1323张图像)和1/4(2646张图像)。
  • 对于其余的图像,它们的标签不被考虑,并以半监督方法形成无监督数据输入。
Cityscapes
  • 对自动驾驶应用来说,它是最重要的数据集之一
  • 该数据集由一系列连续的街道视图图像组成,从不同的欧洲城市的车辆拍摄,大小为2048 × 1024,分为19类
  • 用于训练、验证和测试的官方分区分别由2975、500和1525张图像组成
  • 对于半监督场景,通常选择以下训练集中数据的比例作为标记分区:1/16(186张图像),1/8(372张图像),1/4(744张图像)和1/2(1488张图像)

半监督语义分割方法

分类(Taxonomy)

将这些方法分为五类:

在这里插入图片描述

  • 类似gan结构和对抗训练的方法:一个作为生成器,另一个作为鉴别器
  • 一致性正则化方法:包括损失函数中的正则化项,以最小化同一图像的不同预测之间的差异,这些预测是通过对图像或相关模型施加扰动来获得的
  • 基于未标记数据的伪标记的方法:依赖于先前对未标记数据的预测,并使用在标记数据上训练的模型来获得伪标签
  • 基于对比学习的方法:将相似的元素分组,并将它们与不相似的元素分离在一定的表示空间中,通常不同于模型的输出空间
  • 可以找到一致性正则化、伪标记和对比学习的混合方法
对抗方法

生成器的目的是学习目标数据的分布,从而允许从随机噪声中生成合成图像。鉴别器的目的是区分真实图像(属于真实分布)和虚假图像(由生成器生成)。

分为两类,生成方法和非生成方法

生成方法

如图,半监督分割的生成对抗方法结构:

生成器G接收随机噪声作为输入,生成新的合成图像。然后,分割网络fθ同时接收合成(G(z))和真实(XL, XU)图像作为输入,并将每个像素分类为相应的类c1, c2,…ck或进入一个额外的假类cfake,这表明它是一个合成像素。LD和LG分别为鉴别器和生成器损失函数

在这里插入图片描述

  • 第一种方法以半监督的方式解决分割问题,不需要弱标签,由适用于分割问题的GAN框架组成。
    • 包括一个生成网络,逼近目标图像的分布,从而实现了生成新的训练示例的能力。
    • 分割网络承担了鉴别器的作用,并分割作为输入接收的图像,包括真实的和合成的。
    • 这个网络用它对应的类对每个像素进行分类,或者用一个额外的伪类,这表明图像的这个像素或区域是由生成器生成的。
  • 另一种是用于优化生成器(LG)的损失函数和分割模型

在这里插入图片描述

当模型将真实样本标记为假样本时,第一项惩罚模型。

当模型将假样本标记为真实样本时,第二项惩罚模型。

最后一项是监督组件,强制对标记集的每个像素进行正确的分类。γ是训练过程中被监督分量的权重。

当fθ检测到合成图像时,生成器损失函数LG寻求通过惩罚G来提高生成图像的质量

  • 另一种用于半监督SS的生成方法:
    • 扩展了StyleGAN模型
    • 添加了一个标签合成分支
    • 并尝试捕获图像和标签的联合分布,从而获得生成新的图像-标签对的能力。
    • 成功案例限制在非常具体的领域,如皮肤病变和面部部位分割。
非生成方法
  • 用分割网络取代经典GAN的典型生成网络。

  • 输出指向一个鉴别器,区分真实的分割地图,和那些由分割网络生成的。半监督分割的非生成对抗方法结构,如图所示:
    在这里插入图片描述

  • 分割网络fθ作为生成器。

  • 利用有监督交叉熵损失函数(Lsup)对fθ进行有监督训练。

  • 鉴别器D被训练来区分真实和预测(通过fθ)分割地图。D(置信度图)的输出用于对无标记数据进行半监督学习(Lsemi),也用于鉴别器和对抗损失函数(LD和Ladv)。

  • 判别网络与分割模型一起进行对抗训练,以区分真实的标签地图与预测的标签地图。

  • 生成一个概率图作为输出,与输入图像具有相同的维度,其中它表示每个像素是一个真实示例或分割网络做出的预测的置信度。

  • 这个置信度图就表明了某一区域的分割质量,这样就可以使用未标记图像的置信度图来检测那些预测的标签有足够质量的区域,可以用于分割模型的训练过程。

    这些方法所涉及的损失函数的公式如下:
    在这里插入图片描述

​ 判别器损失函数LD由两项组成,每一项都迫使判别器D检测来自地面真相的分割映射和由分割网络fθ生成的分割映射。

​ 分割网络损失函数Lseg由三项组成:

  • 第一个是由交叉熵损失函数形成的监督分量Lsup。
  • 第二个是对抗分量Ladv,它惩罚D检测到分割网络生成的分割图的情况。
  • 第三项Lsemi考虑未标记图像的分割超过置信阈值T。

其他方法:

  1. S4GAN建议使用一种更简单的鉴别器,为整个分割映射而不是为每个像素生成输出。
  2. 加入了图像级鉴别器,并通过增加方差正则化项改进了发生器损失函数。
  3. 建议使用两个鉴别器,一个在图像级,另一个在像素级。两者一起使用,以提高图像中置信度区域定义的准确性。
  4. 纠错监督(ECS)和指导协作训练(GCT)基于协作策略
    • 这些方法引入了一种新的网络来承担鉴别器的作用,在ECS中称为校正网络,在GCT中称为探伤网络。
    • 除了像素级的置信度图外,这些方法还提供了对置信度低的区域的校正。
  5. 其他对抗方法结合了注意力模块,目标是建模长期语义依赖关系。
  6. 还结合了spectral normalization来减少训练过程中的不稳定性。
  7. 将注意力模块与稀疏表示模块结合使用,帮助分割模型强调对象的边缘和位置。
一致性正则化

基本原理:一个健壮的模型应该对一个点和它的局部修改版本得到相似的预测。基于一致性正则化的SSL方法通过对未标记数据施加扰动来利用它们,并训练不受这些扰动影响的模型

其他方法所基于的基本方法是Mean Teacher。它迫使学生网络和教师网络的预测保持一致。

教师网络的权重是通过学生网络权重的指数移动平均(EMA)来计算的。

在这里插入图片描述

损失函数如下:

在这里插入图片描述

基于一致性正则化的半监督方法之间的主要区别在于它们将扰动纳入数据的方式

可以将这些方法分为四个子类别

  1. 基于输入扰动的方法:这些方法使用数据增强技术直接对输入图像施加扰动
  2. 基于特征扰动的方法,在分割网络内部加入扰动,从而获得修改后的特征
  3. 基于网络扰动的方法,通过使用不同的网络获得扰动预测,例如使用不同的起始权重网络
  4. 结合了前面三种类型的扰动
输入扰动

在这里插入图片描述

  • 使用数据增强技术直接对未标记的输入图像应用扰动,训练一个对这些输入扰动不敏感的分割模型
  • CutOut和CutMix技术,在图像上使用矩形遮罩
    • CutOut在训练过程中丢弃由蒙版标记的矩形部分
    • CutMix使用矩形掩码将两个图像(来自同一图像)组合在一起,获得一个新图像
  • ClassMix与之前的CutMix技术的不同之处在于应用于混合图像的mask形式。
    • mask标记的部分与图像中属于同一类的区域重合
    • 属于一个类的部分被复制到另一个图像中,从而生成新的增强图像。。
  • ComplexMix结合CutMix和ClassMix
  • 使用经典的数据增强技术(例如裁剪、颜色抖动或翻转)来获得原始图像的扰动
特征扰动

辅助解码器输出之间的一致性被强制执行,有利于对编码器输出特征的不同扰动版本进行相似的预测。这些基于特征扰动的方法所包含的一致性项定义如下:

在这里插入图片描述

网络扰动

在这里插入图片描述

  1. 所涉及的两个网络的训练以并行和独立的方式进行,而不是根据另一个网络的EMA更新一个网络。
  2. 虽然两个网络共享相同的架构,但它们初始化时使用不同的随机权重,从而增加了它们之间的差异。

损失如下:
在这里插入图片描述

结合扰动
  • 一种将输入、特征和网络扰动相结合的方法。
  • 这种方法强调了这样一个事实:如果预测不够准确,扰动的种类和强度越大,问题就越多。
  • 该方法通过添加信心加权交叉熵损失函数来扩展Mean Teacher方法,而不是经典Mean Teacher方法使用的均方误差(MSE)。
  • 此外,还提出了一种通过虚拟对抗训练来执行特征扰动的新方法。
  • 输入扰动,特别是CutMix技术和特征扰动的组合在中被提出
伪标签方法

思想: 根据先前在标记数据上训练的模型所做的预测,生成未标记图像的伪标签。然后,用这些新的图像对和伪标签扩展标记数据集,并在这个新数据集上训练一个新模型。

自训练方法:仅基于一个监督基础模型,并表示伪标签的最简单形式,其中伪标签由它们自己的高置信度预测生成

互训练方法:涉及多个具有显式差异的模型,例如不同的初始化权重或在数据集的不同视图上进行训练。每个模型都使用未标记的图像和由该过程中涉及的其他模型生成的相应伪标签进行重新训练。

自训练

在这里插入图片描述

典型步骤:

  1. 监督模型在可用的标记数据上进行训练。
  2. 使用之前训练的模型从未标记的数据中获得预测。那些置信度高于预定义阈值的预测将成为未标记数据的伪标签,并包含在标记数据集中。
  3. 使用这个由标记数据和伪标记数据组成的新数据集重新训练监督模型

这个过程可以以迭代的方式重复,使用步骤3产生的模型获得新的伪标签,在每次迭代中改进伪标签的质量,直到没有预测超过被视为伪标签所需的置信度阈值。

变体:

  • 用质心采样技术扩展了原始的自我训练过程。目的是为了解决伪标签中的阶层不平衡问题。
  • 在自我训练过程中添加一些辅助网络
    • 由模型预测的伪标签可能具有与真实值本质上不同的标签空间。
    • 当用两个标签输入训练模型时,可能导致不同的梯度方向,导致混乱的反向传播过程。[
    • 提出的一种可能的解决方案包括使用分割模型,该分割模型共享编码器(即ResNet101),并包含两个不同的解码器,每个解码器对应一个标签空间。
  • 在自我训练过程中集成数据增强技术(ST++)
  • 数据增强的应用可能会改变批处理归一化中均值和方差的分布
    • 使用分布特定的批归一化
    • 集成了一个基于置信度动态重加权的自校正损失函数,以避免过拟合噪声标签和最难类的学习不足
  • 一个常见问题是基本真相和伪标签之间的分布不匹配,后者通常偏向于大多数类
    • 为了获得无偏伪标签,提出了一种基于分类阈值的分布对齐和随机采样策略,同时还结合了数据增强技术
  • 如何定义在自我训练过程中使用的实际标记数据和伪标记数据之间的最佳比例
    • 基于随机搜索(RIST)
    • 贪婪算法(GIST)
互训练
  • 前面描述的自我训练方法的主要缺点之一是缺乏检测自身错误的机制。
  • 相互学习方法不是从自己的预测中学习,而是扩展了自我训练方法,涉及多个学习模型,每个学习模型都使用其他模型生成的伪标签进行训练。
  • 参与模型之间的多样性是这类方法正确执行的关键方面之一
  • 通过使用不同的预训练权重来初始化这些模型,或者通过使用不同的视图或训练集的子集来训练每个模型。在其他研究中,主要依赖于利用所涉及的模型之间的预测差异,多视图训练或联合训练
    在这里插入图片描述

变体:

  1. 动态相互训练(Dynamic Mutual Training, DMT):通过一个损失函数动态地重新加权,这些模型是独立训练的,使用另一个模型生成的伪标签。从这个意义上说,特定像素的差异越大,表明错误的概率越大,因此在损失函数中加权值较低,对训练的影响小于模型之间差异较小的其他像素或图像区域
  2. 使用伪标签增强策略扩展前一种方法(DMT)。为了在整个训练过程中保持所获得的知识,并避免模型对最后学习的类产生偏见,作者提出了一种策略,该策略考虑了前一阶段生成的伪标签来细化当前的伪标签。
对比学习
  • 对比学习侧重于高级特征,在缺乏ground truth的情况下区分不同的类。
  • 这些类型的方法对相似的样本进行分组,并将它们从特征空间中的不同样本中移开。
  • 由于数据中缺乏标注,在训练过程中被认为相似的样本是同一样本的增强版本,而其余的数据则被认为是不同的样本。

一些模型:

  • SimCLR方法中的数据增强技术(例如裁剪、颜色抖动或翻转)。
  • CPC方法将图像划分为不同的覆盖子补丁,并将这些补丁视为独立的图像
  • Pascal VOC目标检测
  • ReCo:针对半监督对比学习(总像素的5%以下进行采样,与查询类混淆的类的像素被选为负列。依靠预测置信度来选择难分类的像素作为查询像素用于分割模型)
  • 只有正例的对比学习:创建和动态更新一个存储库,该库包含标签集中的样本子集。选择预测置信度较高的样本进行存储。随后,对比损失函数确保样本的特征与存储在内存库中的同类样本的特征接近
混合方法

包括那些具有前面介绍的几个类别的特征的方法

  • 带有一致性正则化中间阶段的三阶段自训练框架(在自训练过程中集成了多任务模型)
    • 使用一致性正则化在分割问题上进行训练
    • 将统计信息从伪标签引入优化过程
  • 自适应均衡学习(AEL):融合了一致性正则化和伪标记方法的特点,基于FixMatch,采用数据增强技术和自适应均衡抽样的方法对弱势群体进行训练
  • Pseudo-Seg
  • hybrid GuidedMix-Net :将知识从有标签的图像转移到无标签的图像
  • 定向上下文感知(directional context-aware, DCA):对同一图像进行重叠的两次切割,模拟了该区域的两个不同上下文,并通过对比损失函数加强了两个切片之间的一致性
  • C3-SemiSeg:一致性正则化侧重于利用扰动下的特征对齐
  • cross-teacher training(CCT) :减少了师生网络之间的误差积累,对比学习模块促进了特征空间的类分离
  • 一致性正则化和对抗训练相结合

实验设置

本实验部分的主要目标是为读者提供所有方法在统一、公平和平等条件下的比较,从而提供了一种快速和方便的方式来了解该领域的实际最先进的方法及其与其他方法相比的质量:

数据集

  • PASCAL VOC 2012
  • 城市景观数据集

分区的协议

在这里插入图片描述

验证策略

  • 以PASCAL VOC 2012为例,训练集由10582张图像组成,验证集由1449张图像组成。
  • 对于cityscape,训练集由2975张图像组成,而验证集由500张图像组成

性能指标

在这里插入图片描述

选择最先进的方法

  • 基线方法:DeepLabV3监督模型
  • Mean Teacher方法
  • s4GAN方法
  • ClassMix方法作为数据增强扰动
  • CCT方法作为特征扰动方法
  • CPS方法用于网络扰动
  • ST和DMT方法分别是基于自我训练和相互训练的伪标记方法
  • 对比学习:ReCO方法
  • 混合方法:CAC

基础模型和主干

  • DeepLabV3+作为基础模型
  • ResNet101作为骨干

结果和讨论

PASCAL VOC 2012的定量结果

半监督SS和全监督基线(DeepLabV3+)结果:
在这里插入图片描述

某些情况下,在训练过程中包含未标记的数据甚至会损害全监督模型的性能。

  • 最极端的方式发生的情况是CCT方法

  • Mean Teacher,虽然它们没有获得像CCT那样显著的退化,但也存在从无标记数据中提取知识的困难

  • s4GAN:与监督模型相比,几乎所有分区中都获得了性能改进,与其他进行对抗训练的简单方法相比,复杂性有所增加,从所获得的结果来看,这是不合理的。

  • ClassMix和ReCo方法:增加标记图像的数量时,这种方法相对于监督基线的收益边际并不是那么宽,还有许多其他方法优于它

  • CPS和CAC:有许多标记图像的场景中表现最好的两种方法

  • 基于伪标记的方法被证明是性能最好的方法:ST,DMT

Cityscapes的定性结果

本分析中使用的方法是DMT、ClassMix和s4GAN:黑色表示预测误差

在这里插入图片描述

挑战与未来趋势

与半监督SS问题相关的一些主要挑战,以及一些最有前途的未来研究方向:

  • 评估标准:即使用不同的数据集,不同的数据分区,不同的实现或基本模型的版本
  • 具有改进潜力的方法群
    • 伪标记方法:特别是互训练子类别
    • 混合方法
  • 基础模型的多样性
  • 在更现实的情况下进行评估
  • 新趋势:transformer:模型可以学习类之间的语义关系,甚至是图像中彼此距离很远的类之间的语义关系

总结

  • 分为五类:对抗性方法、一致性正则化、伪标记、对比学习和混合方法
  • 使用该领域最常见的两个数据集:PASCAL VOC 2012和Cityscapes
  • 10种方法组成,本文认为属于相互训练的方法(即DMT)是性能最好的方法
  • 反思了目前半监督分割的挑战和潜在的未来研究方向,强调了实验和评估框架标准化的必要性,在图像不受控制且类之间具有丰富语义依赖的情况下使用现实基准的方便性,以及最近应用于CV的新技术视觉变压器在半监督场景中的潜在应用

区,不同的实现或基本模型的版本

  • 具有改进潜力的方法群
    • 伪标记方法:特别是互训练子类别
    • 混合方法
  • 基础模型的多样性
  • 在更现实的情况下进行评估
  • 新趋势:transformer:模型可以学习类之间的语义关系,甚至是图像中彼此距离很远的类之间的语义关系

总结

  • 分为五类:对抗性方法、一致性正则化、伪标记、对比学习和混合方法
  • 使用该领域最常见的两个数据集:PASCAL VOC 2012和Cityscapes
  • 10种方法组成,本文认为属于相互训练的方法(即DMT)是性能最好的方法
  • 反思了目前半监督分割的挑战和潜在的未来研究方向,强调了实验和评估框架标准化的必要性,在图像不受控制且类之间具有丰富语义依赖的情况下使用现实基准的方便性,以及最近应用于CV的新技术视觉变压器在半监督场景中的潜在应用
    后续有时间会进行参考文献汇总

猜你喜欢

转载自blog.csdn.net/qq_45745941/article/details/129380091
今日推荐