EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation

1、论文基本信息

1.1、论文名称：EMCAD: 用于医学图像分割的高效多尺度卷积注意力解码

1.2、论文下载链接：EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation

1.3、论文代码链接：https://github.com/SLDGroup/EMCAD

1.4、论文其他信息:CVPR 2024文章

2、摘要

在医学图像分割中，特别是在计算资源有限的场景下，一个高效且有效的解码机制至关重要。然而，这些解码机制通常伴随着高昂的计算成本。为了解决这一问题，我们引入了EMCAD，一种新的高效多尺度卷积注意力解码器，旨在优化性能和计算效率。EMCAD利用独特的多尺度深度卷积块，通过多尺度卷积显著增强特征图。EMCAD还采用了通道、空间和分组（大核）门控注意力机制，这些机制在捕获复杂空间关系和聚焦显著区域方面非常有效。通过使用组卷积和深度卷积，EMCAD非常高效且具有良好的扩展性（例如，在使用标准编码器时仅需要1.91M参数和0.381G FLOPs）。我们在属于六个医学图像分割任务的12个数据集上进行了严格的评估，结果表明EMCAD实现了最先进的性能，同时在参数数量和FLOPs上分别减少了79.4%和80.3%。此外，EMCAD对不同编码器的适应性和在分割任务中的多功能性进一步确立了其作为一种有前景的工具，推动了该领域朝着更高效、更准确的医学图像分析发展。

3、主要贡献

新型高效多尺度卷积注意力解码器（EMCAD）：提出了一种新的多尺度卷积注意力解码器，旨在优化医学图像分割中的性能和计算效率。

多尺度深度卷积块：EMCAD利用独特的多尺度深度卷积块（MSCAM），显著增强特征图，通过多尺度卷积捕获不同尺度的特征信息。

注意力机制：集成了通道、空间和分组（大核）门控注意力机制，这些机制在捕捉复杂空间关系和聚焦显著区域方面非常有效。

计算效率：通过使用组卷积和深度卷积，EMCAD在保持性能的同时，参数量和浮点运算量（FLOPs）显著减少，例如在使用标准编码器时仅需要1.91M参数和0.381G FLOPs。

性能提升：在12个数据集上进行了严格的评估，这些数据集涵盖了六个医学图像分割任务，结果显示EMCAD在参数数量和计算量方面都实现了79.4%和80.3%的减少，并且实现了最先进的性能。

适应性和通用性：EMCAD对不同编码器的适应性和在分割任务中的通用性进一步证明了其作为一种有前途的工具，推动该领域向更高效和准确的医学图像分析方向发展。

4、研究背景

医学图像分割的重要性：在医学诊断和治疗策略中，自动化医学图像分割对于识别和分类图像中的关键区域（如病变、肿瘤或整个器官）至关重要。
现有技术的局限性：尽管现有的U形卷积神经网络（CNN）架构和注意力机制在图像分割任务中取得了高质量的结果，但它们通常伴随着高昂的计算成本，这限制了它们在实际应用中的可行性，特别是在资源受限的环境中。
计算效率的需求：在许多实际应用中，如移动设备、远程医疗和实时诊断，需要计算效率高的模型，这些模型能够在有限的计算资源下快速准确地进行图像分割。
多尺度特征的重要性：医学图像分割任务中，能够捕捉不同尺度和分辨率的特征对于提高分割精度非常关键，尤其是在处理具有复杂结构和不同大小目标的医学图像时。
注意力机制的集成：为了提高分割性能，越来越多的研究开始集成注意力机制，以增强模型对关键特征的识别能力，但这些方法往往计算成本较高。
新模型的需求：鉴于上述挑战，研究者需要开发新的解码机制，这些机制不仅要保持或提高分割性能，还要显著降低模型的参数数量和计算量，以适应资源受限的环境。

5、网络框架

5.1、高效的多尺度卷积注意力解码（EMCAD）

在本节中，我们介绍高效的多尺度卷积解码（EMCAD），用于处理从预训练的分层视觉编码器中提取的多级特征，以进行高分辨率语义分割。如图2（b）所示，EMCAD由高效的多尺度卷积注意模块（MSCAM）组成，以稳健地增强特征图，大内核分组注意门（LGAG）以通过门控注意机制与跳跃连接融合来细化特征图，用于上采样的高效上卷积块（EUCB），然后增强特征图，以及产生分割输出的分割头（SH）。更具体地说，我们使用四个 MSCAM 来细化从编码器的四个阶段提取的金字塔特征（即图 2 中的 X1、X2、X3、X4）。在每个 MSCAM 之后，我们使用 SH 生成该阶段的分割图。随后，我们使用 EUCB 升级细化的特征图，并将它们添加到相应 LGAG 的输出中。最后，我们添加四个不同的分割图以产生最终的分割输出。接下来描述我们的解码器的不同模块。

5.1.1 大内核分组注意力门（LGAG）

我们引入了一种新的大内核分组注意力门（LGAG），以逐步将特征图与注意力系数相结合，网络通过学习这些系数来允许更高程度地激活相关特征并抑制不相关特征。该过程采用从高级特征派生的门控信号来控制网络不同阶段的信息流，从而提高医学图像分割的精度。与 Attention UNet使用 1 × 1 卷积来处理门控信号 g（来自跳过连接的特征）和输入特征图 x（上采样特征）不同，在我们的 qatt(.) 函数中，我们分别通过应用单独的 3 × 3 组卷积 GCg(.) 和 GCx(.) 来处理 g 和 x。然后使用批量归一化 BN(.)) 对这些卷积特征进行归一化，并通过逐元素加法进行合并。生成的特征图通过 ReLU (R(.)) 层激活。然后，我们应用 1 × 1 卷积 (C(.)) 和 BN(.) 层来获得单通道特征图。然后，我们将生成的单通道特征图传递给 Sigmoid (σ(.)) 激活函数以产生注意力系数。该转换的输出用于通过元素乘法缩放输入特征 x，产生注意力门控特征 LGAG(g, x)。 LGAG(·)可以用公式 1 和 2 表示：

由于在 qatt(.) 中使用 3 × 3 内核组卷积，我们的 LGAG 以较少的计算成本捕获相对较大的空间上下文。

5.1.2 多尺度卷积注意力模块（MSCAM）

我们引入了一个高效的多尺度卷积注意模块来细化特征图。 MSCAM 由一个强调相关通道的通道注意块 (CAB(·))、一个用于捕获局部上下文信息的空间注意块 [9] (SAB(·)) 和一个高效的多尺度卷积块 (MSCB) 组成。 (.)) 来增强保留上下文关系的特征图。 MSCAM(.)（图 2(d)）由公式 3 给出：

其中 x 是输入张量。由于在多个尺度上使用深度卷积，我们的 MSCAM 比 [42] 中提出的卷积注意模块（CAM）更有效，计算成本显着降低。

多尺度卷积块（MSCB）：我们引入了一种高效的多尺度卷积块来增强级联扩展路径生成的特征。在我们的 MSCB 中，我们遵循 MobileNetV2 [45] 的反向残差块（IRB）的设计。然而，与IRB不同的是，我们的MSCB在多个尺度上执行深度卷积，并使用通道洗牌[60]来跨组洗牌通道。更具体地说，在我们的 MSCB 中，我们首先使用逐点 (1×1) 卷积层 PWC1(·) 扩展通道数（即扩展因子 = 2），然后使用批量归一化层 BN(·) 和 ReLU6 [31]激活层R6(.)。然后，我们使用多尺度深度卷积 MSDC(.) 来捕获多尺度和多分辨率上下文。由于深度卷积忽略了通道之间的关系，因此我们使用通道洗牌操作来合并通道之间的关系。之后，我们使用另一个逐点卷积 PWC2(.) 和 BN(.) 来变换回原始的#channels，这也编码了通道之间的依赖关系。 MSCB(·)（图 2(e)）的公式如公式 4 所示：

其中不同内核大小 (KS) 的并行 MSDC(.)（图 2(f)）可以使用公式 5 来表示：

其中 DWCBks(x) = R6(BN(DWCks(x)))。这里，DWCks(.) 是内核大小 ks 的深度卷积。 BN(.) 和 R6(.) 分别是批量归一化和 ReLU6 激活。此外，我们的顺序 MSDC(.) 使用递归更新的输入 x，其中输入 x 残差连接到之前的 DWCBks(.)，以实现更好的正则化，如公式 6 所示：

通道注意力块 (CAB):

空间注意力（SAB）：

5.1.3 高效上卷积块（EUCB）

我们使用高效的上卷积块逐步对当前阶段的特征图进行上采样，以匹配下一个跳跃连接的特征图的尺寸和分辨率。 EUCB 首先使用比例因子为 2 的 UpSampling Up(·) 来放大特征图。然后，它通过应用 3 × 3 深度卷积 DWC(·)，后跟 BN(·) 和 ReLU(.) 激活来增强放大的特征图。最后，使用 1 × 1 卷积 C1×1(.) 来减少 #channels 以与下一阶段匹配。 EUCB(·)（图 2(c)）的公式如公式 9 所示：

由于使用深度卷积而不是 3 × 3 卷积，我们的 EUCB 非常高效。

5.1.4 分割头（SH）

我们使用分割头从解码器四个阶段的细化特征图产生分割输出。 SH 层将 1 × 1 卷积 Conv1×1(·) 应用于具有 chi 通道的细化特征图（chi 是第 i 阶段特征图中的 #channels），并生成 #channels 等于目标数据集中的 #classes 的输出用于多类但 1 个通道用于二元分割。 SH(·) 的公式如公式 10 所示：

5.2、整体架构

为了展示处理医学图像分割的多尺度特征的通用性、有效性和能力，论文将提出的 EMCAD 解码器与 PVTv2 的微型 (PVTv2B0) 和标准 (PVTv2-B2) 网络集成在一起。然而，提出的解码器具有适应性，并且与其他分层骨干网络无缝兼容。 PVTv2 与传统的transformer patch embedding模块不同，它应用卷积运算来捕获连续一致的空间信息。使用PVTv2-b0（微型）和PVTv2-b2（标准）编码器[56]，论文开发了PVT-EMCAD-B0和PVT-EMCAD-B2架构。为了采用PVTv2，作者首先从四层中提取特征（X1、X2、X3和X4）并将它们（即上采样路径中的X4和跳跃连接中的X3、X2、X1）输入到提出的EMCAD解码器中，如图2(a-b)所示。然后，EMCAD 对其进行处理并生成对应于编码器网络的四个阶段的四个分段图。

5.3、多级损失和输出聚合

论文的EMCAD 解码器的四个分段头在其各个阶段生成四个预测图 p1、p2、p3 和 p4。

损失聚合：作者采用一种称为 MUTATION 的损失组合组合方法，主要是受到 MERIT [43] 多类分割工作的启发。这涉及计算从 4 个正面得出的所有可能的预测组合的损失，总共 $2^4 - 1 = 15$ 个独特的预测，然后将这些损失相加。作者专注于在训练过程中最小化这种累积组合损失。对于二元分割，作者使用附加项 Lp1+p2+p3+p4 优化加性损失，如公式11所示：

输出分割图聚合：作者将解码器最后阶段的预测图 p4 视为最终分割图。然后，作者通过使用 Sigmoid 函数进行二值分割或使用 Softmax 函数进行多类分割来获得最终的分割输出。

6、实验结果

7、总结

在本文中，我们提出了 EMCAD，一种新型高效的多尺度卷积注意解码器，专为医学图像分割中的多阶段特征聚合和细化而设计。 EMCAD 采用多尺度深度卷积块，这是捕获特征图中不同尺度信息的关键，也是医学图像分割精度的关键因素。这种设计选择使用深度卷积而不是标准的 3×3 卷积块，使得 EMCAD 非常高效。我们的实验表明，EMCAD 在 DICE 分数方面超越了最新的 CASCADE 解码器，参数减少了 79.4%，FLOP 减少了 80.3%。我们的大量实验还证实了 EMCAD 与涵盖 6 个不同 2D 医学图像分割任务的 12 个公共数据集的 SOTA 方法相比具有优越的性能。 EMCAD 与较小编码器的兼容性使其非常适合现场护理应用，同时保持高性能。我们预计我们的 EMCAD 解码器将成为增强各种医学图像分割和语义分割任务的宝贵资产。