UTNet:用于医学图像分割的混合 Transformer 网络阅读笔记

文章目录

  • 1 概述
  • 2 浅析 Transformer 架构
    • 2.1 重看 Self-attention Mechanism
    • 2.2 高效的 Self-attention Mechanism
    • 2.3 Relative Positional Encoding
  • 3 UTNet 的整体结构
  • 4 实验
  • 5 总结
  • 6 参考链接

1 概述

在这里插入图片描述

很久之前读了这篇接收在 MICCAI 2021 上的文章,复现调试了代码之后还没有及时整理一篇阅读笔记。由于在 MICCAI 上,这篇文章同样没有大量的实验对比工作,但是提出的方法思路清晰易懂,值得借鉴。arXiv: https://arxiv.org/abs/2107.00781 。作为前置依赖,本篇阅读笔记首先介绍了 Transformer Architecture 和在医学图像分割上的应用;其次,分析了论文中提出的 UTNet 架构(主干 U-Net,混合 Transformer 等 module);最后,看了下论文的实验结果。

在语义分割上,FCN 这类卷积的编码器-解码器架构衍生出的模型在过去几年取得了实质性进展,但这类模型存在两个局限。第一,卷积仅能从邻域像素收集信息,缺乏提取明确全局依赖性特征的能力;第二,卷积核的大小和形状往往是固定的,因此它们不能灵活适应输入的图像或其他内容。相反,Transformer architecture 由于

猜你喜欢

转载自blog.csdn.net/weixin_43838785/article/details/124433049