随着最近Transformers 的快速发展,开始有一种要统一视觉领域的感觉。现在transformers 终于向U-Net 下手了。
TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation
这个作者也公布了源码。感兴趣的人可以去关注一下。
整个过程,就是上述图片。具体实现细节大家可以看一下论文。看了上面的感觉,其实这个感觉就是一个直接在U-Net,后面直接套用了transformer层。其实这个创新有点牵强。感觉有一种强行为了用transformer 而用transformer 。整个网络前面几个基本还是原来的U-Net的那种跳跃结构,只不过在后面加了transformer层来增加。