论文笔记:U-Net: Convolutional Networks for Biomedical Image Segmentation

1 摘要

针对医学图像分割领域,本文作者提出一种数据增强的策略和一种U-Net网络结构,该结构通过端到端的训练能够使用少量的图像而得到比当时滑动窗口法(普通CNN)更好的效果。并且,该网络非常快,使用普通GPU分割一张512x512的图像能在少于1秒的时间内完成。

2 亮点

2.1 数据增强

由于医学领域的图像数据集比较少,所以怎么能从少量数据集中训练网络结构得到一个好的效果成为一个炙手可热的问题。而本文采用了多种数据增强的手段,通过对图像进行平移、旋转、调整图像灰度值、随机弹性变形等几种方式进行数据增强。

2.2 U-Net网络结构

2.2.1 裁剪

在这里插入图片描述
在进行整体分析以前,先分析局部信息——裁剪。从网络总体图中,可以看到灰色箭头左边的图像到右边的图像是由大变小的,如第一行的568x568经过灰色箭头以后变成392x392了,这是有一个裁剪的过程,可以看到灰色箭头左边的图像中间带有虚线框便是需要裁剪的大小。其实从宏观上看,最初输入的图像大小为572x572,而最终的输出为388x388。也就是说图像的输入和输出根本是不匹配的。先放论文中的图:

在这里插入图片描述
文章是这样解释的,如果本身需要预测的是左图黄色的区域,那么最开始输入的图像必须先通过计算扩大到蓝色区域,蓝色区域可以说是用来抵消网络的裁剪、无填充的卷积的,到最终输出刚好是预测的黄色区域。

2.2.2 特征的拼接

在这里插入图片描述
U-Net网络结构是参考了FCN的跳跃结构的,总体思路也是将深层的特征图与浅层的特征图进行融合,从网络结构总体图可以看到,在U-Net的右半部分,都会有白色和蓝色相拼接的特征图,实质上白色部分来自于U-Net绿色箭头的上采样得到的,再与灰色箭头直接裁剪得到浅层特征图进行特征的拼接,这不同于FCN中的直接通过浅层与深层的直接叠加。

2.2.3 U-Net总体结构的分析

在这里插入图片描述
总框图中,最初地输入的图像为572x572,文章中采用的卷积方式是不填充的,所以每次卷积以后得到的图像会变小,得到568x568特征图,一方面进行一个池化操作,图像缩小;另一方面通过灰色箭头裁剪复制得到一个特征图。而第一步经过池化后的图像也执行同样的两个步骤:池化和裁剪复制。一直执行到图片大小变成28x28,进行上采样得到56x56特征图与上一次裁剪而得到的56x56图像进行拼接,然后进行卷积…上采样…拼接…卷积…上采样…拼接…卷积…最后经过一个1x1卷积得到388x388的图像输出。由于整个网络结构呈“U”形,所以为U-Net,而由于U形左边部分是特征图不断缩小的,文章称其为压缩路径,而右边部分的特征图不断地扩大,文章称其为扩展路径,这也算是一种编码-解码结构了。

3 效果

在这里插入图片描述
(a)为“PhC-U373” 数据集的输入,(b)的黄色边框为人工的分割结果,蓝色为网络分割结果;(c)为“DIC-HeLa” 数据集的输入,(d)的黄色边框为人工分割结果,彩色部分为网络分割结果。
在这里插入图片描述
上图为不同网络结构的IOU(交并比)的对比,可见u-net的效果表现最佳。

4 结论

本文提出的数据增强策略和U-Net网络结构确实能够使用非常少的训练样本而得到一个很好的医学上的分割效果,U-Net结构在医学图像分割领域有着重要的地位。

5 参考文献

(1)U-Net: Convolutional Networks for Biomedical Image Segmentation
(2)浅析U-Net是用来干嘛的
(3)深度学习图像分割——U-Net网络

发布了24 篇原创文章 · 获赞 27 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/gyyu32g/article/details/104290854