自监督论文阅读系列:CVPR 2021:Every Annotation Counts

论文题目:Every Annotation Counts: Multi-label Deep Supervision for Medical Image Segmentation。

任务:半监督学习辅助影像分割

核心思想:

1. 把 mask 标签通过降采样方式到 decoder 的每一层进行监督学习。

    传统的分割网络是用encoder-decoder的方式,在 decoder 的最后一层输出 prediction heatmap,然后用这个输出的heatmap 和 mask 标签构建损失函数。但是作者认为这种方式是有缺陷的:用上采样的方式类似与无中生有,会引入很多额外的信息。而且这种方式生成的方式对于生成准确的分类和空间信息的作用存疑。距离来说,一个嗯10 x 10 的特征图,要上采样回原图的 100 x 100,意味着每个像素要扩大一百倍,那么在这种情况下要保证分割的精确性,难度是比较大的。

因此,作者认为与其将特征图逐步上采样到进行损失函数计算,不如将 mask 标签进行下采样到每一个特征图的大小,然后对 decoder 的每一个特征层做限制。

这种把 mask 标签进行下采样用于限制 feature map 的方案归结起来有两个好处:

(1)从全量信息中做减法,总比无中生有的信息更加准确些。

(2)在下采样过程中能够平滑一些mask 标签中的噪声,即使mask不是特别准确,只要轮廓相似,可能在featuremap 尺寸比较小的时候也能得到比较好的监督。这为 boundingbox 标签的使用提供了便利条件。

2. 多标签信息(bounding box,类别信息等)的利用。

本文中可以利用多种标签,除了 pixel-wise 的mask,还可以利用 boundingbox-level 生成的 mask 和 image-level 的标签。

boundingbox-level 生成 mask 的方式见下图:背景为 0,boundingbox 框住目标的位置为前景,里面的数值与类别的编号一致,所以与 pixel-level mask唯一不同的就是 boundingbox-level 生成的mask 边缘边缘是boundingbox 的边缘。

自监督学习框架上,本文借鉴了 Mean-Teacher 的框架 [1],利用了一组迭代的 student-teacher 的方式进行模型更新。

[1] Antti Tarvainen and Harri Valpola. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. in:NeualIps 2017.

猜你喜欢

转载自blog.csdn.net/yangyehuisw/article/details/120221866