【论文笔记】Suggestive Annotation: A Deep Active Learning Framework for Biomedical Image Segmentation

一 概述

1.本文研究的问题为:

    在有限的标注工作中,哪些样例应当被标注,以此可以实现最好的识别效果。

2.解决方法:

    设计了 一种结合了FCN和主动学习的深度主动学习框架 ,通过在最有效的注释区域提出有判断力的建议,来显著减少注释工作量。

    文章使用FCN产生的不确定性和相似性信息,组成最大集覆盖问题的广义版本,来决定最具代表性和不确定性的区域来注释。


    选择 主动学习,是由于主动学习允许学习模型选择训练集, 去主动学习那些比较[ 难的][信息量大的] 样本(hard mining)。关键点是每次都挑当前分类器分类效果不理想的那些样本(hard sample)给它训练,假设是训练这部分hard sample 对于提升分类器效果最有效而快速。但是主动学习需要预先训练好的区域提议模型和预先训练的图像描述符网络,由于生物医学应用中的大的变化,这在生物医学图像设置中不容易获得。因此使用FCN来获取领域特定的图像描述符并直接产生分割,而不使用区域提议。

二 学习框架初始化

1.初始化过程

    a.用少量训练数据初始化一组FCN。
    b.在每一个FCN对未标注样本学习结束之后,提取有用的信息(不确定性估计、相似性估计)来决定需要标注的图片。
    c.在获得新的标注数据后,利用所有标注样本再次训练FCN

2.以上步骤需要克服的挑战

(1).FCN
    a.FCN的训练速度要快,以便两个注释阶段之间的时间间隔可以接受。
    b.FCN需要具有良好的通用性,以便在少量训练数据可用时产生合理的结果。
    文章采批量标准化和残差网络来提高训练速度。
    使用瓶颈设计在保持相同数量特征通道的同时能够显著减少网络的参数显着减少参数的数量(以获得更好的通用性),同时保持相似数量的特征通道。

(2).主动学习
    在确定下一批训练数据时,需要充分利用FCN提供的信息。
    基于自助法的思想估计FCN的不确定性,通过使用FCN的编码部分的最终层来估计图像之间的相似性。基于这些信息,我们制定了最大集合覆盖问题的广义版本,用于提出下一批训练数据。

三 方法


文章提出的方法由三个主要部分组成:
(1)一个新的FCN,它显示了我们实验中使用的两个数据集的最新性能;
(2)FCN的不确定性估计和相似性估计;
(3)用于选择最有效的训练数据的注释建议算法。

1.FCN

(1). 编码部分大致遵循DCAN的结构
(2). 使用批量归一化将原始卷积层更改为残差模型
(3). 利用瓶颈设计来减少参数的数量,同时在每个残差模型的末端保持相似数量的特征通道
(4).应用3×3卷积层和1×1卷积层将不同比例的特征图组合在一起

2.不确定性和相似性估计

     为了避免只使用不确定性估计造成的注释区域被重复选择的情况,本文选取具有高不确定性和高代表性(与大多数样本相似) 的样本。
(1)不确定性
  训练一组模型,并限制每个模型使用训练数据的一个子集(替换抽样),计算这些模型间的方差,以此计算FCNs的不确定性。最后每个训练样本的不确定性通过计算其像素的平均不确定性得到。
(2)相似性

猜你喜欢

转载自blog.csdn.net/jiusake/article/details/80606100