【论文笔记】Detection of Glands and Villi by Collaboration of Domain Knowledge and Deep Learning

I Abstract

        结构扭曲的腺体和绒毛是慢性炎症的指征。 然而,这两种结构的“二元性”性质导致它们在H&E组织学组织图像中的检测存在许多模糊性,尤其是当多个实例聚集在一起时。 基于观察得到,一旦检测到这样的对象,可以大大减少检测到的对象附近的模糊性,我们建议在单一框架中结合深度学习和领域知识,同时检测(密切相关) H&E组织学组织图像中的腺体和绒毛。
         我们的方法在探索领域知识和执行深度学习分类之间进行迭代,并且两个组件相互受益。
         (1)通过探索领域知识,生成的对象提议(用于深度学习)形成对真实对象的更完整的覆盖,并且对象提议的分割可以更准确,从而提高深度学习在分类方面的表现。
         (2)深度学习可以帮助验证每个对象提议的类别,并提供反馈以反复“刷新”和增强领域知识,以便以后可以生成更可靠的对象提议。
         临床数据的实验验证了我们的想法,并表明我们的方法改进了H&E组织学组织图像中腺体检测的最新技术(据我们所知,我们不知道任何检测绒毛的方法)。

II Introduction

        腺体和绒毛的结构扭曲是炎症慢性的强烈征兆。 此外,对这种扭曲程度的定量测量可以帮助确定慢性炎症的严重程度。 实现这些目标的关键步骤是准确检测这两种生物结构的能力。
        如图1(a) - (b)所示,腺体和绒毛实际上由相同的结构组成:上皮。 腺体包围管腔并被细胞外物质包围,而绒毛包围细胞外物质但被管腔包围。 在H&E组织学组织图像中,腺体和绒毛的检测挑战主要是由于两种结构的这种“二元性”(特别是当多个实例聚集在一起时),以及复杂的组织背景(包含不同的生物结构,例如, 不同类型的细胞,结缔组织等,以及由于形态,染色和鳞屑引起的腺体和绒毛的可变外观。
Fig.1(a)双腺体和绒毛的三维图示:绒毛(顶部)是上皮(绿色)向内腔(蓝色)的外翻,腺体(下部)是上皮细胞内陷进细胞外物质(红色); (b)组织学组织图像是3-D结构的2-D切片; (c)可能导致腺体假阳性的某些区域(黑圈)。
        一些方法]被提出用于H&E组织学组织图像中的腺体检测,其使用类似的框架:(1)找到管腔区域;(2)对于每个管腔区域,进行区域生长相似的过程以找到包围管腔的上皮细胞,该管腔被认为是腺体的边界。在存在绒毛簇的情况下应用这种方法可能会产生许多腺体假阳性,因为在第一步中可能会发现不同绒毛中的管腔区域,然后,包围这些绒毛的上皮区域可能被错误地视为包围管腔的腺体的边界然后这些绒毛的上皮区域可能被错误地视为一个边界。封闭腔的腺体(见图1(c))。此外,由于图像的某些切片角度,一些腺体内的腔区域可能不是非常明显;因此,这种方法可能倾向于产生这种腺体的假阴性。
        在本文中,我们建议结合领域知识和深度学习来同时检测H&E组织学组织图像中的腺体和绒毛(因为它们密切相关)。我们的方法基于这样的观察:一旦我们确定某个物体(某些类别,即腺体或绒毛),我们就可以将这些信息传播到被检测物体的邻域,从而减少附近的检测模糊度。 我们方法的主要步骤如下。
        (1)我们通过使用腺体和绒毛外观的领域知识,为目标对象的可能候选者提取(伪)概率图(PPM)。
        ( 2)使用PPM,我们生成对象提议并将它们提供给深度卷积神经网络(CNN),以验证每个对象是否真的属于PPM声明的类(反映域知识)。
        (3)如果对象提案通过了验证,那么我们更新PPM(实质上,传播我们已经检测到某些对象的信息),以便可以使用更新的领域知识生成新的对象提议。我们重复最后两步,直到无法检测到某些对象。我们的工作表明,领域知识和深度学习之间的密切合作可以有效地检测出多个腺体和绒毛。


III Methodology

3.1 (伪)概率图(PPM)的提取

         每个组织学组织载玻片可能包含多个腺体和绒毛,可能是不同的尺寸。因此,我们方法的第一步旨在提取(伪)概率图(PPM),其中包含两个目标类(腺体和绒毛)的所有对象的位置和比例的信息。我们将在下一步中基于PPM生成对象提议。 我们这一步的主要思想是进行广义Hough变换投票过程
        在探索腺体和绒毛外观的领域知识后,这个想法基于两个考虑因素。(I)每个上皮区域表明目标物体在附近,但其类别(即腺体或绒毛),位置和比例尚不清楚,至少从该单个上皮区域的角度来看。(II)在每个上皮区域投票(基于其自己的观点)之后,可以获得关于所有对象的更清晰和完整的图片。这是因为,总的来说,物体的真阳性更可能从这样的上皮区域获得更多的投票。 我们的想法和步骤将在下面详细讨论。
       (1)我们首先获得图像的超像素分割(图2b)。然后我们使用随机森林和手工设定的特征(例如,颜色,基于Gabor滤波器的纹理)将每个超像素分类为上皮,管腔或细胞外物质(因为它们都与腺体和绒毛的外观有关)。

        (2)由于每个上皮超像素表明目标对象在附近,它将投票给4-D对象投票空间中的某些点(投票过程如下所示),其中每个维度对应于每个单个对象的因子,即,它的类(腺体或绒毛),图像中的x和y坐标,以及比例(我们凭经验使用8个尺度,相当于大约S= {0.011,0.014,0.025,0.05,0.067,0.111,0.167,0.25}乘LS, 图像短边的长度)。

    (2.a)我们首先从上皮超像素(ES)中,在d=S(i)×LS的距离内找到腔(LM)和细胞外物质(EM)。

    (2.b)对于每个类和每个比例,我们根据以下观察选择映射/投票方向(缩小要覆盖的投票空间)将ES映射到某些位置:如果ES是一部分腺体,然后腺体可能与LM位于同一侧,但在EM的另一侧(在本ES附近的(2.a)中找到);如果它实际上是绒毛的一部分,那么由于腺体和绒毛的“二元性”,绒毛可能与EM位于同一侧,但在LM的另一侧(见图2(e))更具体地说,ES将投票选择以(x,y)坐标为中心的圆(半径为d / 4)中的点,这些坐标距离ES的中心距离为d,相应地朝向所选择的方向 ,分别为腺体和绒毛,以及8个尺度(见图2(f))。
我们观察相应的3-D超平面w.r.t. 到构建的4-D投票空间中的类维度作为每个类的初始PPM,包含候选对象的位置和比例信息(见图2(c) - (d))。
Fig.2(a)图像样本;(b)超像素段; 初始PPM(红色值高;蓝色值低)分别为单个腺体(c)和绒毛(d);(e)蓝色和红色箭头分别是腺体和绒毛的投票方向;(f)ES在一个等级的单一等级中以圆圈(蓝色)投票的分数;(g)包含检测到的物体的图像块(所呈现的绒毛(顶部)在(a)中的顶部图像的中心附近,并且所呈现的腺体(底部)在(a)中的底部图像的左下方;(h)背景蒙面的图像补丁;在检测到的(g)中的对象的信息传播到邻域之后,在单个尺度上分别更新针对腺体(i)和绒毛(j)的PPM(注意检测到的对象周围的(伪)概率值的变化)

3.2 对象建议生成和类验证


概述
         此步骤旨在确保检测到的对象确实是真正的正对象,以便在下一步中,我们不会将错误信息传播到其邻域以解决歧义。 我们首先应用图搜索[5](使用高级先验)对对象提议进行分段(基于PPM生成),然后提供包含相同对象提议的两个小图像补丁(有或没有背景遮蔽) 分别使用具有相同体系结构的两个卷积神经网络(CNN)来验证该对象提议的类是否是PPM声明的类。
         使用领域知识生成的对象提案可以帮助CNN变得至关重要。 (1)如果对领域知识视而不见(例如,在[3,11,6]中),生成的对象提议可能会遗漏许多真实对象。 因此,在训练期间,CNN无法很好地模拟目标对象; 在测试期间,可以产生假阴性。 (2)虽然在像素级别的对象提议的分段形式可以帮助提高CNN在对象分类上的表现[6],但[6]中的分割是以自下而上的方式完成的,仅使用低级图像提示。 基于生成对象提案的PPM类(反映领域知识),我们可以通过利用类特定的高级语义先验以自上而下的方式获得更准确的分割。
CNN训练
对于每个类,我们在相应的初始PPM中找到高于某个阈值的每个局部最大点作为一个对象提议,并为其执行基于图搜索的分段。如果分割的前景区域RSeg和该类的手动标记的地面实况对象区域RGT满足|RSeg∩RGT|| RSEG| > 0.6和|RSeg∩RGT|| RGT| > 0.6,然后我们将对象提案作为该类的积极训练示例; 否则,是否定的。注意,相对较高的重叠阈值0.6是使受过训练的CNN保守,使得误报在测试期间不太可能通过CNN验证。
        我们裁剪一个包含对象建议的小图像补丁,将其扭曲到256×256像素,并用于训练一个CNN。我们通过所有训练图像块的平均值进一步掩盖其中的背景区域(参见图2(g) - (h)),并将其用于训练其他CNN。 我们的两个CNN具有相同的架构,并使用与[7]相同的学习算法进行训练; 我们还应用数据增加和退出来减少过度配置[7]。 注意CNN一旦使用初始PPM进行训练,将在所有其余迭代中使用。
CNN测试
        在CNN测试期间,我们还针对每个对象提议执行基于图搜索的分段(使用当前PPM生成,如下面详细描述的),并且将两个图像块(具有或不具有被掩蔽的背景)分别馈送到两个CNN。 我们使用两个CNN输出的平均概率来预测该类。 一旦对象提案被CNN确认为腺体或绒毛的真正阳性(即,预测结果不是非对象),我们将通过更新PPM将此信息传播到邻域区域(将在章节中描述)2.3)。 如果CNN无法验证任何真实对象,我们就会停止算法。
        由于在测试期间,PPM随着越来越多的对象提案通过CNN的验证而动态变化,并且在更新后基于新版本的PPM生成对象提议,我们需要确定生成和处理对象提案的适当顺序是什么。 一种可能的顺序是贪婪和逐一的方式:每次,我们在当前PPM中找到具有最大(伪)概率值的点,通过CNN验证相应的对象提议,并在必要时更新PPM。
        另一种可能的方式是批量方式:每次,我们生成一批对象提案,通过CNN验证所有对象提议,并在必要时更新PPM。当然,在同一批次内生成的对象提议不应彼此密切相关(否则,我们可能会随后传播信息)。我们在顶点加权图G中计算了一个非冲突批量计算最大加权独立集(MWIS)的问题,构造如下:G的每个顶点用于PPM中某个阈值以上的局部最大点。任何一个; 如果图像中一个顶点的(x,y)坐标在另一个顶点的标度的2倍之内,则用边连接两个顶点; 每个顶点的权重是对应点的(伪)概率值。 (因此,我们可能认为MWIS部分贪婪。)
图搜索。
        我们应用图搜索[5]来分割每个对象提案。我们利用各种类别特定的高级语义先验来构建图搜索所需的输入,如下所示。我们使用每个对象提议的比例信息来设置重采样光线的长度和几何平滑度约束。 我们简单地将距离变换应用于检测到的上皮细胞和细胞外物质(相应的,管腔)之间的边界像素,以建立腺体的边界成本(相应地,绒毛)。我们简单地将腺体(相应地,绒毛)的区域内成本设置为上皮或管腔内的像素(相应的,细胞外物质)低,并且对于细胞外物质内的像素(相应的,管腔)来说是高的。 注意,可以使用更复杂的成本函数来获得更好的分割。

猜你喜欢

转载自blog.csdn.net/jiusake/article/details/80895157