从子宫内膜癌和结直肠癌的全切片图像中预测病理亚型和肿瘤突变负荷的自监督模型|文献速递·24-10-30

小罗碎碎念

本文提出了一种基于集成Transformer的多实例学习框架,结合自监督学习的Vision Transformer特征编码器(ETMIL-SSLViT),用于从子宫内膜癌(EC)和结直肠癌(CRC)患者的H&E染色全切片图像(WSIs)中预测病理亚型和肿瘤突变负荷(TMB)状态。

https://doi.org/10.1016/j.media.2024.103372

姓名 单位
Ching-Wei Wang 国立台湾科技大学生物医学工程研究所
Tai-Kuang Chao 国立台湾科技大学生物医学工程研究所、三军总医院妇产部、国防医学院病理学系、三军总医院病理科、国防医学院病理学与寄生虫学研究所

一、研究背景

1-1:背景介绍

这篇文章的研究背景是子宫内膜癌(EC)和结直肠癌(CRC)中,肿瘤突变负荷(TMB)逐渐成为一种重要的基因组生物标志物,可用于临床判断哪些患者可能从免疫检查点抑制剂中受益

高TMB的特点是突变基因数量多,编码异常肿瘤新抗原,意味着对免疫治疗的反应更好。然而,TMB的测量主要通过全外显子测序或下一代测序评估,成本高昂且难以在所有临床病例中广泛应用

因此,迫切需要一种有效、高效、低成本且易于获取的工具来区分EC和CRC患者的TMB状态。


1-2:研究内容

该问题的研究内容包括:提出一种深度学习框架,即集成Transformer的多实例学习框架,结合自监督学习的Vision Transformer特征编码器(ETMIL-SSLViT),直接从EC和CRC患者的H&E染色全切片图像(WSIs)中预测病理亚型和TMB状态,有助于病理分类和癌症治疗计划。


二、研究方法

这张图展示了一个名为EFML-OMF的多阶段机器学习框架,用于病理图像的分析和分类。

该框架分为三个主要部分:VPSM、SSLViT-FEM和EF with T-OMF。

image-20241030115532821

下面是对每个部分的详细分析:

2-1:VPSM

  • 功能:Vision Patch Segmentation Module (VPSM) 用于快速提取非重叠前景补丁,增强WSI分析的效率和准确性。
  • 过程
    1. 输入的病理切片图像被分割成多个小块(Patching)。
    2. 这些小块被进一步处理,以准备输入到后续的模型中。

2-2:SSLViT-FEM

  • 功能:Self-Supervised Learning Vision Transformer Feature Encoder Module (SSLViT-FEM) 集成预训练的ViT-S/16和SSL技术,提取图像的全局显著特征,解决图像内容之间的长距离连接,并充分利用注意力机制将全局上下文信息纳入图像特征,提高特征提取的准确性。
  • 过程
    1. 将图像块和位置嵌入(Patch + Position Embedding)输入到预训练的ViT-S/16模型中。
    2. 通过线性投影将展平的图像块转换为特征向量。
    3. 使用Transformer编码器处理这些特征向量,生成每个切片的特征集(Feature sets of individual slides)。

2-3:EF with T-OMF

  • 功能

    • Transformer-based Multiple Instance Learning (TMIL) 将每个WSI视为一个包,从WSI中提取的补丁视为实例,利用Transformer的自注意力机制建模实例之间的关系,增强表示能力。
    • Early Stop Mechanism (ESM) 基于交叉熵损失,防止过拟合并节省计算资源和时间。
    • Ensemble Framework (EF) 使用袋装策略和两阶段最优模型查找方法(T-OMF),提高方差减少、预测性能和模型鲁棒性,减少过拟合。
  • 过程

    1. Stage 1 OMF
      • 使用训练集和验证集进行模型训练和验证。
      • 通过模型评估(Evaluation)选择最佳模型。
    2. Stage 2 OMF
      • 集成前Z个模型,这些模型根据F1分数(F1-score)和交叉熵(Cross-Entropy)进行选择。
      • 使用早期停止(Early Stop)策略来防止过拟合。
      • 每个子集的最佳模型被组合起来,形成最终的集成模型。
    3. Final Prediction
      • 通过策略化采样(Stratified sampling)从所有切片的特征集中选择特征。
      • 使用特定的规则(如公式中所示)来确定最终的预测结果。

这个框架结合了图像处理、深度学习和集成学习的技术,旨在提高病理图像分析的准确性和效率。每个阶段都有其特定的目标和方法,共同构成了一个复杂的机器学习流程。


三、数据集分析

3-1:TCGA EC队列和CRC队列的数据

这张图展示了TCGA(The Cancer Genome Atlas)项目中的两个癌症队列:子宫内膜癌(EC)队列和结直肠癌(CRC)队列。TCGA是一个公共的癌症基因组学数据库,它提供了多种癌症类型的基因组、转录组、蛋白质组和临床数据。

image-20241030120308679

EC队列(子宫内膜癌队列)

  • 幻灯片数量:918张
  • 患者数量:529名
  • 组织来源地点:29个

CRC队列(结直肠癌队列)

  • 幻灯片数量:1495张
  • 患者数量:594名
  • 组织来源地点:25个

3-2:数据的图像多样性:

这张图展示了两个癌症队列(EC和CRC)的图像多样性,具体包括不同类型的组织学特征和肿瘤突变负荷(TMB)的高低。

image-20241030122520299

EC队列(子宫内膜癌队列)

  • G1, G2, G3:这些是子宫内膜癌的分级,从G1(低级别)到G3(高级别)。
  • G2+SC, G3+SC:这些表示除了分级之外,还伴有肉瘤(SC)成分的肿瘤。
  • TMB-H(红色框):表示肿瘤突变负荷高。
  • TMB-L(黄色框):表示肿瘤突变负荷低。

CRC队列(结直肠癌队列)

  • Mucinous Adenocarcinoma of the Colon and Rectum:粘液性结直肠腺癌,这是一种特殊类型的结直肠癌,其特点是产生大量粘液。
  • Colon Adenocarcinoma:结直肠腺癌,这是结直肠癌中最常见的类型。
  • Rectal Adenocarcinoma:直肠腺癌,与结肠癌类似,但发生在直肠部位。

图像分析

  • 每个队列的图像展示了不同的组织学特征,这些特征对于病理学家来说是诊断和分级癌症的关键。
  • TMB的高低可能影响癌症的生物学行为和对治疗的反应。高TMB(TMB-H)通常与更高的免疫反应和可能更好的免疫治疗反应相关
  • 图像中的红色和黄色框用于强调TMB的不同水平,这对于研究癌症的遗传特性和开发个性化治疗方案非常重要。

研究意义

  • 通过分析这些图像,研究人员可以更好地理解不同类型和级别的癌症的组织学特征。
  • 了解TMB与癌症类型和分级的关系,有助于预测癌症的进展和治疗反应。
  • 这些信息对于开发新的诊断工具和治疗策略具有重要价值。

总的来说,这张图提供了一个直观的视角,展示了子宫内膜癌和结直肠癌在组织学特征和遗传特性上的多样性。


3-3:亚型分布:

这张图展示了子宫内膜癌(EC)和结直肠癌(CRC)队列中不同亚型的患者分布情况。

这一部分显示了数据集中不同癌症亚型的分布情况。

图中使用了不同颜色来表示肿瘤突变负荷(TMB)的高低,以及未确定(NA)的情况。

分析

  1. TMB分布:在EC队列中,G3亚型的TMB-H患者比例较高,而在CRC队列中,Type3亚型的TMB-H患者比例相对较低。
  2. NA比例:CRC队列中Type2和Type3亚型的NA比例较高,这可能表明在这些亚型中,TMB的测定可能存在困难或未进行。
  3. 患者数量:CRC队列的Type2亚型患者数量远多于其他亚型,这可能反映了该亚型在结直肠癌中的普遍性。
  4. TMB-L与TMB-H的比例:在大多数亚型中,TMB-L的患者数量多于TMB-H,这可能与癌症的遗传特性有关。

研究意义

  • 了解不同亚型中TMB的分布有助于研究者探索癌症的遗传特性和可能的治疗方案。
  • NA的高比例提示需要进一步的研究来确定这些患者的TMB状态,以便更好地理解其临床意义。
  • 这些数据对于开发针对特定亚型和TMB状态的个性化治疗策略具有重要价值。

总的来说,这张图提供了关于EC和CRC不同亚型中TMB分布的详细信息,这对于癌症研究和治疗具有重要的参考价值。


3-4:长度分布(以像素为单位):

这张图展示了子宫内膜癌(EC)和结直肠癌(CRC)队列中切片的宽度和高度的像素分布。

image-20241030123030058

图中使用了不同颜色来区分EC和CRC的宽度和高度。

分析

  1. 像素范围:幻灯片的宽度和高度的像素值分布在4485到177460之间。
  2. EC队列
    • 宽度(蓝色):分布较为均匀,但在某些像素值(如4435, 18435, 25435等)处有较高的峰值。
    • 高度(浅蓝色):分布也较为均匀,但在某些像素值(如4435, 18435, 25435等)处有较高的峰值。
  3. CRC队列
    • 宽度(粉色):分布较为均匀,但在某些像素值(如4435, 18435, 25435等)处有较高的峰值。
    • 高度(紫色):分布较为均匀,但在某些像素值(如4435, 18435, 25435等)处有较高的峰值。
  4. 峰值:在某些特定的像素值(如4435, 18435, 25435等)处,EC和CRC的宽度和高度都有较高的峰值,这可能表明这些尺寸的幻灯片在两个队列中都较为常见。

研究意义

  • 标准化:了解幻灯片的尺寸分布对于数据标准化和后续的图像分析非常重要。
  • 图像处理:在进行图像处理和分析时,需要考虑到不同尺寸的幻灯片可能需要不同的处理方法。
  • 数据质量:幻灯片尺寸的分布信息有助于评估数据质量,确保在分析过程中考虑到所有可能的尺寸变体。

总的来说,这张图提供了关于EC和CRC幻灯片尺寸分布的详细信息,这对于癌症研究和图像分析具有重要的参考价值。


四、模型性能评估

4-1:子宫内膜癌亚型分类和肿瘤突变负荷预测

这张表格展示了在子宫内膜癌(EC)的癌症亚型分类和肿瘤突变负荷(TMB)预测任务中,不同方法的性能比较。

表格中列出了每种方法的准确率(Accu.)、精确率(Prec.)、召回率(Sens./Recall)、F1分数(F1-S.)、特异性(Spec.)、平均敏感性(MeanSS)、平均敏感性排名(MeanSS rank)、AUROC值以及Fisher精确检验的p值。

image-20241030123400781

(a) EC亚型分类(侵袭性 vs 非侵袭性)

  • 最佳表现:Proposed ETMIL-SSLViT with aug 方法在准确率、F1分数和AUROC值上表现最佳,分别为0.91、0.92和0.91。
  • 最低表现:ClassicMIL 方法在所有指标上表现最差,准确率仅为0.53,AUROC值为0.55。
  • 统计显著性:大多数方法的Fisher精确检验p值小于0.001,表明结果具有统计学显著性。

(b) 侵袭性亚型中的TMB状态预测

  • 最佳表现:Proposed ETMIL-SSLViT with aug 方法在准确率、F1分数和AUROC值上表现最佳,分别为0.77、0.73和0.82。
  • 最低表现:ClassicMIL 方法在所有指标上表现最差,准确率仅为0.61,AUROC值为0.57。
  • 统计显著性:除了Wang et al. (2023d) 和 TOAD (Lu et al., 2021a) 方法外,其他方法的Fisher精确检验p值均小于0.001。

© 非侵袭性亚型中的TMB状态预测

  • 最佳表现:Proposed ETMIL-SSLViT 方法在准确率和AUROC值上表现最佳,分别为0.66和0.61。
  • 最低表现:MRAN (Xiang et al., 2023) 方法在所有指标上表现最差,准确率仅为0.47,AUROC值为0.57。
  • 统计显著性:除了Improved_InceptionV3_MS (Wang et al., 2023e) 和 TOAD (Lu et al., 2021a) 方法外,其他方法的Fisher精确检验p值均小于0.001。

总结

  • Proposed ETMIL-SSLViT with aug 方法在所有任务中均表现出色,特别是在EC亚型分类任务中。
  • ClassicMIL 方法在所有任务中表现较差,可能需要进一步改进。
  • 大多数方法的结果在统计上是显著的,表明这些方法在EC亚型分类和TMB预测上具有实际应用价值。

这些结果为子宫内膜癌的亚型分类和TMB状态预测提供了有价值的参考,有助于进一步的研究和临床应用。


4-2:子宫内膜癌分类性能

这张图展示了三种不同任务的ROC曲线,用于评估不同方法在癌症亚型分类和TMB预测中的性能。

每个子图(a、b、c)代表一个不同的任务,横轴是假阳性率(False Positive Rate),纵轴是真阳性率(True Positive Rate)。AUROC(Area Under the Receiver Operating Characteristic Curve)值用于衡量模型的整体性能,值越接近1表示性能越好。

image-20241030123601946

(a) EC亚型分类(侵袭性 vs 非侵袭性)

  • Proposed ETMIL-SSLViTProposed TMIL-SSLViT 表现最佳,AUROC值分别为0.92和0.92,表明这两种方法在区分侵袭性和非侵袭性EC亚型方面非常有效。
  • Proposed TMIL-SSLViT with augProposed ETMIL-SSLViT with aug 也表现良好,AUROC值分别为0.91和0.91。
  • TransMILMRAN 的AUROC值分别为0.92和0.77,其中TransMIL表现优异,而MRAN相对较差。

(b) 侵袭性亚型中的TMB状态预测

  • Proposed ETMIL-SSLViTProposed TMIL-SSLViT 再次表现最佳,AUROC值分别为0.82和0.83。
  • Proposed ETMIL-SSLViT with augProposed TMIL-SSLViT with aug 的AUROC值分别为0.82和0.81,略低于未增强的版本。
  • Wang et al. 2023CLAM 的表现较差,AUROC值分别为0.76和0.70。

© 非侵袭性亚型中的TMB状态预测

  • Proposed ETMIL-SSLViTProposed TMIL-SSLViT 的AUROC值分别为0.61和0.62,表现相对较好,但不如在侵袭性亚型中的表现。
  • Proposed ETMIL-SSLViT with augProposed TMIL-SSLViT with aug 的AUROC值分别为0.59和0.59,表现略差。
  • CLAMTOAD 的表现最差,AUROC值分别为0.42和0.55。

总结

  • Proposed ETMIL-SSLViTProposed TMIL-SSLViT 在所有任务中均表现出色,尤其是在EC亚型分类任务中。
  • 增强方法(with aug) 在侵袭性亚型中的TMB状态预测任务中表现略逊于未增强的版本。
  • 非侵袭性亚型中的TMB状态预测 对所有方法来说都是一个挑战,因为AUROC值普遍较低,表明这一任务的难度较大。

这些结果强调了不同方法在处理不同癌症亚型和TMB状态预测任务时的适用性和有效性,为未来的研究和临床应用提供了重要的参考。


4-3:定量评估比较模型选择机制在食管癌亚型分类中的应用

这张表格展示了在子宫内膜癌(EC)亚型分类任务中,不同模型选择指标和骨干网络(Backbone)的性能比较。

image-20241030123934828

表格中列出了每种方法的准确率(Accu.)、敏感性(Sens.)、特异性(Spec.)和MeanSS(敏感性和特异性的平均值)。

分析

  1. 模型选择指标
    • Cross EntropyMeanSSMacro F1-ScoreF1-Score 被用作模型选择的指标。
  2. 骨干网络
    • ResNet50:由He等人在2016年提出,是一种常用的深度学习模型,用于图像识别任务。
  3. 性能指标
    • 准确率(Accu.):所有方法的准确率都在0.82到0.86之间,表明模型在分类任务中的整体表现良好。
    • 敏感性(Sens.):敏感性在0.75到0.90之间,表明模型在识别正类(侵袭性EC亚型)方面的能力。
    • 特异性(Spec.):特异性在0.80到0.91之间,表明模型在识别负类(非侵袭性EC亚型)方面的能力。
    • MeanSS:是敏感性和特异性的平均值,提供了一个综合的性能指标。
  4. 最佳性能
    • F1-Score 作为模型选择指标时,结合ResNet50骨干网络,达到了最高的MeanSS值0.85,表明在平衡敏感性和特异性方面表现最佳。

结论

  • F1-Score 作为模型选择指标时,能够提供最佳的综合性能,尤其是在平衡敏感性和特异性方面。
  • 使用ResNet50作为骨干网络,结合不同的模型选择指标,可以有效地进行EC亚型的分类。
  • 这些结果为选择最佳的模型和指标提供了依据,有助于提高EC亚型分类的准确性和可靠性。

总的来说,这张表格提供了关于不同模型选择指标和骨干网络在EC亚型分类任务中的性能比较,有助于研究者和临床医生选择最适合的模型进行疾病诊断和研究。


4-4:比较所提出方法在使用不同特征提取方法对食管癌样本的性能表现

这张表格(Table 4)比较了在子宫内膜癌(EC)样本中使用不同特征提取方法的提议方法的性能。

表格中列出了每种方法的准确率(Accu.)、敏感性(Sens.)、特异性(Spec.)和MeanSS(敏感性和特异性的平均值)。

image-20241030124155439

分析

  1. 任务分类

    • (a) 癌症亚型分类:区分侵袭性和非侵袭性癌症亚型。
    • (b) 侵袭性亚型中的TMB状态评估:在侵袭性亚型中评估肿瘤突变负荷(TMB)状态。
    • © 非侵袭性亚型中的TMB状态评估:在非侵袭性亚型中评估TMB状态。
  2. 骨干网络

    • 包括ResNet50、ResNet101、ResNet152、ResNext50、ConvNeXt-T、ConvNeXt-B、ConvNeXt-L、EfficientNet-B0、EfficientNetV2-S、EfficientNetV2-M、EfficientNetV2-L、DINO-ViT-S/16和DINO-ViT-S/8等。
    • 一些模型使用了ImageNet或TCGA数据集进行预训练。
  3. 性能指标

    • 准确率(Accu.):大多数方法的准确率在0.64到0.87之间,表明模型在分类任务中的整体表现。
    • 敏感性(Sens.):敏感性在0.27到0.99之间,表明模型在识别正类(如侵袭性EC亚型或高TMB状态)方面的能力。
    • 特异性(Spec.):特异性在0.11到0.96之间,表明模型在识别负类(如非侵袭性EC亚型或低TMB状态)方面的能力。
    • MeanSS:是敏感性和特异性的平均值,提供了一个综合的性能指标。
  4. 最佳性能

    • 在癌症亚型分类任务中,DINO-ViT-S/16(Kang et al.,2023)(Proposed TMIL-SSLViT)达到了最高的MeanSS值0.87。
    • 在侵袭性亚型中的TMB状态评估任务中,DINO-ViT-S/16达到了最高的MeanSS值0.76。
    • 在非侵袭性亚型中的TMB状态评估任务中,DINO-ViT-S/16达到了最高的MeanSS值0.64。

结论

  • DINO-ViT-S/16和DINO-ViT-S/8 在所有任务中均表现出色,尤其是在侵袭性亚型中的TMB状态评估任务中。
  • ResNet152 在癌症亚型分类任务中表现较差,特别是在特异性方面。
  • EfficientNetV2-L 在非侵袭性亚型中的TMB状态评估任务中表现不佳,敏感性特别低。

这些结果强调了不同特征提取方法在处理不同EC亚型和TMB状态预测任务时的适用性和有效性,为未来的研究和临床应用提供了重要的参考。


4-5:将所提出的框架与各种基于SSL的骨干网络在食管癌亚型分类中进行比较

这张表格(Table 5)展示了在子宫内膜癌(EC)亚型分类任务中,使用不同自监督学习(SSL)方法和骨干网络的性能比较。

表格中列出了每种方法的准确率(Accu.)、精确率(Prec.)、敏感性(Sens.)、F1分数(F1-S.)、特异性(Spec.)和MeanSS(敏感性和特异性的平均值)。

image-20241030124317086

分析

  1. SSL方法

    • 包括BT、MoCoV2、SwAV和DINO等,这些方法都是基于自监督学习的框架,用于特征提取和表示学习。
  2. 骨干网络

    • 使用了ResNet50和Vision Transformer(ViT)的不同变体,如ViT-S/8和ViT-S/16。
  3. 预训练数据集

    • 所有方法都在TCGA(The Cancer Genome Atlas)数据集上进行了预训练,这是一个公共的癌症基因组学数据库。
  4. 性能指标

    • 准确率(Accu.):大多数方法的准确率在0.81到0.87之间,表明模型在分类任务中的整体表现良好。
    • 精确率(Prec.):精确率在0.83到0.92之间,表明模型在预测正类时的准确性。
    • 敏感性(Sens.):敏感性在0.74到0.90之间,表明模型在识别正类(侵袭性EC亚型)方面的能力。
    • F1分数(F1-S.):F1分数在0.82到0.88之间,提供了精确率和召回率的平衡度量。
    • 特异性(Spec.):特异性在0.76到0.91之间,表明模型在识别负类(非侵袭性EC亚型)方面的能力。
    • MeanSS:是敏感性和特异性的平均值,提供了一个综合的性能指标。
  5. 最佳性能

    • DINO (Kang et al., 2023) 使用ViT-S/16骨干网络时,达到了最高的MeanSS值0.87,表明在平衡敏感性和特异性方面表现最佳。
    • DINO (Kang et al., 2023) 使用ViT-S/8骨干网络时,也表现出色,MeanSS值为0.83。

结论

  • DINO方法 结合ViT-S/16骨干网络在EC亚型分类任务中表现最佳,特别是在平衡敏感性和特异性方面。
  • ResNet50 作为骨干网络时,MoCoV2和SwAV方法的性能也相当接近,但略低于DINO方法。
  • 这些结果强调了自监督学习方法在医学图像分类任务中的潜力,尤其是在处理复杂的生物医学数据时。

总的来说,这张表格提供了关于不同自监督学习方法和骨干网络在EC亚型分类任务中的性能比较,有助于研究者和临床医生选择最适合的模型进行疾病诊断和研究。


4-6:使用不同的基于SSL的骨干网络对所提出框架的运行时间进行分析

这张表格(Table 6)提供了使用不同自监督学习(SSL)方法和骨干网络在特征提取和AI推理中的运行时间分析。

表格分为两部分:(a) 数据大小(b)特征提取时间,以及 © AI推理时间和(d) AI训练时间。

image-20241030124422908

(a&b) 数据大小和特征提取时间

  • 文件大小:所有方法的文件大小均为287.55 MB/slide,这表明输入数据的尺寸是一致的。
  • 特征大小:ResNet-50骨干网络的特征大小为96.88 MB,而ViT-S/8和ViT-S/16骨干网络的特征大小显著较小,为18.16 MB。这表明ViT骨干网络在特征提取时更为高效。
  • 创建补丁时间:所有方法在创建补丁上的时间相同,为3.14秒/slide。
  • 提取特征时间:使用ResNet-50的BT、MoCoV2和SwAV方法的提取特征时间分别为22.14、22.65和22.41秒/slide,而使用ViT-S/8和ViT-S/16的DINO方法的提取特征时间稍长,分别为23.07和23.62秒/slide。

© AI推理时间

  • 推理时间(c1):ViT-S/8和ViT-S/16的DINO方法的推理时间最短,为0.04秒/slide,而ResNet-50的BT、MoCoV2和SwAV方法的推理时间为0.06秒/slide。
  • 总推理时间(c1+b):包括特征提取和推理时间,DINO方法的总时间较短,ViT-S/8为26.24秒/slide,ViT-S/16为26.80秒/slide。

(d) AI训练时间

  • 每轮训练时间(d1):DINO方法的每轮训练时间较短,ViT-S/8为0.76分钟,ViT-S/16为0.75分钟。
  • 最大200轮训练与早停(d2):DINO方法在早停策略下的训练轮数较少,ViT-S/8为19轮,ViT-S/16为17轮。
  • 总训练时间(d2+b):包括训练和推理时间,DINO方法的总训练时间较短,ViT-S/8为161分钟,ViT-S/16为163分钟。

结论

  • DINO方法,特别是使用ViT-S/8和ViT-S/16骨干网络的版本,在特征提取、AI推理和训练时间上均表现出较高的效率。
  • ViT骨干网络在特征大小上更为紧凑,可能有助于减少存储和处理需求。
  • 早停策略在DINO方法中有效地减少了训练时间,同时保持了模型性能。

这些结果表明,DINO方法结合ViT骨干网络在处理时间和效率方面具有优势,这对于需要快速处理大量数据的临床应用场景尤为重要。


4-7:将所提出的方法与不同的优化器在食管癌亚型分类中进行比较

这张表格(Table 7)展示了在子宫内膜癌(EC)亚型分类任务中,使用不同优化器的性能比较。

表格中列出了每种方法的准确率(Accu.)、精确率(Prec.)、敏感性(Sens.)、F1分数(F1-S.)、特异性(Spec.)和MeanSS(敏感性和特异性的平均值)。

image-20241030124522708

分析

  1. 损失函数:所有方法均使用交叉熵(Cross Entropy)作为损失函数。

  2. 骨干网络:使用的是DINO-ViT-S/16,预训练数据集为TCGA。

  3. 优化器

    • lookahead+Radam
    • Radam
    • lookahead+Adam
    • Adam
    • lookahead+RMSProp
    • RMSProp
  4. 性能指标

    • 准确率(Accu.):从0.80到0.87不等,表明模型在分类任务中的整体表现。
    • 精确率(Prec.):从0.85到0.90不等,表明模型在预测正类时的准确性。
    • 敏感性(Sens.):从0.76到0.87不等,表明模型在识别正类(侵袭性EC亚型)方面的能力。
    • F1分数(F1-S.):从0.82到0.88不等,提供了精确率和召回率的平衡度量。
    • 特异性(Spec.):从0.80到0.89不等,表明模型在识别负类(非侵袭性EC亚型)方面的能力。
    • MeanSS:是敏感性和特异性的平均值,提供了一个综合的性能指标。
  5. 最佳性能

    • 使用lookahead+RMSProp优化器时,模型达到了最高的精确率(0.90)和F1分数(0.83),并且特异性(0.89)也是最高的。
    • 使用lookahead+Radam优化器时,模型的MeanSS值最高,为0.87,表明在平衡敏感性和特异性方面表现最佳。

结论

  • lookahead+RMSProplookahead+Radam 优化器在EC亚型分类任务中表现出色,特别是在精确率、F1分数和MeanSS方面。
  • lookahead 策略似乎对提高模型性能有积极影响,因为它在多个指标上都显示出较好的结果。
  • 这些结果表明,选择合适的优化器对于提高模型在特定任务上的性能至关重要。

总的来说,这张表格提供了关于不同优化器在EC亚型分类任务中的性能比较,有助于研究者和临床医生选择最适合的模型进行疾病诊断和研究。


4-8:比较所提出的方法与不同损失函数在食管癌亚型分类中的应用

这张表格(Table 8)比较了在子宫内膜癌(EC)亚型分类任务中,使用不同损失函数的性能。

表格中列出了每种方法的准确率(Accu.)、精确率(Prec.)、敏感性(Sens.)、F1分数(F1-S.)、特异性(Spec.)和MeanSS(敏感性和特异性的平均值)。

image-20241030124930392

分析

  1. 优化器:所有方法均使用lookahead+Radam优化器。

  2. 损失函数

    • 交叉熵(Cross Entropy)
    • 焦点损失(Focal Loss)
    • 均方误差(MSE)
  3. 性能指标

    • 准确率(Accu.):交叉熵损失函数的准确率最高,为0.87,而焦点损失和MSE的准确率分别为0.66和0.57。
    • 精确率(Prec.):交叉熵损失函数的精确率最高,为0.90,焦点损失和MSE的精确率分别为0.71和0.59。
    • 敏感性(Sens.):MSE损失函数的敏感性最高,为0.90,交叉熵和焦点损失的敏感性分别为0.87和0.68。
    • F1分数(F1-S.):交叉熵损失函数的F1分数最高,为0.88,焦点损失和MSE的F1分数分别为0.70和0.71。
    • 特异性(Spec.):交叉熵损失函数的特异性最高,为0.87,焦点损失和MSE的特异性分别为0.63和0.13。
    • MeanSS:交叉熵损失函数的MeanSS值最高,为0.87,焦点损失和MSE的MeanSS值分别为0.65和0.51。

结论

  • 交叉熵损失函数在所有性能指标上均表现最佳,特别是在精确率、F1分数和特异性方面,表明它在区分EC亚型方面非常有效。
  • 焦点损失在敏感性上表现尚可,但精确率和特异性较低,可能需要进一步调整以提高性能。
  • MSE损失函数在敏感性上表现突出,但特异性极低,这可能表明它在区分正负类时存在问题。

总的来说,这张表格提供了关于不同损失函数在EC亚型分类任务中的性能比较,有助于研究者和临床医生选择最适合的模型进行疾病诊断和研究。交叉熵损失函数在这项任务中显示出了其优越性。


4-9:在食管癌亚型分类中,对所提出的方法在五个独立来源站点上的评估

这张表格(Table 9)展示了在五个独立的数据源上对EC亚型分类任务中提出的两种方法的性能评估。

表格中列出了每种方法的平均准确率(Accu.)、精确率(Prec.)、敏感性(Sens.)、F1分数(F1-S.)、特异性(Spec.)和MeanSS(敏感性和特异性的平均值),以及它们的标准差(STD)。

image-20241030125011804

分析

  • ETMIL-SSLViT 在所有性能指标上均优于TMIL-SSLViT,特别是在准确率、精确率、F1分数和MeanSS方面。
  • TMIL-SSLViT 的特异性较低,这可能表明该方法在区分阴性样本时的性能不如ETMIL-SSLViT。
  • ETMIL-SSLViT 的MeanSS值较高,表明它在敏感性和特异性之间取得了较好的平衡。

猜你喜欢

转载自blog.csdn.net/qq_45404805/article/details/143362384