ViLa-MIL论文解读、代码分析

背景

数字病理学

数字病理学是指将传统的玻璃病理切片进行数字化处理,并将其存储、管理和分析的过程。数字化病理切片称为全切片图像(WSI),具有高分辨率、层次化结构和巨大的数据量。

WSI 分类

WSI 分类是指对 WSI 进行自动识别和分类的过程,例如癌症亚型分类、分期和组织分割等。由于 WSI 数据量大、标注困难,因此 WSI 分类是一个具有挑战性的任务。

多实例学习(MIL)

MIL 是一种弱监督学习框架,它将 WSI 视为一个包含多个实例(图像块)的“袋”,并学习从这些实例中提取袋级特征,用于分类任务。MIL 方法能够有效地处理 WSI 数据,但依赖于大量的袋级标签,泛化性能有限。

视觉语言模型(VLM)

VLM 是一种能够理解图像和文本之间关系的人工智能模型。它通常由图像编码器和文本编码器组成,通过在大规模图像-文本对上进行预训练,学习图像和文本的联合表示。VLM 方法在自然图像分类、分割、目标检测等任务中取得了显著的成果。

要解决的问题

  1. MIL方法的局限性
    • MIL-based方法依赖大量带包级标签的幻灯片训练,对于罕见病难以获取足够数据,且仅从原始幻灯片学习,易受数据分布影响,泛化性能差。
  2. VLM方法的不足
    • VLM-based方法的文本提示缺乏病理先验知识,在识别模糊类别时有效性不足。<

猜你喜欢

转载自blog.csdn.net/qq_61786525/article/details/143661945
今日推荐