文章《Foundation models in gastrointestinal endoscopic AI: Impact of architecture,pre-training approach and data efficienc》主要研究基础模型在胃肠内镜AI中的应用,聚焦于模型架构、预训练方法和数据效率对模型性能的影响。基础模型通过大规模预训练并进行迁移学习,能有效应对复杂内镜图像中病变(如息肉、癌前病变等)的识别任务。
01.引言
文章聚焦于深度学习在医学成像分析中的前沿应用,随着医疗成像技术的不断进步,医生可获取越来越多高质量的医学图像,极大促进了疾病诊断和治疗。然而,如何高效地利用这些数据仍面临挑战。深度学习作为一项强大的机器学习技术,已在图像识别、分类和分割等领域展现出巨大潜力,为医学图像分析带来了新的机遇。基于此,本文的研究目标是评估不同预训练技术在医学图像分析任务(如分类、分割及其混合任务)中的性能表现,并通过对比自然图像与医学图像预训练策略,探讨更适合医学图像分析的方案。本文主要贡献在于构建了一个包含丰富胃肠道图像的GastroNet数据库,并通过在五个不同内镜数据集上的实验,采用AUC和DICE分数等指标,全面评估不同预训练技术的效果。结果显示,基于医学图像的预训练通常优于自然图像预训练,为未来的医学图像分析提供了关键的指导。
02.模型介绍
文章的模型架构主要探索了自监督预训练(Self-Supervised Pre-training, SSL)在医学内镜图像分析中的应用,特别关注了使用领域特定(in-domain)数据对模型进行预训练的效果。以下是组成该模型架构的各个模块及其相应功能的详细介绍:
1. 数据集收集与准备
- GastroNet-5M:为了进行领域特定的自监督预训练,文章从八家荷兰医院的内镜患者数据库中回顾性收集了一个包含5,014,174张未标记的胃肠道内镜图像的数据集,称为GastroNet-5M。这个数据集是后续所有预训练实验的基础。
2. 预训练框架
介绍了三种不同的自监督预训练框架:SimCLRv2、MoCov2和DINO。
-
SimCLRv2:通过最大化相同图像的不同增强版本之间的相似性来学习图像表示。它使用对比学习的方法,使模型能够区分来自同一图像的增强版本与其他图像。
-
MoCov2:基于动量对比学习,维护一个使用动量更新的编码器来产生“正样本”,并与当前编码器的输出进行对比。这种方法有助于模型学习到更稳定的特征表示。
-
DINO(Distillation with No Labels):是一种无标签的知识蒸馏方法,通过教师模型预测未标记数据的基础标签,并用这些标签来监督学生模型的训练。DINO特别适用于Vision Transformer(ViT)架构。
3. 神经网络架构
-
ResNet50:一种常用的卷积神经网络架构,具有50层深度,广泛用于图像分类和检测任务。在本文中,ResNet50与不同的解码器(如Mobile Deeplabv3+)结合使用,以执行分割任务。
扫描二维码关注公众号,回复: 17408798 查看本文章 -
Vision Transformer(ViT):一种基于Transformer架构的模型,最初用于自然语言处理任务,但后来被证明在图像分类等视觉任务中也非常有效。在本文中,特别是使用了ViT-small架构,并与相应的解码器(如mobileVIT的解码器)结合,以执行分割任务。
4. 下游任务模型
-
对于分类任务,文章使用了预训练编码器输出的特征向量作为输入,并通过一个全连接层进行分类。
-
对于分割任务,文章使用了紧凑且不复杂的解码器,如Mobile Deeplabv3+解码器(与ResNet50结合使用)和mobileVIT的解码器(与ViT-small结合使用)。这些解码器的设计目的是确保分割模型的性能主要由预训练编码器的质量决定。
综上所述,文章的模型架构通过结合领域特定的数据集、多种自监督预训练框架和不同的神经网络架构,旨在提升医学内镜图像分析任务的性能。
模型数据处理流程图
03.研究结果
文章中的研究成果主要围绕使用胃肠道内镜图像进行的深度学习模型预训练,特别是在比较使用自然图像与领域内(in-domain)图像进行预训练的效果方面。以下是关于分类任务、分割任务以及数据效率的详细数据和分析:
一、分类任务
-
模型与方法:研究使用了ResNet50和Vision-Transformer-small两种架构,并通过自监督学习方法(SimCLRv2、MoCov2和DINO)对领域内数据(GastroNet-5M数据集)进行了预训练。
-
对比:将这些模型的性能与在自然图像(如ImageNet-21k)上进行监督预训练的模型进行了比较。
-
结果:
-
使用DINO框架进行自监督领域内预训练的模型,在下游数据集上的平均性能提升显著。
-
对于ResNet50架构,性能提升了1.63%。
-
对于Vision-Transformer-small架构,性能提升了4.62%。
二、分割任务
-
数据集:研究使用了如Kvasir-SEG等专门设计的胃肠道任务下游数据集来评估模型性能。
-
结果:研究表明,使用领域内预训练的模型在分割任务上也表现出了优于在自然图像上预训练模型的性能。
三、数据效率
-
分析:研究还探讨了预训练对下游任务数据效率的影响,即在使用较少标记数据的情况下,模型能够达到的性能水平。
-
结果:
-
领域内预训练的模型在减少下游任务所需标记数据量方面表现出更高的效率。
-
这意味着,为了达到相似的性能水平,使用领域内预训练的模型可以显著减少下游任务所需的标记训练数据量。
总结
综上所述,文章的研究成果表明,使用自监督学习对胃肠道内镜图像进行领域内预训练,可以显著提高深度学习模型在分类和分割任务上的性能,并提升数据效率。这些发现对于改善医学图像分析的通用性、可扩展性和性能具有重要意义。此外,GastroNet-5M预训练权重已公开提供,有助于进一步的研究和应用。
研究结果图1
研究结果图2
04.研究意义
- 揭示在域预训练对医学图像分析的重要性:
- 研究表明,与在自然图像上进行预训练相比,使用在域(即胃肠道内镜图像)预训练可以显著提高深度学习模型在医学图像分析任务上的性能。
- 提升深度学习模型的泛化能力:
- 通过在域预训练,模型能够学习到更适用于医学图像分析的特征表示,从而提升其在不同下游任务上的泛化能力。
- 提高训练效率:
- 在域预训练使得模型在下游任务上达到相似性能时所需的标记训练数据量显著减少,从而提高了训练效率。
- 推动医学图像分析领域的发展:
- 该研究为医学图像分析领域提供了新的思路和方法,有助于推动该领域的技术进步和应用拓展。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。