【合成医疗数据】SYNTHETICALLY ENHANCED: UNVEILING SYNTHETIC DATA’S POTENTIAL IN MEDICAL IMAGING RESEARCH

【Segment Anything Model】做分割的专栏链接,欢迎来学习。
【数据集介绍和预处理】处理医疗数据集的专栏链接,欢迎来学习。
【博主微信】cvxiayixiao
【计算机医疗论文】本专栏为医疗+AI方向论文学习

论文信息

在这里插入图片描述

  • SYNTHETICALLY ENHANCED: UNVEILING SYNTHETIC DATA’S POTENTIAL IN MEDICAL IMAGING RESEARCH

  • Bardia Khosravi,医学博士 MPH MHPE1,2,*
    , Frank Li, 博士3,*
    , 西奥·达帕梅德 (Theo Dapamede),医学博士 Ph.D3
    , Pouria Rouzrokh, MD MPH
    MHPE1,2,库珀·甘布尔1
    , 哈里·特里维迪 (Hari M. Trivedi),MD3
    ,科迪·C·怀尔斯,MD2
    , 安德鲁·B·塞勒格伦, BA4
    , 萨普塔什
    普尔卡亚斯塔,博士5
    , Bradley J. Erickson,医学博士 Ph.D1,†
    和 Judy W. Gichoya,医学博士 MS3,†

  • 1美国明尼苏达州罗彻斯特梅奥诊所放射科
    2美国明尼苏达州罗彻斯特梅奥诊所骨科
    3美国佐治亚州亚特兰大埃默里大学放射科
    4Google Health,谷歌,美国加利福尼亚州帕洛阿尔托
    5印第安纳大学-普渡大学信息与计算学院,美国印第安纳州印第安纳波利斯
    *共同第一作者 †共同高级作者

  • [email protected][email protected]

摘要

Chest X-rays (CXR) are the most common medical imaging study and are used to diagnose multiple
medical conditions. This study examines the impact of synthetic data supplementation, using diffusion
models, on the performance of deep learning (DL) classifiers for CXR analysis. We employed three
datasets: CheXpert, MIMIC-CXR, and Emory Chest X-ray, training conditional denoising diffusion
probabilistic models (DDPMs) to generate synthetic frontal radiographs. Our approach ensured that
synthetic images mirrored the demographic and pathological traits of the original data. Evaluating the
classifiers’ performance on internal and external datasets revealed that synthetic data supplementation
enhances model accuracy, particularly in detecting less prevalent pathologies. Furthermore, models
trained on synthetic data alone approached the performance of those trained on real data. This
suggests that synthetic data can potentially compensate for real data shortages in training robust DL
models. However, despite promising outcomes, the superiority of real data persists.

胸部X光片(CXR)是最常见的医学影像学研究,并用于诊断多种医疗条件。本研究考察了使用扩散模型进行合成数据补充对深度学习(DL)分类器进行CXR分析性能的影响。我们采用了三个数据集:CheXpert、MIMIC-CXR和Emory胸部X光片,训练条件去噪扩散概率模型(DDPMs)生成合成的正面放射图。我们的方法确保合成图像反映了原始数据的人口统计和病理特征。通过在内部和外部数据集上评估分类器的性能,发现合成数据补充提高了模型准确性,特别是在检测较少见病理时。此外,仅在合成数据上训练的模型接近于在真实数据上训练的模型的性能。这表明合成数据有可能补偿训练强大DL模型时真实数据的短缺。然而,尽管结果有希望,真实数据的优越性仍然存在

  • 实验:使用合成数据(通过条件去噪扩散概率模型生成的胸部X光图像)来补充训练数据对分类器性能的影响。
  • 结论:合成数据的使用可以提高模型在检测不常见病理方面的准确性,并且仅用合成数据训练的模型在性能上接近于使用真实数据训练的模型。

Intro

主要包括关于胸部X光片(CXR)和深度学习(DL)在医学成像研究中应用的综合分析

胸部X光片的重要性和挑战

  • 广泛应用: CXR作为一种主要的成像方式,被广泛用于从急性呼吸窘迫到慢性病理(如肺癌)的多种条件的诊断。
  • 快速有效的分诊: 在紧急情况下,尤其重要,是最常进行的诊断成像检查。
  • 专家依赖性: 尽管胸片在诊断和筛查方面具有巨大潜力,但其解读仍需放射科医师的专业知识。
  • 医疗资源瓶颈: 放射科专家的需求增加和有限的可用性在医疗服务提供中,尤其是在服务不足的地区,创造了瓶颈。

人工智能和深度学习在CXR中的应用

  • FDA批准的工具: 用于检测肺气胸、胸腔积液和肋骨骨折等病理。
  • 模型泛化问题: 这些基于DL的模型可能不总是能够泛化,当应用于新的人群时性能可能下降。

提高模型泛化能力的方法

  • 方法探索: 包括增加训练样本的大小和多样性,或联合模型训练。
  • 数据共享挑战: 由于涉及病人隐私的问题,从不同机构合并数据可能很困难。

生成人工智能的研究

  • 内容创建模型: 旨在开发可以基于训练分布创建真实内容(包括文本、图像、视频和音频)的模型。
  • 图像生成模型: 面临质量、多样性和生成速度三重难题。

合成数据的应用和挑战

  • 合成数据的潜力: 可能用于应对模型性能和泛化能力的挑战。
  • 合成数据增强的效果: 通过合成高保真图像作为数据集增强,可以改善整体模型性能。
  • 性能退化的担忧: 迭代使用合成数据可能导致灾难性干扰,即模型遗忘。

研究目标和方法

  • 研究目的: 调查医学成像研究中合成数据增强的效果,并理解促进模型发展的因素。
  • 方法论: 首先在CheXpert数据集的子集上训练条件DDPM,然后创建一个与原始数据集具有相同人口统计和病理特征的合成副本。通过在内部和外部来源上测试使用真实和合成数据训练的多种病理分类器的性能,探究合成数据的潜力和局限性

Method

2.1 数据集描述

数据集收集: 研究收集了来自CheXpert (CXP)、MIMIC-CXR (MIMIC) 和 Emory Chest X-ray (ECXR) 数据集的所有可用正面胸部X光片。
自动标注: 所有三个数据集都使用相同的自动自然语言处理(NLP)算法 CheXpert Labeler 进行标注,将14种医疗条件分类为“存在”、“不存在”、“未提及”和“不确定”四个类别。
数据预处理: 所有图像都经过了预处理,包括调整大小至256 x 256像素,保持长宽比,并通过填充和均衡化图像直方图至256个区间。

为什么要将图像直方图填充和均衡到 256 个 bin 来保留纵横比

将图像直方图填充和均衡到256个bin是一种常见的图像处理技术,这主要基于以下几个原因:

颜色深度: 大多数现代图像具有8位颜色深度,这意味着每个颜色通道(红色、绿色、蓝色)可以表示256种不同的强度级别(从0到255)。因此,使用256个bin来表示直方图可以完全捕获图像中的颜色信息。

数据精度: 填充和均衡直方图到256个bin可以提高图像对比度,使得细节更加清晰。这是因为均衡直方图可以扩展那些较暗或较亮区域的颜色范围,使得这些区域的细节更加明显。

保持纵横比: 纵横比指的是图像的宽度和高度的比例。在处理直方图时,通常关注的是颜色信息,而不是图像的实际尺寸或形状。因此,将直方图填充和均衡到256个bin通常不会影响图像的纵横比。这个过程主要是在不改变原始图像纵横比的情况下增强图像质量。

性能考虑: 使用固定数量的bin(如256个)可以简化计算过程,并允许使用标准化的算法和工具。这使得图像处理更加高效和一致。

总的来说,将直方图填充和均衡到256个bin是一种平衡图像质量、数据精度和处理效率的有效方法。

2.2 图像生成

使用DDPMs生成图像: 研究使用去噪扩散概率模型(DDPMs)来创建合成图像。DDPMs通过结合前向和反向扩散过程来工作。
前向扩散过程: 将小量高斯噪声逐步加入到初始图像中,随着时间步数的增加,初始图像逐渐转变为各向同性的高斯噪声。
反向扩散过程: 旨在估计连续步骤之间的噪声添加。这需要训练一个深度学习模型来完成,通常被称为扩散模型。
条件模型训练: 在CXPT r数据集上训练了一个基于性别、年龄、种族和14个病理标签的生成模型。

这里是重点:
分类器无引导(CFG): 使用分类器无引导技术使生成的图像与条件变量相对应。CFG在训练期间使用学到的空嵌入,随机与实际类嵌入交换。
CFG尺度的影响: 通过制作三个具有相同人口统计和病理标签的CXPT r副本来研究CFG尺度对下游任务的影响,这些副本通过CFG尺度设置为{0, 4, 7.5}进行区分。

高斯噪声有什么特性

高斯噪声,也称为正态噪声,是一种在图像处理和信号处理领域常见的噪声类型,具有以下特性:

统计特性: 高斯噪声遵循高斯分布(正态分布),这意味着噪声值围绕着一个平均值(通常是0)分布,其分布的形状由标准差决定。高斯分布是对称的,呈钟形曲线。
随机性: 高斯噪声是一种随机噪声,其值在每个点上都是随机的。这种随机性使得高斯噪声在图像或信号中呈现为不规则的粒状。
独立性: 高斯噪声在不同的像素或时间点上通常是相互独立的,即一个点上的噪声值不会影响其他点的噪声值。
加性: 高斯噪声通常被认为是加性的,意味着它被简单地添加到信号或图像的真实值上。这种特性使得高斯噪声可以通过各种线性方法进行处理和减少。
频率特性: 高斯噪声在频率域内通常是全频带的,这意味着它影响到图像或信号的所有频率成分。
无色: 高斯噪声被认为是“无色”的,因为它在整个频谱上是均匀分布的,与“有色噪声”(如粉红噪声或布朗噪声)相对。
能量分布: 在高斯噪声中,大部分的能量集中在平均值附近,随着远离平均值,能量迅速减小。

由于这些特性,高斯噪声在模拟真实世界中的噪声以及在计算机视觉和信号处理算法的测试和评估中非常有用。

目标和实验设计

研究目的: 调查合成数据增强在医学成像研究中的影响,并理解对模型发展的贡献因素。
大规模合成数据集的生成: 在确定最合适的CFG尺度后,生成了一个大型合成数据集,其中每个真实图像被复制成10个合成变体,每个变体保持相同的人口统计和病理属性,但使用不同的初始化种子来增加合成数据集的多样性。

2.3 病理分类

模型选择: 使用预先在自然图像数据集上训练过的ConvNeXt-base模型进行所有实验。
输入尺寸: 选用256 x 256像素的输入尺寸,这被证明能够捕获足够的信息来训练一个最先进的监督分类器。
数据增强: 采用MONAI包提供的标准在线增强技术,包括水平和垂直翻转、旋转(±60度)、缩放(±10%)和平移(±12像素)。
学习率和权重衰减: 使用0.00001的学习率和0.0003的权重衰减,结合Lion优化器和二元交叉熵损失。
训练稳定性: 为了进一步稳定训练,采用了指数移动权重平均(EMA)技术,衰减因子为0.9999。
模型选择标准: 基于最低验证损失值来选择最佳模型。

2.3.1 使用合成数据+真实数据

实验目的: 测试来自同一数据集的合成数据是否能提高模型在相同测试集分布上的性能。
实验设计: 使用不同比例(从100%增加到1000%,每次增加100%)的合成数据补充真实训练集。
实验过程: 例如,300%补充意味着在原始图像中添加了三倍数量的合成图像集,并用它们来训练模型。
验证和训练: 随机选择CXPT s的10%用于验证,其余用于模型训练。验证集中不包括合成图像。
基线比较: 使用纯真实数据(0%补充比例)训练的模型作为基线进行比较。
性能测试: 在CXPT s、MIMIC-CXR和ECXR上测试这11个模型的性能。

2.3.2 纯合成数据

实验设计: 评估仅使用合成数据训练的模型的性能,模拟仅向外部机构共享合成数据的情况。
实验目的: 建立合成数据单独使用的效用,并显示合成数据在不牺牲性能的情况下可以在多大程度上替代真实数据。
实验过程: 与之前实验相同的分割方式,但训练集中排除所有真实数据,同时保留真实的验证集。
模型训练: 训练10个模型,每个模型使用不同数量的合成图像(100% - 1000%补充),并在CXPT s、MIMIC-CXR和ECXR上评估其性能。

2.3.3 合成数据+外部数据集

实验目的: 评估在真实和不同分布的合成数据组合上训练的模型的泛化能力。
实验设计: 使用MIMICTr作为训练集(分为90%训练,10%验证),并与基于CXPT r生成的不同比例的合成数据混合,类似于前面的实验。
泛化能力评估: 评估不同比例的合成数据对模型在不同数据集上泛化能力的影响。
性能测试: 根据它们在CXPT s、MIMICTs和ECXR上的性能评估这10个模型。

2.4 评估方法

Fréchet Inception Distance (FID): 用于评估生成图像的质量和多样性。FID通过使用InceptionV3网络(针对自然图像分类任务训练的)来计算,比较了真实图像和合成图像在倒数第二层特征的Fréchet距离。

  • 病理分类器的性能评估: 使用接收者操作特征曲线下面积(AUROC)作为主要度量标准。

  • 置信区间计算: 使用1000次自助法来计算95%置信区间(CI),并通过成对t检验来比较模型。

  • 多重比较的校正: 使用Bonferroni校正来调整犯第一类错误(α)的概率。在所有情况下,将α = 0.05视为显著水平。

  • 标签分布理解: 绘制每个数据集的病理共现矩阵,并使用皮尔逊相关系数来比较它们之间的相似性。

  • 推理速度测量: 基于80GB A100 GPU报告。

  • 统计分析工具: 使用scikit-learn包(v1.3.1)进行所有统计分析。

这一评估方法的描述突出了其全面性和严谨性。通过使用FID来评估合成图像的质量和多样性,结合使用AUROC来评估病理分类器的性能,这一评估方法能够全面地理解合成数据的效用。此外,使用自助法计算置信区间、成对t检验进行模型比较,以及使用Bonferroni校正进行多重比较的校正,都显示了评估过程的统计学严谨性。最后,通过分析标签分布和使用皮尔逊相关系数比较不同数据集之间的相似性,研究进一步深入了解了合成数据的特性和应用潜力。

Result

1. 合成数据与真实数据混合实验

实验设计: 使用不同比例的合成数据(100%至1000%)与真实数据混合,用于训练模型。
性能提升: 结果表明,在某些情况下,添加合成数据可以显著提高模型在真实测试集上的性能。
最佳比例: 特定比例的合成数据(如300%或400%)提供了最佳性能提升。

2. 纯合成数据实验

实验目的: 测试仅使用合成数据训练的模型性能,模拟外部机构只能访问合成数据的情况。
结果: 仅使用合成数据训练的模型在测试集上的表现接近于使用真实数据的模型,表明合成数据有潜力替代真实数据。

3. 混合不同来源数据实验

实验目的: 评估在真实数据和不同来源的合成数据混合情况下模型的泛化能力。
泛化能力: 结果显示,混合使用不同来源的数据可以提高模型在外部测试集上的泛化能力。

4. 图像质量和多样性评估

使用FID评估: 通过Fréchet Inception Distance(FID)评估合成图像的质量和多样性。
质量和多样性: 合成图像在FID评分上表现良好,说明生成的图像具有较高的质量和多样性

5. 病理分类器性能评估

使用AUROC评估: 使用接收者操作特征曲线下面积(AUROC)作为评估病理分类器性能的主要指标。
分类器性能: 合成数据的使用在一定程度上改善了分类器的AUROC表现,尤其是在合成数据与真实数据混合使用时。

总结

这些结果表明,合成数据在医学图像分析中具有显著的应用潜力。它们可以用于提高模型的性能和泛化能力,特别是在数据受限的场景中。通过在不同实验设置中探索合成数据的使用,这项研究提供了对合成数据在医学成像领域中应用的深入见解。

Discussion

1. 合成数据在医学成像中的应用

性能差距问题: 模型在不同来源的数据上测试时存在性能差距。过去,合成数据在医学成像中受限于其低质量,但新技术(如扩散模型)的出现为创造高质量、多样化的医学图像提供了机会。
研究发现: 训练在合成数据上的深度学习模型可以达到与真实数据训练相当的性能水平,表明合成数据集在医学成像中的可行性。

2. 提高模型性能和泛化能力

更少见病理的检测: 使用合成数据补充真实数据集可以显著增强模型性能和泛化能力,特别是在检测较少见的病理方面。

3. CFG(分类器无引导)的作用

CFG尺度影响: 实验发现,CFG尺度为0时生成的合成图像与真实图像最为相似,类似于GANs中的截断因子(Φ)。 CFG尺度提高的影响: 提高CFG尺度会导致模型在学习真实图像中更微妙的病理信号时性能下降。

4. 数据泄露和隐私问题

数据泄露风险: 在合成数据生成中,存在数据泄露的可能性,特别是在医疗领域,患者匿名性至关重要。
解决方案: 尽管有一些实验性解决方案,但合成数据匿名化仍是研究的前沿课题。

5. 实验局限性

标签抽象误差: 使用CheXpert标签器作为图像生成的条件变量,可能存在抽象误差,影响图像质量和分类的真实标签。
CFG尺度单一: 仅使用一个CFG尺度的图像,未探索不同CFG尺度组合的影响。
其他任务未验证: 未对其他任务(如分割和目标检测)进行类似严格的验证。
未改变疾病分布: 未改变疾病流行率,仅展示合成数据的潜力。

文章总结

这项研究表明,合成数据在训练下游分类模型中非常有用,且在大量情况下可以与真实数据训练的分类器匹敌或优于后者。研究还展示了生成合成数据集的最佳超参数,并证明了其在两个大型数据集上的泛化性。重要的是,即使少量的合成数据也能缩小其他数据来源训练的模型的泛化差距。然而,真实数据的质量仍然优于合成数据,收集更多数据应该是增加数据集大小的首选解决方案
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/cvxiayixiao/article/details/134523129