医疗保健和医学领域的大模型综述 - 斯坦福&加州大学

https://arxiv.org/html/2401.06775v2

摘要

大型语言模型 (LLM) 在医疗保健领域的部署引发了热情和担忧。这些模型表现出对自由文本查询提供熟练响应的非凡能力,展示了对专业医学知识的细致理解。这项全面的调查深入探讨了为医疗保健应用设计的现有 LLM 的功能,阐明了它们的发展轨迹,从传统的预训练语言模型 (PLM) 到医疗保健领域 LLM 的现状。首先,我们探讨了 LLM 在放大各种医疗保健应用程序的效率和有效性方面的潜力,特别是关注临床语言理解任务。这些任务涵盖范围很广,从命名实体识别和关系提取到自然语言推理、多模态医疗应用程序、文档分类和问答。此外,我们对医疗保健领域最新最先进的 LLM 进行了广泛的比较,同时还评估了各种开源 LLM 的利用率,并强调了它们在医疗保健应用中的重要性。此外,我们提出了用于评估生物医学领域 LLM 的基本性能指标,阐明了它们的有效性和局限性。最后,我们总结了医疗保健领域大型语言模型面临的突出挑战和限制,并对其潜在优点和缺点提供了整体视角。这篇综述全面探讨了 LLM 在医疗保健领域的现状,讨论了它们在改变医疗应用方面的作用以及值得进一步研究和开发的领域。

关键词 大型语言模型 ⋅ 医疗保健 ⋅ 医学 ⋅ 自然语言生成 ⋅ 自然语言处理 ⋅ 机器学习应用 ⋅ ChatGPT ⋅ 生成式人工智能 ⋅ 医疗人工智能

1介绍

深度学习提供了一种了解人类行为、情感和人类医疗保健的智能方法。临床语言理解的最新发展为医疗保健领域带来了范式转变的潜力。这些进步有望开创一个新时代,其特点是部署智能系统,旨在支持决策、加快诊断过程和提高患者护理质量。从本质上讲,这些系统能够成为医疗保健专业人员在处理不断扩大的医学知识体系、破译错综复杂的患者记录和制定高度定制的治疗计划时不可或缺的帮助。这种变革性的潜力在医疗保健界点燃了相当大的热情。

语言模型 (LLM) 的巨大价值在于它们能够处理和综合大量的医学文献、患者记录和不断扩大的临床研究。医疗保健数据本质上是复杂的、异构的,而且往往规模庞大。LLM 充当强大的力量倍增器,帮助医疗保健专业人员与信息过载作斗争。通过自动化医学文本的分析、提取关键见解并应用这些知识,LLM 有望推动开创性的研究并加强患者护理,显着改善并促进医疗保健和医疗领域的进步。

值得注意的是,这种热情的激增部分归因于最先进的大型语言模型 (LLM) 的出色表现,例如 OpenAI 的 GPT-3.5、GPT-4 和 Google 的 Bard。这些模型在广泛的自然语言理解任务中表现出非凡的熟练程度,突出了它们在医疗保健中的关键作用。他们理解和生成类似人类文本的能力有望在医疗保健实践中发挥变革性作用,其中有效的沟通和信息处理至关重要。

自然语言处理 (NLP) 的发展轨迹以一系列值得注意的里程碑为特征,每一次发展都建立在其前辈的优势和局限性之上。在起步阶段,递归神经网络 (RNN) 为 NLP 任务中的上下文信息保留奠定了基础。然而,它们在捕获长期依赖关系方面的固有局限性变得明显,因此需要转变 NLP 范式。

NLP 发展的关键时刻是 Transformers 的引入,这是一种开创性的架构,解决了有效捕获远程单词关系的挑战。这项创新是一个转折点,实现了更高级的 NLP 模型。这些进步为 Llama 2 和 GPT-4 等复杂语言模型的出现提供了动力,这些模型以广泛的训练数据为基础,将 NLP 提升到接近类人语言的理解和文本生成水平。

在医疗保健领域,引入了 BERT 等模型的定制改编,包括 BioBERT 和 ClinicalBERT ,以解决临床语言的复杂性。这些模型的引入解决了医学文本带来的独特挑战,医学文本通常具有复杂的医学术语、词汇歧义和可变用法的特点。然而,将 LLM 引入高度敏感和受监管的医疗保健领域需要仔细考虑道德、隐私和安全。必须严格保护患者数据,同时确保 LLM 不会延续现有的偏见或导致意外伤害。尽管如此,LLM 在加强医疗保健实践、改善患者结果和引领创新研究途径方面的潜力继续刺激这一快速发展的领域的持续调查和发展。

当我们在这个充满活力的领域中航行时,我们的综述旨在作为一个全面的指南,为寻求优化其研究工作和临床实践的医学研究人员和医疗保健专业人员提供见解。我们寻求提供宝贵的资源,以便根据特定的临床要求明智地选择法学硕士。我们的检查包括对医疗保健领域内 LLM 的详细探索,阐明其底层技术、多样化的医疗保健应用,并促进对公平性、减少偏见、隐私、透明度和道德考虑等关键主题的讨论。通过强调这些关键方面,本综述旨在说明以不仅有效而且合乎道德、公平和公正的方式将 LLM 整合到医疗保健中的重要性,最终为患者和医疗保健提供者带来好处。

本综述论文分为不同的部分,系统地解决了大型语言模型 (LLM) 在医疗保健中的集成、影响和局限性:

  • 第2节提供了对 LLM 的基本理解,涵盖了它们的关键架构,例如 Transformer、基础模型和多模态功能。

  • 在第3节中,重点转移到 LLM 在医疗保健中的应用,讨论了它们的用例和在临床环境中评估其性能的指标。

  • 第4节部分批判性地研究了与医疗保健领域的 LLM 相关的挑战,包括与可解释性、安全性、偏见和道德考虑相关的问题。

  • 本文最后总结了研究结果,强调了 LLM 的变革潜力,同时承认需要谨慎实施以驾驭其局限性和道德影响。

2大型语言模型回顾

大型语言模型已成为自然语言处理 (NLP) 领域的一项显着进步,并在最近引起了相当大的兴趣。这些模型表现出显着的属性,例如它们大量的参数、对大量文本数据的预训练以及针对特定下游目标的微调。通过利用这些关键特征,大型语言模型在各种 NLP 任务中表现出卓越的性能。本节全面讨论了大型语言模型的概念、体系结构和开创性示例。此外,我们还探讨了预训练方法和迁移学习在促进这些模型在不同任务中实现卓越表现的重要性。

基于 Transformer 架构构建的大型语言模型经过专门设计,与早期迭代相比,可以提高自然语言数据处理的效率。Transformer 架构,如 提出的那样,利用自我注意机制来捕获句子中单词之间的上下文关系。这种机制有助于模型在预测过程中为不同的单词分配不同程度的重要性,使其特别适合处理语言中的长期依赖关系。

大型语言模型的关键方面包括它们的巨大幅度 、对大量文本语料库的预训练 ,以及随后针对特定任务量身定制的微调 。这些模型拥有大量参数,从数亿到数十亿不等,这使它们能够有效地捕获语言中复杂的模式和细微差别。预训练通常在没有特定任务注释的不同数据集上进行,使模型能够从广泛的语言实例中获取知识并发展对语言的全面掌握。在预训练之后,模型使用适合手头任务的较小数据集进行进一步的微调过程。这使模型能够成功适应特定自然语言处理 (NLP) 任务并执行良好性能。

自然语言处理 (NLP) 的发展以一系列重大进步为特征。一开始,递归神经网络 (RNN) 有助于在自然语言处理 (NLP) 任务中保留上下文。然而,研究发现递归神经网络 (RNN) 在有效捕获长距离依赖关系方面存在几个缺点。

Transformers 的出现通过有效解决捕获遥远单词关系的挑战,产生了变革性的影响。随后,像 Llama 2 、 GPT-4 这样的大型语言模型出现了,它们由广泛的训练数据提供支持,显着提高了 NLP 在理解和生成类人文本方面的能力。这种进步意味着一个持续的创新循环,每个阶段都建立在其前身的优势和局限性之上。在后续部分中,我们描述了自然语言处理 (NLP) 领域连续体中的重要发展阶段。

在医疗保健领域,引入了 BERT 的专业改编版本,即 BioBERT 和 ClinicalBERT ,以解决理解临床语言的各种挑战。GPT-3(Generative Pre-trained Transformer 3)由 OpenAI 开发,是迄今为止最大的语言模型之一,拥有 1750 亿个参数。最近,OpenAI 推出了 GPT-3.5 及其继任者 GPT-4(OpenAI,2023 年)以及 Google AI 的 Bard,这两者都已成为尖端的大型语言模型 (LLM),在包括医疗保健和医学在内的各种应用程序中表现出卓越的能力。

2.1Transformers

在“Attention is All You Need”中引入的 Transformers 架构彻底改变了自然语言处理。该模型的主要新颖之处在于它利用了自我注意机制,该机制允许通过考虑输入标记与给定任务的相关性来评估输入标记的重要性。在这种设置中,多个注意力头并行工作,允许模型专注于输入的各个方面,而位置编码则传达相对标记位置。给定长度为 N 的输入序列 X ,自我注意机制计算所有标记对 ( i , j ) 之间的注意力分数 A ( i , j )。三个学习的矩阵 Query ( Q ) 、 Key ( K ) 和 Value ( V ) 是通过 X 的线性投影获得的。

其中,d k 表示键向量的维度。softmax 函数对分数进行标准化。然后,每个标记的输出被计算为所有标记的值向量的加权和j。Multi-Head Attention 通过并行计算多个注意力集,连接和线性转换以形成最终输出来扩展这种机制。

Transformer 由堆叠的编码器-解码器模块组成,可适应各种任务。训练是通过对大量文本语料库进行无监督或半监督学习进行的,使用基于梯度的优化。Transformer 已成为自然语言处理的基础,因为它们能够处理顺序数据、捕获远程依赖关系,并以最少的微调适应各种任务。它们不仅限于文本,还可在医疗保健、推荐系统、图像生成和其他领域中找到应用。

图 1:医学语言模型的量表:大小比较

2.2 大型基础模型

以 GPT-3(Brown 等人,2020 年)和稳定扩散(Rombach 等人,2022 年)为代表的大型基础模型的出现,开创了机器学习和生成式人工智能领域的变革时代。研究人员引入了“基础模型”一词来描述在广泛、多样化和未标记的数据集上接受训练的机器学习模型,使其能够熟练地处理广泛的一般任务。这些任务包括与语言理解、文本和图像生成以及自然语言对话相关的任务。

大型基础模型是在大量未标记数据上训练的大规模 AI 架构,主要采用自我监督学习方法。这种训练方法产生了具有出色多功能性的模型,使它们能够在从图像分类和自然语言处理到问答的各种任务中表现出色,始终如一地提供出色的准确性。

这些模型在需要生成能力和人工交互的任务中尤其出色,包括根据最少的提示创建营销内容或复杂的艺术品。然而,调整这些模型并将其集成到企业应用程序中可能会带来特定的挑战。

2.3 多模态语言模型

多模态大型语言模型 (MLLM) 代表了人工智能 (AI) 和自然语言处理 (NLP) 领域的突破性进步。与仅关注文本数据的传统语言模型相比,MLLM 具有跨多种模态(包括文本、图像、音频和视频)处理和生成内容的独特能力。这种新颖的方法显著扩展了 AI 应用程序的功能,使机器不仅可以理解和生成文本,还可以解释和整合来自各种感官输入的信息。多种模式的集成使 MLLM 能够弥合人类通信和机器理解之间的差距,使其成为具有改变不同领域潜力的多功能工具。本理论介绍强调了 MLLM 的变革潜力及其在突破人工智能界限方面的核心作用,影响了图像和语音识别、内容生成和交互式 AI 应用等领域。

图 2:标准多模态大型语言模型 (MLLM) 架构的示意图表示

多模态大型语言模型 (MLLM) 旨在处理和集成来自多个数据源(例如文本、图像和音频)的信息,以执行各种任务。这些模型利用深度学习技术来理解和生成不同模式的内容,从而增强它们在实际场景中的适用性。例如,Visual ChatGPT 将文本和视觉输入相结合来解决复杂的查询,而像 BLIP-2 这样的系统利用 Qformer 将视觉特征与文本数据集成,以增强图像与文本交互。MLLM 在视觉问答 (VQA) 等任务中特别有效,它们可以根据视觉内容解释和响应查询。与单模态模型相比,模态的集成使这些模型能够提供更全面的响应并处理更广泛的交互。迭代训练过程通常涉及冻结某些组件同时微调其他组件的阶段,使这些模型能够在适应新模式和任务的同时保持强大的语言能力。

图2显示了一个典型的 MLLM 架构,包括一个编码器 E M 、一个连接器 C 和一个大型语言模型 (LLM)。此外,生成器 G 可以与 LLM 集成,以生成文本以外的输出,例如其他模态。编码器将图像、音频或视频等输入处理为特征,连接器对其进行优化以增强 LLM 的理解能力。这些系统中的连接器有三种主要类型:基于投影、基于查询和基于融合。前两种类型利用令牌级融合,将特征转换为与文本令牌组合的令牌,而基于融合的连接器直接在 LLM 中执行特征级融合。

最近,将专家混合 (MoE) 架构集成到多模态大型语言模型 (MLLM) 中,显著提高了它们的能力。这种方法采用多个专门的子模型,每个子模型都针对特定类型的数据或任务(如图像识别或语言处理)进行了微调。通过根据输入和任务有选择地激活最相关的专家,MoE 使 MLLM 能够动态适应多模式数据集成的需求。这提高了模型在处理复杂多模态交互时的精度,并优化了计算资源。MoVA 和 MoE-LLaVA 等模型有效地利用了 MoE 策略,提高了性能,同时在训练和推理阶段都保持了可控的计算成本。因此,MLLM 中 MoE 的适应性和效率对它们在跨各种任务和数据类型的实际应用中的可扩展性和有效性有很大贡献。

3医疗保健和医学领域的大型语言模型

在不断变化的医疗保健和医学世界中,语言模型已成为一股革命性的力量,彻底改变了医学研究人员和从业者处理数据、患者和大量医学知识的方式。语言模型在医学领域的使用已经发生了重大的蜕变,从早期简单的基于规则的系统、特征提取和关键字匹配到变形金刚等尖端技术和 GPT-v4 等大型语言模型 (LLM) 的到来。这些语言模型克服了传统方法的限制,实现了更复杂的自然语言生成和解释。

几个开创性的大型语言模型对 NLP 的前景产生了重大影响。Transformer 架构的出现标志着自然语言处理领域的一个重要里程碑,导致了 BERT 和 RoBERTa 等广泛的预训练语言模型的出现。

Devlin 等人(2018 年)引入的 BERT(来自 Transformers 的双向编码器表示)通过在大型语料库上预训练深度双向模型并在各种任务上优于以前的模型,彻底改变了 NLP。Liu et al. (2019) 的 RoBERTa(稳健优化的 BERT 预训练方法)表明,进一步的预训练改进和优化可以显著提高 BERT 的性能。

在本节中,我们将首先在 Section 3.1 中讨论当前专门用于医疗应用的大型语言模型。然后,在第 3.2 节中,我们将讨论主要为患者、专家和医疗材料设计的各种 LLM 的用例。

3.1 用于医疗和保健应用的大型语言模型

图1提供了2019年至2023年生物医学语言模型(LM)发展的全面概述,强调了模型复杂性和参数数量的对数增长。
图1提供了2019年至2023年生物医学语言模型(LM)发展的全面概述,强调了模型复杂性和参数数量的对数增长。它描述了诸如BioBERT和GPT-2等主要模型的各种领域特定适应的演变轨迹,以及更先进系统诸如MedPaLM的诞生。
它描述了诸如BioBERT和GPT-2等主要模型的各种领域特定适应的演变轨迹,以及更先进系统诸如MedPaLM的诞生。图示模型的大小与其参数体积成正比,展示了朝着更大、更强大模型的一致趋势。这 culmin于到2023年大型语言模型(LLMs)的出现,标志着向计算要求和潜在性能大幅提升的体系结构的关键转变,适用于生物医学文本分析和生成任务。

Table 1:Summary of Large Language Models in the Healthcare Space
表 1:医疗保健领域的大型语言模型总结

另一方面,该表提供了医疗保健领域内领先的大型语言模型的深刻概述。最近,“BioMistral”作为医学领域的开源预训练大型语言模型的集合发布。2023 年,“Med-PaLM 2”和“Radiology-Llama2”成为关键参与者,分别解决医学问答和放射学任务。“DeID-GPT”模型将其功能扩展到去标识化,而“Med-HALT”则专门用于幻觉测试。同时,“ChatCAD” 在计算机辅助诊断领域提供了宝贵的支持。“BioGPT”通过处理分类、关系提取和问答来展示多功能性。“GatorTron”在语义文本相似性和医学问答方面表现出色,而“BioMedLM”则将其重点缩小到生物医学问答。“BioBART”展示了对话、总结、实体链接和 NER 方面的实力。“ClinicalT5”处理分类和 NER,而“KeBioLM”专门从事生物医学预训练、NER 和关系提取。在语言模型或转换器出现之前,卷积和递归神经网络代表了该领域的技术水平。这些模型共同代表了医疗保健 NLP 的显著进步,为进一步探索和实际应用提供了可访问的源代码或模型。

3.2 大型语言模型在医疗保健中的使用案例

近年来,大型语言模型的出现催化了医疗保健领域的变革性转变,为创新和进步提供了前所未有的机会。
近年来,大型语言模型的出现催化了医疗保健领域的变革性转变,为创新和进步提供了前所未有的机会。理解和生成类似人类文本的能力在广泛的医疗应用中展现出了显著潜力。
理解和生成类似人类文本的能力在广泛的医疗应用中展现出了显著潜力。大型语言模型在医疗保健行业的应用正在快速增长。这些模型正被用于临床决策支持、医疗记录分析、患者参与、健康信息传播等。它们的实施有望提高诊断准确性,简化行政程序,并最终提高医疗服务的效率、个性化和全面性。本节将深入探讨大型语言模型在医疗保健中的多面应用,揭示这些应用对医学实践的轨迹及患者最终体验的深远影响。

图 3:大型语言模型在医疗保健中的应用

  • 医学诊断:
    医学诊断:某些临床程序可能依赖于数据分析、临床研究和建议。
    某些临床程序可能依赖于数据分析、临床研究和建议。大型语言模型可能通过对患者症状、病历和相关数据进行分析,为医学诊断贡献潜力,从而有助于以一定程度的准确性识别潜在疾病或病症。大型语言模型在多个方面具有贡献潜力,例如临床决策辅助、临床试验招募、临床数据管理、研究支持、患者教育及其他相关领域。为支持这一观点,作者提出了一种方法,利用变换器模型,即BERT、RoBERTa和DistilBERT,旨在基于对化学感觉急性变化的文字描述预测COVID-19的诊断。类似地,文献中开展了一系列替代性研究,提出使用大型语言模型诊断阿尔茨海默病和痴呆症的策略。此外,已出现一系列文献,倡导集成大型语言模型聊天机器人以满足类似目标。

  • 患者护理:
    患者护理:大型语言模型已成为变革性工具,能够显著提升患者护理领域。
    大型语言模型已成为变革性工具,能够显著提升患者护理领域。通过提供个性化建议、定制治疗策略以及对患者在整个医疗过程中进展的持续监控,大型语言模型承诺革新医疗服务的交付。通过利用大型语言模型的能力,医疗提供者可以确保更加个性化和以患者为中心的护理方法。这项技术能够提供精确且有根据的医疗指导,使干预措施与患者的独特需求和情况相一致。有效使用大型语言模型的临床实践不仅提升了患者的结果,也使医护专业人员能够做出数据驱动的决策,从而改善患者护理。随着大型语言模型的不断进步,通过个性化建议和持续监控增强患者护理的潜力在现代医学中仍然是一个充满希望的趋势。总而言之,大型语言模型代表了一次重大飞跃,具有重塑患者护理领域的能力,通过促进精准性、适应性和以患者为中心的理念。

  • 临床决策支持:
    临床决策支持:语言模型(LMs)已发展成为医疗专业人员的重要决策支持工具。
    语言模型(LMs)已发展成为医疗专业人员的重要决策支持工具。通过分析大量医学数据,LMs可以提供基于证据的推荐,提高诊断准确性、治疗选择和整体患者护理。这种人工智能与医疗专业知识的融合对改善医疗决策具有巨大的潜力。现有研究揭示了语言模型在临床决策支持中的应用前景,特别是在放射学[70]、肿瘤学[71]和皮肤病学[72]领域。

  • 医学文献分析:
    医学文献分析:大型语言模型(LLMs)在全面审查和简明总结大量医学文献方面表现出卓越的效率。
    大型语言模型(LLMs)在全面审查和简明总结大量医学文献方面表现出卓越的效率。这一能力帮助研究人员和临床医生跟上前沿发展和基于证据的方法,最终促进信息化和优化的医疗实践。在医疗这一快速发展的领域,保持对最新进展的及时了解至关重要,而LLMs在确保医疗处于创新和基于证据的护理交付的最前沿方面可以发挥关键作用[73, 74]。

  • 药物发现:
    药物发现:大型语言模型在促进药物发现方面具有重要影响,因为它们能够仔细审查复杂的分子结构,识别具有治疗潜力的有前景化合物,并预测这些候选药物的有效性和安全性[75, 76]。
    大型语言模型在促进药物发现方面具有重要影响,因为它们能够仔细审查复杂的分子结构,识别具有治疗潜力的有前景化合物,并预测这些候选药物的有效性和安全性[75, 76]。化学语言模型在从头药物设计领域取得了显著成就[77]。在此相关研究中,作者探讨了利用预训练的生物化学语言模型初始化靶向分子生成模型,比较一阶段和两阶段热启动策略,以及使用束搜索和采样评估化合物生成,最终表明热启动模型的表现优于基线模型,并且一阶段策略在对接评估和基准指标方面表现出更好的泛化能力,而束搜索在评估化合物质量方面比采样更有效[78]。

  • 虚拟医疗助手和健康聊天机器人:
    虚拟医疗助手和健康聊天机器人:大型语言模型也可以作为健康聊天机器人的基础智能,通过提供持续和个性化的健康相关支持,彻底改变医疗保健领域。
    大型语言模型也可以作为健康聊天机器人的基础智能,通过提供持续和个性化的健康相关支持,彻底改变医疗保健领域。这些聊天机器人可以提供医学建议,监测健康状况,甚至将服务扩展到心理健康支持,这是医疗保健中一个特别相关的方面,因为人们对心理健康的关注日益增强

  • 放射学和成像:
    放射学和成像:多模态视觉语言模型通过整合视觉和文本数据,在增强医学影像分析方面具有重要潜力。
    多模态视觉语言模型通过整合视觉和文本数据,在增强医学影像分析方面具有重要潜力。放射科医生可以从这些模型中受益,因为它们有助于早期识别医学影像中的异常,并有助于生成更精确和全面的诊断解释,最终提升医学影像领域诊断过程的准确性和效率

  • **从成像数据中自动合成医疗报告:**从图像中自动生成医疗报告对于简化病理学家和放射科医生面临的耗时且容易出错的任务至关重要。这个位于医疗保健和人工智能 (AI) 交叉领域的新兴领域旨在减轻经验丰富的医生的负担,并提高经验不足的医生的准确性。AI 与医学成像的集成有助于自动起草报告,包括异常发现、相关的正常观察和患者病史。早期的工作采用了数据驱动的神经网络,将卷积和递归模型相结合用于单句报告,但在捕捉真实医疗场景的复杂性方面出现了限制。最近的进展利用了 ChatCAD 等大型语言模型 (LLM),支持更复杂的应用程序。ChatCAD 增强了医学影像计算机辅助诊断网络,在报告生成方面取得了显著改进。ChatCAD+ 进一步解决了写作风格不匹配的问题,确保不同医学领域的通用性和可靠性,并结合了模板检索系统以与人类专业知识保持一致。在 中,作者使用预先训练的语言模型 (PLM) 和上下文学习 (ICL) 从医生患者对话中生成临床记录。这些集成系统标志着通过战略性利用 LLM 在自动化医疗报告生成方面取得了关键进步。

3.3 解释医疗保健 LLM 的可解释 AI 方法

大型语言模型 (LLM) 显著推动了医疗保健领域的发展,增强了医疗诊断和患者监测等任务。然而,这些模型的复杂性需要 可靠的决策 的可解释性 。本节讨论“可解释和可解释的人工智能” (XIAI),并按其功能和范围研究最近的 XIAI 方法。尽管存在挑战,例如难以量化可解释性和缺乏标准化的评估指标,但整合 XIAI 以增加医疗保健领域 LLM 的可解释性仍然存在机会。值得注意的 XIAI 方法包括 SHAP ,它量化特征贡献,LIME ,通过输入扰动生成可解释模型,用于可视化高维数据的 t-SNE ,突出关键特征的注意力机制,以及构建上下文关系的知识图谱,所有这些都为模型决策过程提供了重要的见解。

现有研究深入研究了医疗保健领域 LLM 的可解释性。例如,Yang 等人(2023 年)使用情绪线索和专家编写的示例研究了不同的提示策略,以使用 LLM 进行心理健康分析。这项研究表明,像 ChatGPT 这样的模型可以生成接近人类水平的解释,从而提高可解释性和性能。此外,ArgMedAgents (Hong et al., 2024) 是一个多代理框架,旨在通过交互进行可解释的临床决策推理,利用临床讨论的论证方案和符号求解器来提供清晰的决策解释。此外,Gao 等人(2023 年)提议通过使用 DR 集成来自统一医学语言系统 (UMLS) 的医学知识图谱 (KG) 来提高 LLM 的可解释性以进行自动诊断。KNOWS 模型来解释复杂的医学概念。他们对真实世界医院数据的实验证明了透明的诊断途径。同样,TraP-VQA 是一种用于病理学视觉问答 (PathVQA) 的新型视觉语言转换器,它采用 Grad-CAM 和 SHAP 方法提供视觉和文本解释,确保透明度并培养用户信任。

我们在表中编制了一份列表,详细说明了 XIAI 属性,总结了最近专注于医疗保健领域 LLM 可解释性方法的研究工作。该表包括对各种模型的评估,突出了它们对提高医疗应用中的可解释性和可靠性的独特贡献。每个条目都概述了任务、方法、XAI 属性和评估指标,清楚地概述了 XIAI 技术在改进医疗保健决策过程方面的进步和有效性。

表 2:医疗保健领域 LLM 的最新 XIAI 方法总结

3.4 医疗保健领域大型语言模型的未来轨迹

随着大型语言模型 (LLM) 不断融入医疗保健领域,未来的发展有望彻底改变患者护理和医学研究。一个特别有前途的途径是增强 LLM 的能力,不仅可以解释和生成文本数据,还可以解释和生成生物分子数据。这一进步可以显着改善基因组学和个性化医疗的应用,使这些模型能够根据基因图谱预测个体对治疗的反应,从而提高医疗干预的精度。此外,实时整合自适应学习功能可以将 LLM 转化为外科手术或紧急情况下的动态辅助工具,它们可以即时分析来自医疗设备的数据以提供关键决策支持。

医疗保健领域 LLM 的另一个创新轨迹是联邦学习系统的发展。此类系统可以促进医学知识在机构之间安全、保护隐私的传播,提高模型在不同人口群体中的稳健性和适用性,而无需直接共享数据。这种方法不仅会增强患者数据的隐私和安全性,还会实现集体智慧,从而带来更通用的医疗保健解决方案。

大型语言模型 (LLM) 在医疗保健领域的潜力延伸到可解释的医疗 AI 和包含传感器数据的多模态模型的利用领域。通过将 LLM 与可穿戴技术集成,这些高级模型可以在非临床环境中用作持续的健康监测器。

为了进一步推进可解释的医学 AI,LLM 有助于破译医疗条件和治疗结果的复杂性。通过处理和解释多模态数据(包括传感器读数),这些模型有助于在细粒度层面上更深入地了解患者的健康状况。这可能有助于开发精确的靶向疗法,改善患者的预后并提高医疗决策的透明度。

大型语言模型 (LLM) 有望通过提高诊断准确性、个性化治疗计划和优化运营效率来彻底改变医疗保健领域。通过将 LLM 集成到电子健康记录系统中,医疗保健提供者可以通过分析临床记录和患者病史的自然语言处理技术更准确地诊断病情。此外,LLM 通过分析包括遗传信息、临床结果和患者偏好的大量数据集来帮助生成个性化的治疗建议。此外,这些模型通过自动化文档、编码和计费流程来简化管理任务,从而降低运营成本并使医务人员能够更加专注于患者护理。随着生成式 AI 的进步,它对医疗保健行业的变革性影响变得越来越重要。这项技术有望彻底改变临床试验、个性化医疗和药物发现等领域。此外,其应用还扩展到增强自然语言处理和理解、改进医学成像以及支持患者护理中的虚拟助手。生成式 AI 在疾病检测和筛查中也发挥着至关重要的作用,有助于更准确的诊断。此外,它正在被集成到医疗保健环境中的医疗对话任务、语音生成、视频生成以及图像合成和操作中。这些创新不仅提高了医疗服务的效率,还为患者互动和治疗计划的新方法铺平了道路。随着这些应用程序的不断成熟,LLM 将成为将医疗保健服务转变为更高效、更准确和更个性化的系统不可或缺的一部分。

在这里插入图片描述

图 4:医疗保健 LLM 的比较性能

3.5 性能评估和基准测试

医学和医疗保健行业在很大程度上认识到人工智能 (AI) 在推动医疗保健提供方面取得重大进展的潜力。然而,实证评估表明,许多人工智能 (AI) 系统并未成功实现其预期的翻译目标,主要是因为内在缺陷只有在实施后才会显现出来。为了优化语言模型 (LLM) 在医疗保健环境中的使用,必须开发能够彻底评估其安全性和质量的评估框架。需要注意的是,某些高效的模型,例如 ChatGPT 和 PaLM 2 ,现在尚未公开可用。可访问性的缺失导致了与透明度有关的显着问题,这是医学领域的一个关键因素,阻碍了彻底检查模型结构和结果的能力。因此,这阻碍了识别和解决偏见和幻觉的努力。为了了解利用可公开访问的预训练语言模型来应对医疗保健和医疗领域的挑战的具体性能特征和后果,有必要进行深入的研究。使用医学数据进行预训练的语言模型也遇到了类似的困难。因此,仔细选择和实施合适的性能指标来评估语言模型具有重要意义。

在表中,我们提出了一个全面的性能指标目录,包括但不限于 F1 分数、BLEU、GLUE 和 ROGUE,它们构成了用于严格评估在医疗保健和医疗领域内运行的大型语言模型的标准评估标准。本指标纲要可作为有价值的参考,概括了用于衡量这些模型在各种医疗保健应用中的有效性、熟练程度和适用性的定量和定性措施。

表 3:LLM 执行 nce 基准测试

在这里插入图片描述

3.6 LLM 在医疗保健领域的定量性能比较

语言模型的最新进展已针对不同的数据集进行了基准测试,以评估它们在各个领域的功能。一个这样的综合基准是 MMLU (Massive Multitask Language Understanding) ,旨在评估语言模型的理解和解决问题的能力。MMLU 包括 57 个任务,涵盖小学数学、美国历史、计算机科学和法律等主题,要求模型展示广泛的知识基础和解决问题的能力。该基准测试提供了一种标准化方法来测试和比较各种语言模型,包括 OpenAI GPT-4o、Mistral 7b、Google Gemini 和 Anthropic Claude 3 等。

HumanEval 基准测试用于衡量 LLM 从文档字符串生成的代码的功能正确性。此基准测试根据模型生成通过提供的单元测试的代码的能力来评估模型,并使用 pass@k 指标。如果模型生成的任何 ‘k’ 解通过了所有单元测试,则认为该模型成功解决了问题。表 提供了各种 LLM 在 MMLU 和 HumanEval(编码)数据集上的性能的简明摘要。

在医疗保健领域,已经在 MedQA、MedNLI 、 Tox21 和 PubMedQA 等特定数据集上开发和评估了各种 LLM 。GPT-4 (2024) 模型在 MedQA 数据集中脱颖而出,准确率高达 93.06%,明显优于其他模型,如 Med-PaLM 2 (CoT + SC) (2023),达到 83.7%,Meerkat-7B (Ensemble) (2024),达到 74.3%。在 MedNLI 数据集中,BioELECTRA-Base (2021) 的准确率最高,为 86.34%,紧随其后的是 CharacterBERT (base, medical) (2020),为 84.95%。Tox21 数据集突出显示了 elEmBERT-V1 (2023) 的出色 AUC 为 0.961,使其成为预测化学性质和毒性最有效的。对于 PubMedQA 数据集,Meditron-70B (CoT + SC) (2023) 和 BioGPT-Large (1.5B) (2023) 表现出强劲的性能,准确率分别为 81.6% 和 81.0%。这些发现强调了不同医疗保健任务的性能差异,强调了根据特定应用要求仔细选择模型的必要性。图显示了各种医疗保健 LLM 的比较性能分析,突出了它们在不同数据集(包括 MedQA、MedNLI、Tox21 和 PubMedQA)中的准确性和 AUC 指标。

表 4:医疗保健领域语言模型的评估方法

4限制和开放挑战

大型语言模型 (LLM) 在医疗保健领域的集成带来了复杂的挑战,包括模型决策中需要可解释性、强大的安全和隐私措施来保护敏感的患者数据、解决偏见并确保医疗 AI 应用的公平性、缓解模型生成错误信息的幻觉问题,以及为在医疗保健中负责任地使用 LLM 建立明确的法律框架, 所有这些都需要仔细审查和解决,以利用这些模型的全部潜力来改善医疗保健结果,同时维护道德和法律标准。

4.1 模型的可解释性和透明度

大型语言模型在应用于医疗保健时面临显著挑战。由于他们的建议不透明,他们的建议通常缺乏透明度,这可能会阻碍在医疗决策中优先考虑可解释性的医疗保健专业人员的接受。此外,训练数据中存在偏差可能会影响这些模型的准确性,从而导致不正确的诊断或治疗建议。因此,医疗专业人员在将大型语言模型提供的建议整合到他们的临床决策过程之前,必须谨慎行事并彻底审查和验证这些建议。在医疗保健领域,用于医学成像分析和临床风险预测的 AI 模型的可解释性和可解释性的重要性怎么强调都不为过。透明度和可解释性不足可能会破坏可信度并阻碍临床建议的验证。因此,有效的治理强调了对透明度和可解释框架的持续追求,旨在增强医疗保健领域的决策过程。大型语言模型 (LLM) 通常充当“黑匣子”,这使得辨别导致特定结论或建议的底层过程变得具有挑战性。在医疗保健环境中,决策的影响是深远的,从业者必须掌握 AI 生成输出背后的逻辑。坚持不懈地努力创建更具可解释性和透明度的模型仍然是医疗保健领域内的一项持久挑战。

图 5:医疗保健领域大型语言模型的挑战

4.2 安全和隐私注意事项

大型语言模型 (LLM) 用于医学研究,因此需要仔细考虑数据隐私和安全问题。研究人员被赋予了管理极其私密的患者数据的职责,同时严格遵守当前的隐私法。在这种情况下使用 LLM 引起了对数据处理许多方面的担忧,包括数据保护、重新识别的可能性以及患者数据的道德应用。一个值得注意的问题是无意中将个人身份信息 (PII) 包含在预训练数据集中,这可能会损害患者的机密性。

此外,LLM 可以通过从看似无害的数据中推断出敏感的个人属性来做出侵犯隐私的推断,从而可能侵犯个人隐私。实施数据匿名化、安全数据存储程序和坚定不移地遵守道德标准等强有力的措施对于解决这些问题至关重要。这些步骤共同构成了重要的保障措施,旨在保护研究参与者的信任、维护研究过程的完整性和保护患者隐私。平衡 LLM 在医学研究中的重大贡献与保护私人患者信息的关键要求的必要性强调了这些因素的重要性。LLM 能够在大量健康数据中发现可能揭示的模式,即使是匿名的,也会带来严重的隐私风险。这需要严格的法规和技术保护。更有效地匿名化数据至关重要,旨在发现和防止重新识别个人的算法也至关重要。持续监控 LLM 产生的产品对于确保隐私不会意外泄露至关重要。实施这些措施有助于保证负责任地使用敏感数据,允许在医疗保健中合乎道德地使用 LLM,同时仍然尊重患者的隐私。为了确保在医疗保健领域合乎道德地使用 LLM,强大的治理框架必须超越基本隐私法。积极主动的政策应预测挑战,专家需要验证 LLM 是否符合道德准则。让患者和医疗保健提供者参与开发过程可以提高透明度,并保持对健康数据在这些系统中如何使用的信任。

4.3 偏见与公平

研究解决和减少语言模型中偏见的方法,同时理解其道德影响,是一个关键的研究领域。必须创建用于识别、减轻和预防大型语言模型中的偏见的技术。与大型语言模型 (LLM) 相关的一个主要问题与产生错误信息或有偏见的输出的风险有关。这些模型来自广泛的文本数据,包含可靠和不可靠的来源,这可能会无意中导致生成不准确或误导性的信息。此外,如果训练数据包含偏见,例如科学文献中普遍存在的性别或种族偏见,LLM 可以在其生成的内容中延续和放大这些偏见。

为了确保 LLM 所得信息的可靠性和准确性,研究人员必须谨慎行事并实施严格的验证和验证流程。LLM 有可能放大其训练数据中固有的预先存在的偏差,尤其是与人口统计学、疾病患病率或治疗结果相关的偏差。因此,生成的输出可能会无意中反映并延续这些偏见,为实现公平和公正的医疗保健结果带来相当大的挑战。

为了应对这些挑战,研究人员必须保持警惕,识别和减轻 LLM 生成的训练数据和输出中的偏差。这种勤奋对于促进生物医学研究和医疗保健应用领域的公平和包容性至关重要,最终提高 LLM 在这些领域的道德和公平效用。在 LLM 中优先考虑偏差缓解至关重要。研究人员应认真管理和预处理训练数据,以减少固有的偏见并解决不平等的根源。例行审计和评估对于识别和纠正模型训练和部署中的偏差是必要的。领域专家、伦理学家和数据科学家之间的合作可以为公正的 LLM 开发建立指导方针和最佳实践,促进生物医学研究和医疗保健的公平性和包容性。

4.4 幻觉和捏造的信息

语言模型表现出生成错误内容的倾向,通常称为幻觉。这种现象的特点是产生的文本看起来合理但缺乏事实准确性。当此类生成的内容用于关键目的(例如提供医疗指导或促进临床决策过程)时,这种固有特征会带来重大风险。在医疗保健环境中依赖幻觉信息的后果可能是非常有害的,可能导致有害甚至灾难性的后果。

大型语言模型 (LLM) 的不断发展加剧了这个问题的严重性,这些模型不断增强它们产生越来越有说服力和可信的幻觉的能力。此外,LLM 经常因其不透明而受到批评,因为它们没有提供与原始信息来源的明显联系,从而为验证它们生成的内容造成了巨大的障碍。为了降低这些风险,医疗保健专业人员在使用 LLM 为他们的决策过程提供信息时必须格外小心,严格验证所生成信息的准确性和可靠性。

目前的研究工作致力于解决医疗保健和医疗领域大型语言模型 (LLM) 中的幻觉问题。Med-HALT 的引入是一种新颖的基准数据集,其目的是在医学环境中评估 LLM 中的幻觉现象。Med-HALT 包括两个不同的测试类别:基于推理的幻觉评估和基于记忆的幻觉评估。这些测试经过精心设计,用于衡量 LLM 在医疗领域内运行时的问题解决和信息检索能力。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Python_cocola/article/details/143347712