本文是LLM系列文章,针对《RadioRAG: Factual Large Language Models for Enhanced Diagnostics in Radiology Using Dynamic Retrieval Augmented Generation》的翻译。
摘要
大型语言模型 (LLM) 推动了医学人工智能 (AI) 领域的发展。但是,LLM 通常会根据静态训练数据集生成过时或不准确的信息。检索增强生成 (RAG) 通过集成外部数据源来缓解这种情况。以前的 RAG 系统使用预先组装的固定数据库,灵活性有限,而我们已经开发了放射学 RAG (RadioRAG) 作为端到端框架,可以从权威放射学在线资源实时检索数据。RadioRAG 使用专用的放射学问答数据集 (RadioQA) 进行评估。我们在回答放射学特定问题时评估各种 LLM 的诊断准确性,无论是否通过 RAG 访问额外的在线信息。使用来自放射学亚专业的 RSNA 病例集中的 80 个问题和 24 个额外的专家策划的问题,其中有正确的黄金标准答案,LLM(GPT-3.5-turbo、GPT-4、Mistral-7B、Mixtral-8x7B 和 Llama3 [8B 和 70B])在有和没有 RadioRAG 的情况下提示。RadioRAG 从 www.radiopaedia.org 实时检索特定于上下文的信息&#