LLM论文阅读笔记：Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up

LLM论文阅读笔记：Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions

论文直链：https://arxiv.org/pdf/2408.00727?

猫站直链：Teddy-XiongGZ/MedRAG: Code for the MedRAG toolkit

作者及研究单位：

发表期刊：尚未接收（Arxiv预印本）

注意：由于作者写该笔记的时候论文可能刚刚发布在预印本平台Arxiv，故尚未被接收。当读者看到该笔记时有可能论文已经接收，还请读者自行查阅。

一、提出的问题

以下以⭐标注的问题，为该论文实际做出贡献的问题

大型语言模型在医学问答中的局限性：虽然大型语言模型在解决医学问题上展示了很大的潜力，但它们可能会产生幻觉，并且在知识更新方面不够灵活。
⭐传统RAG系统的不足：传统的基于检索的生成（RAG）方法在处理需要多轮信息搜索的复杂医学问题时可能表现不佳。
⭐迭代查询的需求：复杂的医学问答场景往往需要多轮信息搜索，以便逐步构建完整的理解和答案。
成本与性能的权衡：在生成更多后续查询以提高答案准确性的同时，计算和时间成本也随之增加，如何找到一个合理的平衡点是一个问题。
超参数选择的复杂性：不同的大型语言模型和不同类型的医学问题可能需要不同的超参数设置，将最佳超参数自动化选择是一大难题。
小样本策略的适配：如何使i-MedRAG从少量样本（小样本CoT提示策略）中受益，以提高其在医学问答任务中的表现仍然需要进一步研究。

二、本文主要贡献

提出i-MedRAG算法：首次提出【迭代检索增强生成（i-MedRAG）】算法，通过引入【多轮后续查询】，增强了大型语言模型在医学问答任务中的性能，尤其是在处理复杂临床推理问题上的表现。
实验验证：通过在MedQA和MMLU-Med数据集上的实验，验证了i-MedRAG算法在不同模型下的适用性和高效性。特别是在MedQA数据集上，使用GPT-3.5在【零样本】条件下达到了69.68%的准确率，超过了之前的最佳方法MedRAG。
提升开源模型性能：在扩展实验中，i-MedRAG显著提升了开源模型Llama-3.1-8B的表现，准确率达到了75.02%。
案例研究：通过具体案例研究展示了i-MedRAG在实际问题中的执行效果，证明其能够适应性地生成查询来找到准确答案。
局限性及未来研究方向：讨论了i-MedRAG的局限性，包括高成本和超参数选择的复杂性，并指出未来研究方向，如自动化超参数选择、提高小样本演示效果和进一步定量分析。

三、方法论（i-MedRAG）

3.1 方法概览

在这里插入图片描述

3.2 工作流

初始化
- 模型选择：选取适合作为基础的LLM（例如：GPT-3.5）。
- 超参数设定：设定初始的超参数，包括最大迭代次数和每轮查询的数量等。
- 问题提取：给定医学问题
- 清空信息检索的历史记录
迭代m次
查询生成
- 没有检索历史：给定输入医学问题 $\mathcal Q$ 利用大模型 $\mathcal M$ 生成 $n$ 个新的查询 $q_{i 1}, \cdots, q_{i n}$ 。
- 有检索历史：给定输入医学问题 $\mathcal Q$ 和检索历史 $\mathcal H$ 利用大模型 $\mathcal M$ 生成 $n$ 个新的查询 $q_{i 1}, \cdots, q_{i n}$ 。
答案生成与检索历史扩充

迭代 $n$ 次，每一轮迭代做三件事情：
1. 给定一个query： $q_{ij}$ ，使用给定的检索器 $\mathcal R$ 检索给定的文档 $\mathcal D$ ，检索出 $\mathrm N$ 个相关的文档块 $q_{i 1}, \cdots, q_{i n}d_{i j}^{1}, \cdots, d_{i j}^{N}$
2. 对检索到的信息和给定的query，使用 $\mathcal M$ 生成query的答案 $a_{ij}$
3. 将二元组（ $q_{ij}$ , $a_{ij}$ ）添加到检索历史列表 $\mathcal H$
最终答案确定

对给定的真实问题 $\mathcal Q$ 和检索历史 $\mathcal H$ ，使用大模型 $\mathcal M$ 生成实际问题的答案 $\tilde{\mathcal{A}}$ 。

3.3 伪代码描述

在这里插入图片描述

四、结论

i-MedRAG的有效性：提出的i-MedRAG算法通过引入迭代后续查询，显著改善了大型语言模型在复杂医学问答任务中的表现。实验结果证明，i-MedRAG在多个数据集和不同的模型上均表现优异，特别是相比传统的RAG方法有了明显的提升。
在MedQA数据集上的表现：
- 在【零样本】条件下，i-MedRAG使用GPT-3.5在MedQA数据集上达到了69.68%的准确率，超越了之前的最佳方法MedRAG。
- 在扩展实验中，开源模型Llama-3.1-8B通过i-MedRAG达到了75.02%的准确率，进一步展示了其性能提升。
在MMLU-Med数据集上的表现：尽管提升幅度较小，但i-MedRAG在MMLU-Med数据集上也显示出一定的提升，这表明i-MedRAG在处理问题复杂度较低的任务时同样有效。
扩展性与灵活性：通过分析不同迭代次数和每轮查询数对性能的影响，发现增加迭代次数和查询数通常会提高性能，但会很快收敛。此外，案例研究表明，通过适应性地生成查询，i-MedRAG能对医学问题形成深入的推理链条，找到更准确的答案。
局限性与未来方向：尽管i-MedRAG展示了显著的优势，但仍存在高成本和超参数选择复杂性等局限性。未来研究方向包括自动化超参数选择、改进小样本策略和进行更多定量分析，以进一步提升i-MedRAG在实际医学辅助中的应用价值。

五、未来的工作

自动化超参数选择：研究如何使用LLM代理来动态地找到每次迭代所需的最佳后续查询数目，以提高超参数选择过程的效率和灵活性。
提高小样本演示效果：虽然小样本连锁思维（CoT）提示策略比零样本方法效果更好，但如何有效地将其应用到i-MedRAG中仍是一个挑战。未来的研究可以探索如何使i-MedRAG从一个或少量样本中受益，从而进一步提升其在医学问答任务中的表现。
进一步定量分析：在与现有方法进行对比的基础上，进行更多的定量分析，以检查i-MedRAG的错误类型、泛化能力和在不同医学问答任务中的表现。
降低成本：未来的研究还可以探索如何在保持高性能的前提下降低生成后续查询所需的计算和时间成本。例如，通过优化查询生成策略或改进检索方法来提高效率。
实际应用探索：更多地探索i-MedRAG在实际医学辅助中的应用，验证其在真实临床环境中的可行性和有效性。
多领域扩展：尽管i-MedRAG在医学领域证明了其有效性，但未来研究可以尝试将其应用到其他需要复杂信息检索和推理的领域，如法律、科研等，以验证其跨领域的适应性和扩展性。

LLM论文阅读笔记：Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up

LLM论文阅读笔记：Improving Retrieval-Augmented Generation in Medicine with Iterative Follow-up Questions

一、提出的问题

二、本文主要贡献

三、方法论（i-MedRAG）

3.1 方法概览

3.2 工作流

3.3 伪代码描述

四、结论

五、未来的工作

猜你喜欢