论文笔记:Chain-of-Discussion: A Multi-Model Framework for Complex Evidence-Based Question Answering

2024 02 北大冯岩松组的work

1 背景

  • LLM在可靠证据选择和深入问题分析方面表现不佳
    • 尤其是在与法律咨询、医疗建议等知识密集型问题相关的场景中
  • 论文以法律咨询为例,在回应关于子女抚养费必要性的问题时,可能会由于语义相似性而错误地返回与监护资格相关的法律条文。
    • LLMs通常无法过滤掉所有这些噪声证据,这可能导致不完整的分析、错误的推理路径、偏见的观点,最终产生问题性或误导性的答案。
  • 不同的LLMs由于训练数据的不同,可能具有不同的内在知识和推理能力
    • ——>多个LLMs协作可能比单个LLM犯错误的可能性要小
    • 检查多个LLMs的一致性有助于减少输出幻觉

2 论文思路

  • 在CoD框架的问题分析阶段,多个开源大语言模型(LLMs)被用来分析用户提出的问题
  • 在证据分析阶段,目标模型需要判断检索到的每个证据文档是否能够用于回答问题
    • 除了目标模型外,其他LLMs将批评目标模型的证据分析,并明确指出是否存在与目标模型相反的意见
    • 如果批评中相反意见的比例超过设定的阈值,目标模型将根据批评结果修正其证据分析。
  • 在响应生成阶段,目标LLM将基于总结的问题分析和修正后的证据分析生成最终的响应

猜你喜欢

转载自blog.csdn.net/qq_40206371/article/details/143391462