人工智能咨询培训老师叶梓 转载标明出处
尽管LLMs在处理语言相关任务时表现出色,但在数学问题解决等需要精确推理的领域,它们的输出往往容易出错。这些错误输出虽然表面上看似合理,但实际上与事实不符,对理性过程有害。为了提高模型在这些领域的性能,来自复旦大学和上海人工智能实验室的研究团队提出了MCT Self-Refine(MCTSr)算法,该算法通过系统的探索和启发式自我精炼机制,改善了LLMs中的决策框架。
想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
留言“参加”即可来叶老师的直播间互动,1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。互动交流,畅谈工作中遇到的实际问题。
方法
Figure 1阐释了MCTSr算法的运作过程。图中的智能体通过试错学习决策和推理,类似于人类的思考方式。这个过程包括选择(Selection)、扩展(Expansion)、评估(Evaluation)和反向传播(Backpropagation)四个阶段,通过迭代优化策略来提高决策质量。MCTSr算法的主要工作流程包括以下几个阶段:
- 初始化(Initialization):使用一个简单的模型生成的答案和虚拟响应(例如"I don’t know.")来建立根节点,以减少模型过拟合的趋势。
- 选择(Selection):算法使用值函数Q对所有未完全展开的答案进行排序,并采用贪心策略选择最有价值的节点进行进一步的探索和优化。
- 自我完善(Self-Refine):选定的答案a会通过自我完善框架进行优化。模型首先生成反馈m,指导优化过程以产生增强的答案a'。
- 自我评估(Self-Evaluation):对优化后的答案进行评分,计算其奖励值和Q值。这个过程涉及到模型自我奖励反馈和严格的评分标准。
- 反向传播(Backpropagation):将优化后答案的价值信息反向传播到其父节点和其他相关节点,更新树的价值信息。
- UCT更新(UCT update):在所有节点的Q值更新完成后,识别出候选节点集合C,用于进一步的扩展或选择,并使用UCT更新公式更新所有节点的UCT值,为下一个选择阶段做准备。
在自我完善过程中,模型通过多轮对话反馈引导对答案进行优化,生成反馈,并据此修改以产生改进后的答案。这一过程通过迭代完善,利用结构化反馈来提升答案的质量。
在自我评估阶段,答案的Q值被定义为进一步完善成为更优答案的预期质量。模型使用自我奖励方法来估计奖励,要求提供一个-100到100范围内的奖励分数。为了确保评分的可靠性和公平性,研究者们设计了三项约束:提示约束、满分抑制和重复采样。这些约束有助于增强自我评估的可靠性。
评估
研究者们详细评估了MCT Self-Refine(MCTSr)算法在解决数学问题方面的有效性。他们采用了LLaMA3-8B作为基础模型,并将其与MCTSr算法结合。实验设置包括了几个不同的配置,包括零样本(Zero-Shot)CoT、单次自我完善(One-turn Self-refine)、4次迭代的MCTSr和8次迭代的MCTSr,并将这些配置与当前最先进的封闭源模型GPT-4、Claude 3和Gemini 1.5-Pro的性能进行了比较。实验涉及的数据集包括GSM8K、GSM Hard、MATH、AIME、Math Odyssey和OlympiadBench。
实验结果显示,MCTSr的迭代次数与解题成功率之间存在直接相关性。随着迭代次数的增加,特别是在不太复杂的GSM8K数据集中,成功率显著提高。然而,在更复杂的GSM-Hard数据集中,即使在更高的迭代次数下,也展现出了性能上限,这表明当前策略在处理复杂问题时存在局限性。这些见解强调了MCT-Self-refine算法的鲁棒性以及潜在的边界,突出了为了有效应对更复杂挑战而需要持续增强的必要性。
表格1展示了MCTSr算法在GSM数据集上的性能表现。可以看到,在GSM8K数据集中,随着MCTSr迭代次数的增加,成功解题的数量和成功率都有所提高。而在更具挑战性的GSM-Hard数据集中,尽管迭代次数增加,但性能提升有限。
表格2展示了MCTSr算法在MATH数据集上的性能,该数据集被分为五个难度级别,从最简单的1级到最具挑战性的5级。在最简单的1级中,8次迭代的MCTSr配置实现了90.16%的成功率,解决了437个问题中的394个。然而,在最具挑战性的5级中,即使是8次迭代的MCTSr配置,成功率也仅为34.06%,解决了1324个问题中的451个。整体来看,8次迭代的MCTSr在所有级别上的累积成功率为58.24%,解决了5000个问题中的2912个。这一比率显示了从零样本CoT的初始比率24.36%的显著提升。数据表明,增加迭代次数与提高成功率之间存在一致的趋势,强调了MCT-Self-refine算法在提高不同数学复杂性问题解决能力方面的有效性。
表格3展示了MCTSr算法在奥林匹克级别的数据集上的表现。在AIME数据集中,从零样本CoT的2.36%(解决了22个问题)到8次迭代MCTSr的11.79%(解决了110个问题),显示出明显的性能提升。在GAIC Math Odyssey数据集中,性能从17.22%(解决了67个问题)显著提高到8次迭代MCTSr的49.36%(解决了192个问题)。在OlympiadBench数据集中,性能从零样本CoT的1.25%(解决了16个问题)提高到8次迭代MCTSr的7.76%(解决了99个问题)。这些结果表明,通过迭代完善,性能得到了提升,GAIC Math Odyssey的结果主要反映了MCTSr在新环境中的泛化能力。
这些发现证实了MCT-Self-refine算法在解决复杂且未见过的数学问题方面的鲁棒性,表明它适用于面向奥林匹克等竞技学术环境的教育技术。最后,论文还讨论了与当前最先进的封闭源大模型的性能比较,表明MCTSr可以有效提升像LLaMa-3这样的小参数开源模型的数学推理能力,达到与封闭源大模型相当的水平。