利用蒙特卡洛树搜索自我精炼算法提升大模型的数学解题能力

人工智能咨询培训老师叶梓转载标明出处

尽管LLMs在处理语言相关任务时表现出色，但在数学问题解决等需要精确推理的领域，它们的输出往往容易出错。这些错误输出虽然表面上看似合理，但实际上与事实不符，对理性过程有害。为了提高模型在这些领域的性能，来自复旦大学和上海人工智能实验室的研究团队提出了MCT Self-Refine（MCTSr）算法，该算法通过系统的探索和启发式自我精炼机制，改善了LLMs中的决策框架。

想要掌握如何将大模型的力量发挥到极致吗？2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

留言“参加”即可来叶老师的直播间互动，1小时讲解让您轻松上手，学习如何使用 Llama Factory 微调模型。互动交流，畅谈工作中遇到的实际问题。

方法

Figure 1阐释了MCTSr算法的运作过程。图中的智能体通过试错学习决策和推理，类似于人类的思考方式。这个过程包括选择（Selection）、扩展（Expansion）、评估（Evaluation）和反向传播（Backpropagation）四个阶段，通过迭代优化策略来提高决策质量。MCTSr算法的主要工作流程包括以下几个阶段：

初始化（Initialization）：使用一个简单的模型生成的答案和虚拟响应（例如"I don’t know."）来建立根节点，以减少模型过拟合的趋势。
选择（Selection）：算法使用值函数Q对所有未完全展开的答案进行排序，并采用贪心策略选择最有价值的节点进行进一步的探索和优化。
自我完善（Self-Refine）：选定的答案a会通过自我完善框架进行优化。模型首先生成反馈m，指导优化过程以产生增强的答案a'。
自我评估（Self-Evaluation）：对优化后的答案进行评分，计算其奖励值和Q值。这个过程涉及到模型自我奖励反馈和严格的评分标准。
反向传播（Backpropagation）：将优化后答案的价值信息反向传播到其父节点和其他相关节点，更新树的价值信息。
UCT更新（UCT update）：在所有节点的Q值更新完成后，识别出候选节点集合C，用于进一步的扩展或选择，并使用UCT更新公式更新所有节点的UCT值，为下一个选择阶段做准备。

在自我完善过程中，模型通过多轮对话反馈引导对答案进行优化，生成反馈，并据此修改以产生改进后的答案。这一过程通过迭代完善，利用结构化反馈来提升答案的质量。

在自我评估阶段，答案的Q值被定义为进一步完善成为更优答案的预期质量。模型使用自我奖励方法来估计奖励，要求提供一个-100到100范围内的奖励分数。为了确保评分的可靠性和公平性，研究者们设计了三项约束：提示约束、满分抑制和重复采样。这些约束有助于增强自我评估的可靠性。

评估

研究者们详细评估了MCT Self-Refine（MCTSr）算法在解决数学问题方面的有效性。他们采用了LLaMA3-8B作为基础模型，并将其与MCTSr算法结合。实验设置包括了几个不同的配置，包括零样本（Zero-Shot）CoT、单次自我完善（One-turn Self-refine）、4次迭代的MCTSr和8次迭代的MCTSr，并将这些配置与当前最先进的封闭源模型GPT-4、Claude 3和Gemini 1.5-Pro的性能进行了比较。实验涉及的数据集包括GSM8K、GSM Hard、MATH、AIME、Math Odyssey和OlympiadBench。

实验结果显示，MCTSr的迭代次数与解题成功率之间存在直接相关性。随着迭代次数的增加，特别是在不太复杂的GSM8K数据集中，成功率显著提高。然而，在更复杂的GSM-Hard数据集中，即使在更高的迭代次数下，也展现出了性能上限，这表明当前策略在处理复杂问题时存在局限性。这些见解强调了MCT-Self-refine算法的鲁棒性以及潜在的边界，突出了为了有效应对更复杂挑战而需要持续增强的必要性。

表格1展示了MCTSr算法在GSM数据集上的性能表现。可以看到，在GSM8K数据集中，随着MCTSr迭代次数的增加，成功解题的数量和成功率都有所提高。而在更具挑战性的GSM-Hard数据集中，尽管迭代次数增加，但性能提升有限。

表格2展示了MCTSr算法在MATH数据集上的性能，该数据集被分为五个难度级别，从最简单的1级到最具挑战性的5级。在最简单的1级中，8次迭代的MCTSr配置实现了90.16%的成功率，解决了437个问题中的394个。然而，在最具挑战性的5级中，即使是8次迭代的MCTSr配置，成功率也仅为34.06%，解决了1324个问题中的451个。整体来看，8次迭代的MCTSr在所有级别上的累积成功率为58.24%，解决了5000个问题中的2912个。这一比率显示了从零样本CoT的初始比率24.36%的显著提升。数据表明，增加迭代次数与提高成功率之间存在一致的趋势，强调了MCT-Self-refine算法在提高不同数学复杂性问题解决能力方面的有效性。

表格3展示了MCTSr算法在奥林匹克级别的数据集上的表现。在AIME数据集中，从零样本CoT的2.36%（解决了22个问题）到8次迭代MCTSr的11.79%（解决了110个问题），显示出明显的性能提升。在GAIC Math Odyssey数据集中，性能从17.22%（解决了67个问题）显著提高到8次迭代MCTSr的49.36%（解决了192个问题）。在OlympiadBench数据集中，性能从零样本CoT的1.25%（解决了16个问题）提高到8次迭代MCTSr的7.76%（解决了99个问题）。这些结果表明，通过迭代完善，性能得到了提升，GAIC Math Odyssey的结果主要反映了MCTSr在新环境中的泛化能力。

这些发现证实了MCT-Self-refine算法在解决复杂且未见过的数学问题方面的鲁棒性，表明它适用于面向奥林匹克等竞技学术环境的教育技术。最后，论文还讨论了与当前最先进的封闭源大模型的性能比较，表明MCTSr可以有效提升像LLaMa-3这样的小参数开源模型的数学推理能力，达到与封闭源大模型相当的水平。

https://arxiv.org/pdf/2406.07394

方法

评估

猜你喜欢

目录

热门文章