本文是LLM系列文章,针对《Can Large Language Models Play Games? A Case Study of A Self-Play Approach》的翻译。
摘要
大型语言模型(LLM)利用来自互联网的大量数据,存储广泛的先验知识。虽然LLM已被证明是有益的决策辅助工具,但它们的可靠性受到推理、幻觉现象等方面的限制。另一方面,蒙特卡罗树搜索(MCTS)是一种启发式搜索算法,通过递归推出和自玩来提供可靠的决策解决方案。然而,MCTS的有效性在很大程度上依赖于启发式修剪和外部价值函数,尤其是在复杂的决策场景中。这项工作引入了一种创新的方法,该方法通过MCTS自玩来支持LLM,以有效地解决基于回合的零和游戏(DTZG),如国际象棋和围棋,而不需要额外的训练。具体来说,我们使用LLM作为值函数的动作修剪器和代理,而不需要额外的训练。我们从理论上证明了在我们提出的方法中估计值的次优性与 O ( ∣