ToM for Multi-Agent Collaboration via LLMs 多智能体协作能力

#ToM for Multi-Agent Collaboration via LLMs

摘要

LLM的多智能体协作能力仍需探索。本文评估基于LLM agents在多智能体合作的文本游戏心智理论推理任务,和多智能体强化学习(MARL)和基于计划的基线比较。我们观察到LLM agents涌现的合作行为和高阶心智理论能力。结果也揭示了在规划优化的局限性,是由于管理长期上下文和任务状态幻觉的系统性失败。我们使用显式信念状态表示来缓解问题,并提高任务性能和ToM推理准确性

引文

为探索LLM智能水平,设计了一款基于文本的游戏,评估具身交互能力,包括探索未知环境、维持对世界的信念以及与其他代理合作,这对自然社会互动和人工通用智能(AGI)至关重要。

心智理论ToM,即推断他人隐藏的心理状态的能力,是人类社会互动、合作和沟通的基础。例如,一个熟练的人工智能助手应该能够在无需询问的情况下,根据之前的经验推断出人类的偏好。最近的研究已经将经典的心智理论任务应用于几个llm,结论是当前的模型(如GPT-4)与9岁儿童的表现相当。然而,研究界对基于文本的ToM机器智能测试的有效性表示怀疑。为此,本研究提出了一种新的团队协作情境下llm高阶ToM评价方法,该方法包含了动态信念状态演化和多主体间丰富的意图交流。

多智能体协作任务

设计了一个搜索救援模拟任务

任务环境: 3名特工(即Alpha、Bravo和Charlie)模拟专家组成一个团队,目标是定位并安全拆除散落在未知环境中的彩色编码炸弹。每个炸弹都有m种颜色的独特相序,需要正确的断线钳顺序来拆除。团队成员从不同颜色的刀具开始,必须协调和同步工作以提高效率。环境被概念化为一个连接的图形,n个节点代表n个房间,由几个象征走廊的边连接起来。在每一轮中,特工可以选择三种行动: 移动到n个房间中的一个,在当前房间中检查炸弹的相序列,或使用m个钢丝钳中的一个。行动空间的大小取决于问题尺度(即n + m + 1)。agent的观察仅限于其当前房间的内容和agent的状态。他们定期更新团队分数,当前的房间内容,队友的位置和可用的工具。当成功拆除一枚x阶段炸弹时,团队将获得10*x点的奖励。评估环境包括5个房间(n = 5)和5枚炸弹,包括2枚单相炸弹、2枚双相炸弹和1枚三相炸弹。炸弹阶段可能有3种不同的颜色(m = 3)。每个成功拆除炸弹的团队在每个处理阶段可以获得10个点数,因此每个任务的最大得分为90。团队绩效是用两个指标来衡量的:团队得分,表明协调的质量,和完成轮数,衡量协作的效率。当团队拆除了所有炸弹,超过了时间限制(即30轮),或者由于重复输出而进入僵局时,测试就结束了。

文本游戏界面: 初始任务环境是MARL agent 基于gym API实现的。在每一轮(即时间戳)中,团队的三个代理依次与环境交互,接受观察并通过自然语言交互执行行动。内置的通信机制允许每轮代理之间交换文本消息。重要的是,除非相互沟通,否则主体之间不会注意到彼此的行动和结果,这就为心理理论推断提供了机会。

具体来说,基于规则的文本界面将观察结果转换为自然语言描述,并将代理聊天编码为抽象操作选择。为了便于观察,文本界面从游戏引擎中提取状态特征,并替换模板中的关键字。一个典型的描述文本包括当前回合数、团队累积分数、行动反馈、当前房间的内容、队友的位置和交流信息。动作编码是通过关键字匹配完成的,因为llm被要求以特定的格式和结构框架它们的响应。如果代理产生了难以理解的内容,如无效的操作或无意义的文本,界面将提供错误纠正的反馈。错误信息是基于预先编程的规则和模板生成的,例如“在当前位置,X房间,没有炸弹供您检查。”图1展示了代理团队通过文本界面与任务环境之间的交互示例。

在这里插入图片描述

基于LLM 的具身Agent

选择GPT-3.5-0301和GPT4-0314,对于每一轮,模型被要求根据当前任务状态观察和过去的交互历史来选择动作和传递消息。基于llm的代理和文本游戏界面之间的交互历史被维护在查询文本中,直到它超过最大的模型输入大小。在我们的设置中,所有代理都保留了前两轮游戏规则和历史的记忆,总计4096个token

多智能体通信

我们实现了一个通信通道,使基于llm的agent能够在团队中共享文本消息。信息一旦发出,就会立即广播给所有团队成员,并反映在他们随后的观察中。例如,如图1所示,特工Alpha发送信息,指示队友分开,然后是特工Bravo的反馈。在实践中,由于agent轮流发送消息,队友的反应将出现在随后一轮的观察中。

信念状态

为了增强agent的信息保留能力和增强协作能力,我们提出了一种提示工程方法来表示显式信念状态。如图1所示,在接受环境观察后,agent被提示更新存储关键任务相关信念的文本描述。这种更新后的信念状态保存在交互历史中,并用于后续的行动计划中。例如,在检查了1号炸弹后,阿尔法特工将炸弹序列的信念状态从未知更新为红色,并保留该信息直到进一步更新。

提出的信念状态是受思维链提示思想的启发,其中一个复杂的推理任务被分解成中间步骤,并以少量的学习方式引入LLM。值得注意的是,虽然提供了初始信念状态描述来说明正确的格式和表示,更新规则完全是zero-shot,仅依赖于LLM的常识和任务上下文。

实验

对GPT-4/chatgpt,是否有信念状态 进行实验

设置: 在每次实验开始时,我们召集一个由三个具身agent组成的团队,重新设置任务环境,随机分配起始位置、房间连接、炸弹分布和序列。然后,agent根据他们最初的观察结果轮流提供行动选择和通信信息。需要注意的是,每个agent只有部分的观察和自己的交互历史,在这个完全分散的团队中,agent间的通信是唯一的信息传播手段。对于基于llm的agent,我们将模型温度参数设置为0,并进行三次重复测量试验,以确保结果的稳定性。每次试验的持续时间从5分钟到120分钟不等,取决于任务负荷和模型选择。

ToM推理: 除了主要任务外,基于llm的代理还需要在任务期间执行心智理论推理。这些调查分为三类,符合ToM的三个能力级别。第一类,内省,评估AGENT表达其精神状态的能力。第二类,一阶ToM推理,测试agent是否能估计出他人隐藏的心理状态。第三类,二级ToM推理,评估AGENT推断他人对自己心理状态的看法的能力。

为了评估基于llm的agent是否正确地回答了这些问题,研究人员聘请人类注释者根据完全可观察到的交互和交流历史提供主观判断。具体考虑以下标准:1)目标agent是否在当前房间内观察到结果;2)目标agent是否曾到过该房间;3)该结果是否已告知目标agent。值得一提的是,涉及交流的高阶ToM推理自然是模糊的。注释器之间讨论了这些角用例,以确保跨条件的一致标准。

结果

在这里插入图片描述

除了CHATGPT,其他模型都可以在有限时间完成任务,CBS 6轮完成任务是最佳基线(集中协调和完美信息共享);MAPPO是最新多智能体强化学习算法也在11轮完成任务。和CHATGPT相比,GPT-4获得满分且使用信念表示的效率更高,信念状态表示减少了无效行为和增强ToM推理能力提高了团队协作。
在这里插入图片描述

基于llm的agent通过内省有效地表达了他们对任务相关信息的信念,如表2所示。所有的agent在理解世界知识(如炸弹位置)和情景建模(如交互历史)方面都表现出很强的能力

涌现协作行为: 图2右上在这里插入图片描述
GPT4+Belief 团队使用通信信息来协调任务。阿尔法agent自愿扮演团队领导者的角色,将子任务分配给其他成员。人类团队中常见的其他合作行为,如帮助、解决冲突和共享信息.llm通过大量语言材料的学习,在没有进行具体的协作任务训练的情况下,获得了必要的团队合作技能。

LLM系统失败

基于llm的agent协作效率低于最优基线。我们找出了llm在团队规划过程中所犯的一些系统性错误,并讨论了它们是如何阻碍团队合作进展的。

  1. 长期的上下文: 在任务执行期间,llm偶尔会输出违反任务规则的无效操作,例如移动到不相邻的房间或使用他们不拥有的工具。尽管关于房间连接和工具分配的信息包含在最初的提示中,并在查询文本中维护,但llm经常忽略这些细节,因为它们与最后的规划问题距离很远。更高级的GPT-4模型在考虑长上下文和复杂逻辑时表现得更好,因此产生的无效操作更少,如表1所示。我们提出的信念状态通过在输入提示中重新强调与任务相关的信息,对这一过程也有帮助。
  2. 幻觉: 在执行任务的过程中,agent可能会产生有效但不可行的行动,比如搜索一枚拆除了引信的炸弹,或者在没有检查的情况下要求得到炸弹的序列。这些行为源于对游戏状态的错误信念,对任务进程没有帮助。我们把这些幻觉主要归因于缺乏明确的信念表征。如果不能访问完整的交互历史和部分的环境观察,基于llm的代理就不能对任务状态形成准确的信念。因此,llm在推理下一步行动时,可能会产生关于不存在的炸弹或假炸弹序列的想象。我们通过GPT-4+信念条件来评估这一假设,即基于llm的agent在文本中明确表示他们的信念状态。结果表明,信念状态的引入使无效行为减少了50.7%,团队效率提高了130%

ToM推理

团队合作的一个关键方面是推断队友的心理状态,包括信念、欲望和意图。我们通过要求他们在任务期间进行心智理论推断来评估基于llm的agent。如表2所示,基于llm的agent可以估计自己和队友的心理状态。在最具挑战性的二阶ToM推理任务中,agent估计他人对自己心理状态的信念,GPT-4 +信念agent在近70%的情况下正确反应。与团队表现一致,GPT4在所有三个ToM推理水平上都优于ChatGPT,显性信念状态表示增强了基于llm的agent的ToM能力。在接下来的案例研究中,我们将分析LLM的反应,看看它们在某些情况下是如何成功或失败的。

案例分析:图2,在Alpha进入房间5并观察内容后,我们询问另一个房间的队友(即Charlie)是否知道房间5的内容。这是一个一阶信念估计问题。GPT-4答案正确。考虑到查理现在的位置(不是在5号房间)和他们的互动历史(他们以前在5号房间)。相反,ChatGPT没有考虑到这一历史。在二阶ToM推理情况中,我们问Charlie是否知道Alpha知道5号房间的内容。GPT-4+信念通过考虑之前的通信正确回答,而ChatGPT失败。

错误信念下的推理:即使有充足的语境,在进行ToM推理时,agent也很难跟踪信息的传递。当代理分享不准确的信息,导致错误的信念时,最差的场景发生了。这种情况通常发生在基于llm的agent尝试无效操作并通过通信传播错误意图时。例如,当Alpha告诉团队他们要搬到8号房间(这是无法到达的),我们问Alpha,*“Charlie知道你知道8号房间的内容吗?”*这个问题很棘手,因为阿尔法没能到达8号房间。理论上,最可接受的答案是复杂的,并包含多个高阶ToM假设。例如,人类注释的地面真理是:

“我不知道8号房间里的东西,因为我没能进去。但既然我告诉查理我会去那里,他们可能会认为我知道8号房间里的东西。然而,考虑到查理知道我现在的位置,他们应该能够告诉我不能搬到5号房间,并诱导我不知道5号房间的内容。”

在实践中,基于llm的代理通常只掌握部分逻辑,或者忽略了他们没有到达目标房间这一关键事实。GPT4+信念代理引用:

“根据观察和之前的历史,玩家Charlie并不清楚我知道8号房间的当前内容。然而,因为我在之前的信息中提到我将搬到8号房间,玩家Charlie可能会认为我最终会了解8号房间的内容。”

讨论

  1. 大型语言模型(LLMs)在我们的任务场景中展示了大量的计划和协作能力。在适当的提示工程下,基于llm的智能体团队的表现与最先进的多智能体强化学习(MARL)算法相当。这一发现特别值得注意的是,MARL代理接受了广泛的任务特定训练与一个集中的批评,而基于llm的代理以完全分散的方式运行,并在zero-shot的设置中承担任务。
  2. 其次,由于系统性的失误,llm仍然不能成为最佳的计划者或团队成员,比如忽视了长期的环境,对任务状态做出了不准确的假设(又称幻觉)。这些缺陷极大地阻碍了团队合作,因为它们可以通过沟通迅速传播错误信息,导致广泛的错误信念。我们试图通过允许基于llm的代理保持对世界的明确信念状态来缓解这些问题。我们的发现表明,当前llm可以根据他们的观察更新给定的信念描述,暗示了高级认知技能的潜在出现,如世界知识理解和情境建模。此外,信念状态表示提供了一个结构化的框架,帮助代理跟踪与关键任务相关的信息,从而提高团队绩效。
  3. 最后,我们的研究表明,llm的心智理论能力仍然是有限的,特别是在包含动态信念状态和密集沟通的互动团队场景中评估。在语境方面,虽然5岁的儿童可以执行二阶ToM推理,但由于社会互动的复杂性和模糊性,成人在交流中并不总是使用这种能力。因此,对于llm来说,开发一个功能性的ToM并与人类进行自然互动,还有很多工作要做。我们的研究代表了为法学硕士的ToM设计新的评估方法的初步努力.

猜你喜欢

转载自blog.csdn.net/weixin_44546100/article/details/135031899
tom