智能体前沿论文分享┆PEER:使用多智能体框架和调优方法完成特定领域任务

0.简介

本推文主要介绍了一种新的智能体框架,名为PEER。论文《PEER: Expertizing Domain-Specific Tasks with a Multi-Agent Framework and Tuning Methods》主要提出了PEER(计划、执行、表达、审查)多智能体框架,通过集成精确的问题分解、高级信息检索、全面总结和严格的自我评估来系统化特定领域的任务。考虑到成本和数据隐私的担忧,企业正在从 GPT-4 等专有模型转向定制模型,在成本、安全性和性能之间取得平衡。论文开发了利用在线数据和用户反馈进行高效模型调整的行业实践。为将多智能体系统应用于特定领域的问题解决和实施有效的智能体调整策略提供了最佳实践指南。这项研究由蚂蚁集团的研究团队与多家机构的专家共同完成。

本推文由陆新颖撰写,审校为朱旺和李杨。

论文链接:https://arxiv.org/abs/2407.06985。

代码链接:https://github.com/alipay/agentUniverse。

1.背景与挑战

随着人工智能和自然语言处理(NLP)技术的迅猛发展,应用于特定领域的智能体系统越来越受到关注。尤其是在金融、医疗、交通等专业领域,智能体能够处理复杂的任务,如信息提取、决策支持和数据分析。这些领域通常涉及大量专业知识和复杂的上下文,传统的机器学习方法在这些特定任务中常常难以达到理想的效果。

1. 在特定领域的应用中,GPT-4 等大型语言模型(LLM)通过精确的提示工程或检索增强生成(RAG)展现出巨大潜力,但同时面临性能、成本和数据隐私三方面的难题。

2. 高性能通常需要复杂的模型架构和处理技术,但实现这些目标的多智能体工作流往往带来高昂成本,且管理难度较大。

3. 专有模型的使用带来数据隐私的挑战,使得许多企业在追求安全、低成本和高性能之间难以找到理想平衡。

针对这一背景,PEER(计划、执行、表达、审查)框架应运而生。论文提出了PEER框架,它通过多智能体系统和调优方法,针对特定领域的任务进行专家化处理。PEER框架的意义体现在以下几个方面:

1. 提升任务表现:通过引入多个智能体,PEER框架能够将复杂任务细分,提高处理效率和结果的准确性。这种方法在金融问答、金融分析等领域展现出显著优势,尤其是在需要专业知识和高准确度的任务中

2. 自我审查机制:PEER框架中的“审查”智能体能够进行自我评估和反馈,确保生成的答案质量更高。这一机制在信息密集型领域尤为重要,因为它能有效减少错误并提高用

扫描二维码关注公众号,回复: 17526069 查看本文章

3. 领域适应性强:论文提供并开源 PEER框架,简洁、高效、低成本,可有效解决特定领域任务。PEER框架具备良好的可扩展性和适应性,可以根据不同领域的需求进行调整。这使得它不仅适用于金融领域,还可以扩展到交通、医疗、法律等其他专业领域,满足多样化的应用需求

4. 促进学术与实践结合:该研究强调了学术界和行业之间的合作,通过将理论模型应用于实际场景,推动了智能体技术的实际应用,为未来的研究提供了新的思路和方向

2.方法

图1 PEER循环工作机制

PEER框架的具体方法旨在通过多个智能体的协作来优化特定领域的复杂任务处理。该方法分为四个主要步骤——计划(Plan)、执行(Execute)、表达(Express)和审查(Review),分别由不同的智能体完成,循环工作机制如图1所示。

计划:在这个阶段,PEER框架的智能体根据任务需求进行问题分解。它将复杂任务分成多个子任务,使得后续的智能体可以专注于特定任务的处理。该阶段的目标是确保任务处理流程的系统化和有序性,以避免在复杂任务中出现资源浪费或处理冲突。

执行:执行阶段的智能体承担了任务的核心处理。通过高级的信息检索和数据挖掘技术,PEER框架能够从大量的领域知识中获取并提取相关信息,以支持任务的完成。这些智能体被设计用于处理多样化的数据来源,如文本、图像等,使得系统在应对不同类型的信息时具有较高的适应性。

表达:在表达阶段,PEER框架的智能体会将处理的结果转换为用户可理解的形式。这包括信息总结、内容生成和呈现方式的优化,以便最终输出的信息简明易懂、直观明了。表达智能体还可以对生成的内容进行修辞和语法优化,以提升用户体验和结果的专业度。

审查:最后的审查阶段是PEER框架的重要部分,确保结果的质量。审查智能体负责对生成的答案进行自我评估和反馈,纠正潜在的错误。这一过程确保了输出内容的准确性和一致性,同时在数据隐私和内容敏感性方面进行严格控制,以符合行业和法律规范。

3.实验结果

图2 PEER 框架的胜率

在实验中,PEER 框架主要在金融问答数据集上测试和评估性能,使用了从业务场景中抽取的数百道专业问题来验证其效果。实验将 PEER 与 GPT-3.5 turbo (16k) 和 GPT-4o 模型进行了对比,并使用了 BabyAGI 多智能体框架作为对照。BabyAGI 框架因其任务创建、组织和执行功能与 PEER 类似而被选为基线模型。评价采用 GPT-4 对 PEER 和对照组提供的答案进行选择,以胜率作为指标。图1PEER 框架的胜率。在两个基础模型下,PEER 的表现都优于 BabyAGI 和 PEE。结果显示,PEER 相较于 BabyAGI 取得了 83% 的胜率,并在 GPT-4o 模型下仍保持了 81% 的高胜率。这主要归功于 PEER 框架能够同时处理多个问题并综合答案,而 BabyAGI 每轮只能处理一个问题,从而提升了整体的任务处理效率和回答质量。

表1 PEER 框架评分结果

表1展示PEER 框架评分结果。GPT-4 对所有答案在各个维度上进行评分,并计算每个维度的平均分。PEER 在完整性、相关性、逻辑性、结构性和全面性等维度上表现优异,往往领先 1 分以上。在消融实验中,如表1和图 2 所示,PEER 在大多数维度上的得分都高于 PEE,在 GPT-3.5 模型下胜率达到 64%。然而,在 GPT-4o 模型下,审查智能体带来的优势减弱了,因为 GPT-4o 在处理、理解和表达方面天生就很出色。计划、执行和表达智能体的初始输出足以满足要求,进一步的修改影响不大。因此,PEER 的胜率下降到 46%,与 GPT-3.5 turbo (16k) 模型相比,GPT-4o 模型与两个框架之间的分数差异也缩小了。这表明,在基础模型性能较差的情况下,审查智能体可以显著提高整体质量。

 4.总结

该论文的主要贡献在于提出了PEER框架,一个创新的多智能体架构,用于分解、执行、表达和审查复杂的特定领域任务。PEER框架通过将任务分配到不同阶段的智能体来优化工作流程,不仅提升了复杂任务处理的效率和准确性,还在成本和性能之间取得平衡。此外,PEER框架的自我审查机制使其能够进行多轮反馈和优化,从而提高输出的准确性和连贯性,尤其在专业领域内具有较高的实用价值。未来,PEER框架可以进一步拓展至其他领域应用,例如医疗、法律和教育,提升其泛用性。还可以通过引入强化学习优化框架的迭代反馈流程,使智能体在复杂任务中更加自主灵活。此外,随着数据隐私要求的提升,PEER框架还可以整合差分隐私和联邦学习等技术,在保护用户隐私的前提下提升数据处理的安全性。这些拓展不仅能进一步提升框架的效率和表现,还将扩大其适用范围和用户信任度。

猜你喜欢

转载自blog.csdn.net/audyxiao001/article/details/143510350