OpenAI定义了通往AGI路上的五个阶段。
第一个阶段chatbot的代表是GPT-3.5/Gpt-4等Large Language Model (LLM)。
第二个阶段reasoner的代表是o1/o3等Large Reasoning Model (LRM)。
最近的发布Operator和Deep Research,则标志了第三阶段Agent的到来。值得关注的是,OpenAI开始采用可替代的人类专家工时作为模型能力评估标准。即使模型仅具备平均人类水平的工具使用能力,与AI的信息获取和处理效率结合后,仍可能带来生产力质的飞跃。
如之前所讨论的,Operator和Deep Research背后的技术应该不是简单地将现有的LLM或LRM与ReAct、Reflextion等agentic工作流结合,而是模型能力的进一步升级。
那么,从推理模型到Agent增强了什么能力?OpenAI声称对o3模型的工具使用能力做了端到端的强化学习。我们把这种在推理过程中链式地调用工具的能力称为行动链(Chain-of-Action, CoA),并把这种经过行动链学习的推理模型称为Large Agent Models (LAMs)。
AutoCoA是一种通过CoA学习训练agent模型的方法,其结合了SFT和RL将CoA生成能力内置到模型行为中。在开放域问答任务上的结果表明,经过 AutoCoA 训练的Agent模型在任务完成率上显著优于Agent工作流。
论文、代码和数据集地址:https://github.com/ADaM-BJTU/AutoCoA
1. Agentic工作流 vs. Agent模型
Agent的两个核心能力是任务规划和工具使用。推理模型实现了任务规划的行为内化,在此基础上继续增强和内化了工具使用能力的推理模型就是Agent模型。
结合推理模型的发展来理解agentic工作流和agent模型的关系。Reasoner需要在系统一LLM基础上增加生成思维链CoT(Chain-of-Thought)的能力。一种方法是通过 prompting-based的方法,利用CoT、ToT等in-context learning来“强迫”模型生成多步思考,这类统称为CoT prompting。
另一种是基于学习的方法,无论是只SFT、先SFT再RL,还是直接RL,得到以o1为代表的推理模型。与工作流方法相比,这种方式产生的思维链逻辑性更强,并可以递进式地生成更深入的内容。
同样的,Agent需要进一步增加生成行动链CoA(Chain-of-Action)能力 此前的agentic 工作流的方式使用的也是prompting-based的方法,思考和行动的切换依赖预设的工作流,基于提示词框架实现,是一种“被动”的行为。
而agent模型将耦合的思维链(CoT)和行动链(CoA)模式内化为其行为,模型 “主动”地决定何时以及如何行动,因而可以实现更强思考与行动之间的逻辑连贯性,支撑更长链的思考-行动循环,解决更复杂的任务。
2. Agent模型的定义
Agent 模型是在推理模型基础上通过端到端的面向任务的工具增强训练得到的。它能够自动生成耦合的CoT思维链和CoA行动链序列。其中每个动作调用工具与外部环境交互,交互得到的反馈指导后续的推理和动作,直至任务完成。
Agent 模型增强了使用工具的能力,这要求模型不局限于自身内部的推理行为,而能与外部环境进行交互。Chatbot和Reasoner仅关注人与模型之间的二元交互。
而Agent 模型要求能够同时进行思考与行动,形成了由人、模型和环境构成的三元结构:使用工具与环境进行交互以获得反馈,经过多轮的思考、行动和observation后,最终生成回复。
这里有个问题:如果模型在预训练阶段已经具备了工具使用能力,并继承到了推理模型中,还需要进行专门的CoA学习么?即CoT+A是否可以自然地获得CoA的能力?
当预训练基座模型的工具使用能力和推理模型的推理能力较强时,这是有可能的。
讨论更一般的情况:预训练阶段的工具使用更多的关注的还是单步行动能力,适合处理孤立的任务,有点像对特定技能的学习;而CoA学习面向任务执行端到端训练,学会执行一连串相互依赖的动作,形成逻辑性强、目标导向的行动序列,更像是对技能的综合应用。
用研究生写研究论文打个比方。研究生通过前期训练已经学会了科研和论文写作中的基本技能或工具,比如查阅文献、做实验、绘制图表等。但只有从头到尾完整地完成一篇论文的研究和写作,才能真正掌握如何整合这些单个技能完成一个复杂的任务,比如需要根据导师反馈查阅新的文献、基于新文献修正方法、根据修正的方法重新设计实验等。
3. Agent模型训练的难点
Agent模型通过对推理模型进行端到端的训练,学会在推理过程中序列使用工具与外界互动。这里有两个难题:
问题一:平衡思考与行动
推理模型擅长一步步思考,但在增强其行动能力时,可能会遗忘原有的推理能力。更关键的是,模型需要学会在推理过程中自主判断何时该行动。例如,当判断自己知识不够时,能主动触发搜索工具从外部获取信息,再根据工具反馈继续推理,形成“思考-行动-再思考”的闭环。
问题二:处理与外部环境的交互
让模型通过工具与真实世界交互(如调用搜索引擎)成本高、效率低、甚至有风险。而且环境的动态变化也增加了训练的困难。比如,在线强化学习时,网络延迟、搜索结果波动都会导致训练不稳定。
以OpenAI的Deep Research为例:其核心能力是通过网络搜索完成复杂研究任务,就需要解决上面两个问题:
(1)知识边界的判断:模型需要自主判断“什么时候该查资料”——既不能过度依赖搜索,也不能盲目自信;需要清楚自己的短板,并在合适的时候采取行动
(2)动态环境的适配:调用搜索引擎要花时间和资源,成本高、效率低,而且网络环境一直在变,如何在有外部环境交互的情况下进行高效RL训练?
4. Agent训练框架:AutoCoA
我们以开放领域问答任务为例,限定仅使用网页搜索工具,探索了一种训练Agent模型的方案:AutoCoA。
AutoCoA包括两个阶段:SFT手把手教模型何时以及如何调用工具,RL面向任务目标优化多步思考和行动的整体决策。
为了解决平衡思考与行动的问题,AutoCoA在 SFT 和 RL 阶段均混入不调用工具的纯链式思考(CoT)数据,确保模型不会遗忘自身的推理能力,并能根据任务难度自适应决定是否调用工具。
同时,AutoCoA将when to action和how to action在SFT中分成两个阶段分别教模型:先在step-level设计对比损失训练模型学会何时调用工具,然后在trajectory-level训练模型生成工具参数。
为解决和环境交互的问题,AutoCoA让模型学习一个内置的世界模型来模拟环境。首先在SFT 最后增加了一个阶段,训练策略模型模拟工具调用并生成相应的observation。
然后在 RL 阶段,模型先大量地基于策略模型自行生成observation进行roll out,以快速收敛;然后进行少量实际工具调用与真实环境交互,确保模型能够适应真实场景。
5.实验结果
在6个开放域问答数据集进行了测试,对比了model only、agentic workflow两类baseline。Agent model: SFT和Agent model: RL是AutoCoA的不同变种方案。
经过CoA学习的各种agent模型方案都显著好于agentic workflow。加入step-level对比学习的SFT-stage1也对训练起到了明显的作用。
在RL过程中,通过内置世界模型和真实世界交互的比例是5:1,最终全真实世界交互(表中SFT-1&2+RL-2)的结果要稍优于内置世界模型+真实世界交互(表中SFT-1&2&3 + RL-1&2)。
我们同时分析了AutoCoA在处理需要多步行动的任务中的作用。在工具调用次数(#action)增加时,agent模型经过了面向任务的端到端训练,学习了的思考与行动之间的切换模式,展现出了支持更长思考/行动轮次的能力。
6.结论和未来工作
随着语言建模和逻辑推理能力的提升,Deep Research仅使用网络搜索和文档解析等基本工具就完成了高度复杂的任务。这展示了一种通用的agent训练方法:一旦模型的推理能力超过某个阈值,为其提供一些简单的工具和一个在受控环境内可验证的任务目标,就能实现Claude 3.7官方博客所描述的“action scaling”。
AutoCoA只是训练agent模型的的初步尝试,包括改进的CoA数据合成、纯RL路线、新的融合CoT和CoA的损失设计和RL奖励等都值得继续探索。
从任务上,也要探索如何训练没有明确结果的、开放式任务的agent模型。以及像训练领域推理模型那样,应用强化微调针对特定任务和专业工具,微调通用agent模型获得领域agent模型。
以Deep Research代表的知识研究功能为例,结合agent路线图,下一步发展方向是customized deep research,这要求上述agentRFT技术的成熟。
对研究人员和一般开发者的一个问题是,目前的开源推理模型的工具使用能力、特别是多轮工具使用能力普遍较弱。
如前所述:当预训练基座模型的工具使用能力和推理模型的推理能力较强时,有可能直接RL或者在推理模型中会自然涌现出CoA能力。这也再次体现了预训练和后训练交替增强、共同促进模型能力提升的规律。
Claude3.7提出了混合推理的概念:同一个模型同时具备Level 1: 系统一快思考和Level 2: 系统二慢思考推理的能力。或许在未来,从LLM到LRM再到LAM的演进也是一个平滑的连续谱,不需要再严格区分。
从Level1到Level3,本质上是同样的模型,只是在面对不同功能需求时设计出的不同产品形式。
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】