一、Agent定义&区别:
1.1 定义
Agent(代理)一概念起源于哲学,描述了一种拥有欲望、信念、意图以及采取行动能力的实体。
在AI领域,被赋予了一层新的含义:具有自主性、反应性、交互性等特征的智能“代理”。能够基于目标和对现状能力的认知,在环境约束中,依赖特定资源和现有工具,找到行动规则并将行动拆解为必要的步骤,自主执行步骤,达成目标。
AI Agent智能体比较难理解,简单点,agent就好比你的私人代理。比如你是一家公司的总经理,那agent就是你的总经理助,你只需要给他设定目标和检查结果,其他都可交给他,他能把复杂流程的干的出色,还帮您分析给出最优建议,并最终向你汇报。
Al Agent 具备三个核心能力:
(1)独立思考: Al Agent 能够根据给定任务目标和约束条件,进行任务规划和问题拆解,形成执行步骤(即工作流);
(2)自主执行:能够调取各类组件和工具,按照执行步骤依次执行,实现任务目标;
(3)持续迭代: AlAgent能够自动记录任务目标、工作流和执行结果,基于结果反馈,沉淀专家知识和案例。
1.2 与Copilot 、LLM、RAG的联系&区别
(1)LLM,
Large Language Model,即 大语言模型,是基于海量文本数据训练的深度学习模型,能够生成自然语言文本、深入理解文本含义,并处理各种自然语言任务,如文本摘要、问答、翻译等。简单理解是语言的逻辑推理,
如我们常见的Chat GPT、文心一言、豆包、Kimi等 Agent 是智能体,LLM就是智能体的“大脑”,核心控制器,能提升AI Agent的理解力和泛化能力,使其能更好地处理多种任务和上下文信息。这增强了AI代理的自然语言处理能力,从而提供更个性化、连贯的交互体验。
AI Agent =LLM x (规划+记忆+工具+行动)
(2)RAG(Retrieval Augmented Generation)
即检索增强生成,通过结合大型语言模型与检索机制,显著提升了生成内容的准确性和相关性。其核心在于利用向量数据库存储和检索大量上下文信息,以辅助生成模型在生成文本时做出更明智的决策。
这种方法不仅提高了生成内容的质量,还增强了模型的解释性和可控性。在大模型时代,由于之前训练好的大模型数据没有跟新,为了解决LLM知识有限的问题,需要把外部的新知识提供给LLM进行学习,让它理解之后表达出来,这时候就需要用到RAG技术,RAG 通过加入外部数据(如本地知识库、实时数据等)来增强 AI 模型的检索和生成能力,提高信息查询增强过程和生成质量。比如:文心一言的插件服务,支持把实时又或者私有化知识提供给LLM。
(3)Copilot Al
Copilot 是微软推出的一款人工智能助手,基于大模型技术的智能化应用,不仅可以聊天,还能搜索、编辑文档,生成图像等,提升工作效率。AI Copilot 基于微软的 Prometheus 模型,该模型基于 OpenAI 的 GPT-4 构建,具备强大的文本生成和数据处理能力.
Copilot 需要人的指挥;Agent则是直接面对目标任务,具有自主记忆、推理、规划和执行的全自动能力,因此终极形态的AI Agent只需要用户的起始指令和结果的反馈,过程中并不需要人的介入。自主性是 Al Agent 和 Al Copilot 之间最大的区别。Al Copilot 是“副驾驶”,只是提供建议而非决策,Al Agent 是“主驾驶”需要真正做出决策并开展行动。
(4)三者的联系
AI Agent 会利用 LLM 的推理能力,把问题进行拆解,形成一个一个的小问题,并定义好这些小问题之间的前后关系,先处理哪个,再处理哪个。然后按照顺序,调用 LLM 、 RAG 或者外部工具,来解决每一个小问题,直至解决最初的问题。
Copilot是 Agent 的发展过程和探索,是单纯的copilot,基于企业自身的决策进行智能辅助、智能决策,还是最终呈现出Agent的形态。业界一个形象的比喻,如果说copilot是单纯的二维世界,那么Agent则是三维空间,从二维到三维,需要的不再是scaling law的强大魔力,而更多是业务关系的本质理解,即产业大模型的训练和出发点应该是什么。
1.3 AI Agent分类
1.3.1 吴恩达-反思/工具/计划/multi
机器学习大佬吴恩达曾在演讲中将AI Agent分为如下四类:
反思系统 Reflecttion
定义: 一种通过自我反思方式,帮助模型不断改进输出质量的编排系统。这种方法模仿了人类在完成任务时的思考和修正过程,使得模型推理能力更强,结果更可靠。
举例: 这种编排系统特别适合输出高质量的文案,比如我们上面提到的AI Agent编写文案的例子就是这种反思系统的模式。著名的国外平台:Grammarly 就是利用了编排系统,调用强大的AI大模型进行写作,同时它不断反思检查你的拼写、语法和标点符号,通过多模型提供的句子结构和语言流畅性的建议进一步优化输出更好的效果。
工具调用系统 Tool Use
定义: 让大语言模型在生成答案或解决问题的过程中,调用外部工具(如计算器、数据库、搜索引擎等),以完成自身无法直接处理的任务。
举例: 现在的大语言模型更多的只是文本的生成和回答,工具调用系统可以通过调用工具弥补大语言模型的不足,扩展模型的功能。
计划系统 Planning
定义: 模型在解决复杂问题时,为实现目标制定合理的步骤或行动计划的能力。让大模型在面对复杂任务时,能像人一样制定计划、分解问题、逐步执行。
举例: Image Describer X图片描述网站 在处理我们图片时会使用模型制定计划,如果我们想输入一张小女孩读书的图片并进行描述,Image Describer X会进行如下行为:调用openpose model提取小女孩读书的动作调用Google Vit模型把动作转化为图片调用Vit-GPT2模型把图片转成文字调用fast speech模型把文字转成语音这种AI Agent就像我们人类一样把大问题拆分成小问题,并制定计划解决。它更贴近真实智能的行为,可以处理广泛复杂任务。
Multi-Cast Multi Agent 系统
定义: 最复杂的Agent系统,利用了多个Agent智能体,在共同目标的指导下,通过分工、协作和交互来完成任务或解决问题的过程。
举例: 2023年7月,清华大学 NLP 实验室联合面壁智能、北京邮电大学、布朗大学的研究人员共同发布了一个大模型驱动的全流程自动化软件开发框架 ChatDev (Chat-powered Software Development),加入 OpenBMB 大模型工具体系。ChatDev 是一个由多智能体协作运营的虚拟软件公司,在人类“用户”指定一个具体的任务需求后,不同角色的智能体将进行交互式协同,包括产品智能体设计方案,UI智能体设计界面,程序员智能体实现效果,测试智能体评估代码来生产一个完整软件(包括源代码、环境依赖说明书、用户手册等),直观上来说这种机制和软件公司并无两样,也是多智能体Agent系统的表达形式之一。
具体的项目体验可参考chatdev的github: https://github.com/OpenBMB/ChatDev
1.3.2 按智能水平分类
简单反射 Agent:基于简单的“条件-行动”规则,直接根据当前感知信息做出反应。例如:自动避障机器人。
基于模型的反射 Agent:在简单反射 Agent 的基础上,维护一个内部模型以跟踪环境状态。例如:自动驾驶汽车。
目标驱动 Agent:根据预设目标选择行动,能够规划未来行动。例如:路径规划机器人。
效用驱动 Agent:在目标驱动的基础上,引入效用函数以评估行动的效果。例如:个性化推荐系统。
学习型 Agent:能够通过机器学习算法从经验中学习,不断优化决策策略。例如:AlphaGo。
1.3.3 按环境类型分类
静态环境 Agent:环境在 Agent 行动过程中不会发生变化。例如:解谜游戏 AI。
动态环境 Agent:环境在 Agent 行动过程中会发生变化。例如:自动驾驶汽车。
离散环境 Agent:环境状态和行动是离散的。例如:棋盘游戏 AI。
连续环境 Agent:环境状态和行动是连续的。例如:机器人控制。
1.3.4 按协作方式分类
单 Agent 系统:单个 Agent 独立完成任务。例如:智能音箱。
多 Agent 系统:多个 Agent 通过协作完成任务。例如:无人机编队。
二、 AI Agent 的发展
目前 AI Agent 已经在B端大量使用,按照AI在企业的业务流程智能化程度,可以将 Al Agent 分成四个阶段:执行者、辅助者、参与者、协调者。
第一阶段:“执行者”,按照既定规则和流程执行任务,不具备决策和调整流程能力,适用于重复性高场景;
第二阶段:“辅助者”,能够根据实际情况提供相关信息和建议,辅助业务人员做出决策;
第三阶段:“参与者”,具备一定自主决策能力,能够基于实际情况调整业务流程中的某些环节优化整个流程,但还是基于一定现有流程框架实现:
第四阶段:“协调者”,能够深入理解业务流程的目标和本质,根据环境条件变化,提出全新业务流程设计方案,执行到位,达成业务目标。
当前在B端企业办公等少数应用场景已经达到“参与者”阶段,还未出现“协调者”阶段应用。
另外,我们以感知能力、认知能力、执行能力、规划能力 4个维度来评判,AI agent 从单一的感知、利用督促来获得认知、半自动化的执行和规划,到超高精准的感知、利用环境自主学习提升认知、100%全面自动化执行计划和反思能力的迭代(类似于智能汽车无人驾驶的L1向L4完全无人驾驶趋势发展)
未来,其工作范式也将从面向过程VS面向目标转变,从以人为中心到以人为辅助的智能进化。
2.1 人类和AI的协作模式经历了三个阶段
Embedding模式下:人类完成绝大部分工作,类似向AI询问意见,了解信息,AI提供信息和建议但不直接处理工作。
copilot模式下:人类和AI进行协作,各自承担的工作量相当。AI根据人类的prompt完成工作初稿,人类进行目标设定,修改调整,最后确认。
到了Agent摸式:AI直接“独立上岗”了——它能自己记住任务、分析问题、制定计划并执行,完全不需要人类插手。比如,你只需要告诉AI Agent“帮我订一张去北京的机票”,它就能自己搞定后面的所有步骤,完全不用你操心
Function Calling解决"怎么调用外部函数",
MCP+解决"大量外部工具如何高效接入",
AlAgent解决"如何自主完成复杂任务"。
2.2 agent等级
L0-没有人工智能;
L1-规则符号智能;
L2-推理决策智能;
L3-记忆反思智能;
L4-自主学习智能;
L5-个性群体智能。
2.3 AI 智能体系统中的关键模式
2.3.1 链式工作流(Chain Workflow)模式
链式工作流将多个步骤按线性序列组织,一个步骤的输出作为下一个步骤的输入。
它提供了清晰的控制力,并允许一定程度的适应性。
适用于具有明确顺序步骤的任务,每个步骤都基于上一步的输出。
链式工作流通过链接提示或任务来提高处理的准确性。
这种模式将任务按顺序组织,每个任务的输出作为下一个任务的输入,形成一个连续的处理链。
例如,在新闻推荐系统中,工作流可能首先涉及检索用户偏好,然后将这些偏好作为输入来获取和分析新闻。这是一个典型的链式任务,其中用户偏好的输出直接作为新闻检索的输入。
适用场景:
任务具有明确的顺序步骤;
需要通过延迟换取更高的准确性;
每个步骤依赖于上一步的输出。
2.3.2 并行化工作流(Parallelization Workflow)模式
此模式通过同时执行多个任务来提高数据密集型操作的效率,
适用于需要同时处理大量信息的场景。
对于需要快速响应和处理大量信息的应用中特别有用,如大数据分析、实时监控和复杂决策支持系统。
并行化工作流模式涉及同时执行多个任务或处理多个数据集,以提高处理速度和效率。
这种模式适用于可以独立并同时进行的任务,允许系统资源得到充分利用,从而减少总体处理时间。
例如,在一个金融分析项目中,可能需要同时分析股票市场、外汇市场和商品市场的数据。通过将这些分析任务分配给不同的LLM调用(如LLM Call 1、LLM Call 2和LLM Call 3),每个调用可以并行处理其分配的市场数据。然后,一个聚合器组件将收集这些并行任务的结果,并整合成一个全面的分析报告。
适用场景:
处理大量相似但独立的项目;
需要多个独立视角的任务;
任务可并行化且对处理时间要求较高。
2.3.3 路由工作流(Routing Workflow)模式
路由工作流根据输入条件动态指导执行路径,使系统能够在没有预定义序列的情况下适应不同情况。
路由工作流根据输入智能地将任务路由到专用流程。这种模式允许系统根据输入的不同特征或条件,动态地选择不同的处理路径。
例如,一个金融服务平台可能根据用户感兴趣的主题(如“crypto”或“stocks”)将请求路由到不同的API端点。这是路由工作流的一个示例,其中输入的主题决定了请求的路由路径。
适用场景:
任务具有不同输入类别且复杂;
不同输入需要专门处理;
可以准确分类输入。
2.3.4 编排器-工作者(Orchestrator-Worker)模式
编排器 AI 将任务委派给多个专门的工作者智能体,每个智能体负责不同的功能(例如,数据检索、分析、摘要)。
编排器-工作者模式中,中央AI(编排器)负责将任务分配给专门的子进程(工作者)。这种模式允许系统将复杂的任务分解为多个子任务,并分配给不同的工作者来并行处理。
例如,在新闻分析项目中,服务可以充当编排器,与AI模型协调新闻检索和分析。AI模型(如OpenAI的ChatModel)作为文本分析的专用工作者,负责处理特定的分析任务。
适用场景:
任务复杂且无法预先预测子任务;
需要不同方法或视角的任务;
需要适应性问题解决的情况。
2.3.5 评估器-优化器(Evaluator-Optimizer)模式
评估器负责评估智能体输出的质量,优化器则根据反馈改进未来的响应,从而随着时间推移提高准确性。
评估器-优化器模式使用LLM进行迭代评估和优化。这种模式允许系统通过不断的评估和优化来改进任务的处理效果。
例如,在新闻内容分析中,可以通过AI模型总结和分析新闻,这可以视为一种内容评估和改进的形式。AI模型不断评估新闻内容的质量,并根据评估结果优化分析策略。
适用场景:
存在明确的评估标准;
迭代优化可以提供可衡量的价值;
任务受益于多轮反馈和优化。
三、 AI Agent核心模块
3.1 核心概念
感知(Perception):通过传感器获取环境信息(如视觉、听觉、触觉)。
决策(Decision Making):根据感知信息和内部状态,选择最佳行动策略。
执行(Action):通过执行器对环境产生影响(如移动、发声、操作物体)。
目标(Goal):Agent 的行为是为了实现特定目标(如完成任务、优化性能)。
3.2 组成部分
一个典型的 AI Agent 包括以下组成部分:
(1)传感器(Sensors)用于感知环境信息,例如摄像头、麦克风、雷达、温度传感器等。
(2)执行器(Actuators)用于执行行动,例如机械臂、电机、扬声器等。
(3)处理器(Processor)包括计算单元和算法,用于处理感知信息、做出决策并控制执行器。
(4)知识库(Knowledge Base)存储 Agent 的知识和经验,用于支持决策。
(5)通信模块(Communication Module)用于与其他 Agent 或系统进行交互和协作。
AI Agent 核心四大模块的: 记忆、规划、工具和执行,我们认为,需要重点关注的是记忆、规划和工具相关组件的建设。
3.3 规划
“规划”充当着智能体的“思维模式”。
如果用人类来类比,当接到一个任务时,我们的思维模式可能会像下面这样:
首先会思考怎样完成这个任务。
然后会把任务拆解成多个子任务分步进行。
接着评估现有工具能够帮助我们高效达成目的。
在执行任务的时候,我们会对执行过程进行反思和完善,以持续调整策略。
执行过程中思考任务何时可以终止。
因此,我们可以通过 LLM 提示工程(Prompt),为智能体赋予这样的思维模式。
比如:在编写Prompt的时候运用ReAct、CoT等推理模式,引导LLM对复杂的任务进行拆解,拆分为多个步骤,一步步思考和解决,从而使输出的结果更加准确。
3.4 记忆
仿照人类的记忆机制,智能体分为了两种记忆机制,包含短期记忆和长期记忆,
短期记忆:所有的上下文学习都是利用模型的短期记忆来学习的。反应的是 Agent 的当前情况,即在执行任务和与环境交互时产生的信息和数据,它存储了 Agnet 最近的感知输入、目标以及中间内部推理的结果;
长期记忆:为 Agent提供了在较长时间内保留和调用(无限)信息的能力,通常是通过利用外部向量存储和快速检索。包括语义记忆、程序记忆和情景记忆。其中,语义记忆是可用自然语言描述的记忆;程序记忆是企业内部的业务流程与 SOP; 情景记忆是过去业务情景的复现。
3.5 工具
智能体具备感知环境与决策执行的能力,这离不开“神经感官系统”的帮助,“工具”便充当着这个角色。
智能体通过工具从周边环境获取到信息(感知),经过LLM处理后再使用工具完成任务(执行)。所以我们需要为智能体配备各种工具以及赋予它使用工具的能力。
比如:通过调用软件系统不同应用模块的API,获取到指定的业务信息,以及执行业务的操作权限。通过调用外部的插件工具,来获取原本LLM并不具备的能力,如:文心的Chat files插件获取文档解析能力;扣子的ByteArtist插件获取文生图能力等。这里便运用到了上文提及的RAG相关技术
分成执行类工具、算法类工具和信息类工具。
执行类:主要是成熟应用程序,如计算器等,弥补大模型的能力短板(不擅长数值计算等问题);
算法类:包含规则引擎算法、机器学习算法、深度学习算法以及基于大模型开发的 AI 算法;
信息类:主要是具备实效性工具,解决大模型信息滞后问题(如天气、日历等)。
综合来看,【记忆】和【规划】是当前学术概念下的关键功能点,但受限于市场发展早期,在实际的商业产品落地中【记忆】和【规划】能力未必能完全呈现。
3.6 行动(Action)
智能体基于规划和记忆来执行具体的行动,这可能包括与外部世界互动,或者通过工具的调用来完成一个动作,具体来说就是一个输入(Input)任务的最终输出(Output)。如:实体AI机器人完成一个“鼓掌”动作的任务;又或者软件系统中,由AI助手创建一个待办任务。
五、AI Agent产业链分析
AI Agent产业链
上游可以分为基础设施与技术供应商;
中游为 AI Agent研发与集成商,主要可以分为系统集成厂商、软件开发厂商以及解决方案供应商,其中目前大部分企业正在处于优化产品和探索应用场景阶段;
下游主要为应用与终端客户。
5.1 上游:基础设施与技术提供商
国内主要可以分为AI芯片、服务器集成厂商、算法框架、大模型厂商、数据服务商以及云计算平台等
(1)算法框架:业内通常使用谷歌Tensorflow和脸书Pytorch作为AI算法框架,昇思MindSpore于2023年打造业界首个AI融合框架,提供全面的分布式并行能力。
(2)大模型:AI Agent的核心驱动力是大语言模型。因此,大型的开发者在产业链中占据重要地位,提供基础模型和算法支持,使得AI Agent能够具备感知、理解、决策和执行的能力。
2024年国产大模型前十名单:字节豆包、月之暗面Kimi、百度文心一言、清华智谱AI、科大讯飞讯飞星火、昆仑万维天工等
(3)AI 芯片 :是灵魂,当前主流的AI agent 芯片主要分为三类,GPU、FPGA、ASIC:
①、GPU:英伟达NVIDIA一家独大,占据81%的市场份额,其次是AMD和Intel,分别占据18%和1%的市场份额;国内厂商:寒武纪、景嘉微、海光信息、天数智芯,功能和应用领域等方面都有了提升;
②、ASIC :博通AVGO、美满电子MRVL 两家全球巨头;国内寒武纪、芯原股份、嘉楠科技 CAN 也在奋力直追;
③、FPGA:安路科技是国内FPGA业务领军企业;复旦微电是FPGA芯片重要供应商。
(4)服务器: 国内龙头公司:inspur浪潮、 Sugon 中科曙光和华为;
(5)数据服务:国外:澳大利亚的Appen;国内:浪潮 、 标贝科技是龙头
5.2 中游
AI Agent研发与集成商:负责将大模型与其他技术组件(如规划、记忆、工具使用和行动模块)相结合,开发出具有特定功能和应用场景的 AI Agent产品。通常拥有强大的研发团队和技术实力,能够不断优化和迭代产品以满足市场需求。
(1)系统集成:国内头部是–联想 、科大讯飞、用友 、钉钉 、 况客科技、 Moka公司
(2)软件平台开发:面壁智能 、实在智能、汇智智能 、澜码科技 、联汇等都是国内不错的公司;
(3)解决方案提供商: 华为云 、百度智能云、 阿里云、 腾讯云 京东云 天翼云等国内公司。
5.3下游
应用厂商:AI Agent的应用场景广泛,包括智能客服、个人助理、自动驾驶、软件开发、财务管理等多个领域。应用厂商根据不同行业和场景的需求,利用A Agent 技术开发出各种应用产品和服务,直接面向终端用户,负责产品的推广和销售。
(1)应用开发者:旷视、海康微视、云从科技、云知声等巨头
(2)行业服务商:科大讯飞、地平线、海尔智家、大疆、格灵深瞳等企业
5.4 科技公司AI Agent的探索
腾讯: 腾讯元器开放的智能体模式就是AI Agent的典型应用,大家可以通过外部插件(tool use), 大模型流程编排(planning)等方法构建智能体,大家也是施展聪明才智构建了包括PPT助手,育儿助手等各种各样的智能体,大家可以体验一下~
谷歌:2024年5月,谷歌就发布了一个震撼的AGI系统 Astra将AI Agent的能力集中在手机摄像头上,通过手机的摄像头让Astra对所有听到、看到的东西进行解读。可以点击扬声器、画笔、代码让其解释用途和含义,是典型的Multi Agent 多智能体应用。
演示视频可见: https://www.bilibili.com/video/BV1AUqbYWE1q/?spm_id_from=333.337.search- card.all.click&vd_source=a6085a5a7095d4f45688516622c0911c
5.5 一些agent平台
FastGPT:
优势:专注知识库与问答系统,工作流编排灵活,适合企业级深度定制(如金融、医疗领域的数据分析)。
局限:模型接入复杂,生态扩展性较弱。
Dify:
优势:低门槛开发,多模型兼容,适合国际化团队与复杂自动化流程(如跨境电商客服)。
局限:国内品牌知名度较低,功能模块标准化程度高,灵活性稍逊。
Coze:
优势:用户友好,插件生态丰富,集成国内大模型,适合C端场景(如在线教育、电商客服)。
局限:跨平台集成能力弱,依赖字节生态。
本地化私有部署,可以选择Ollama\LM studio+Dify\Anything LLM\Cherry Studio
5.6 AI Agent构建形式。
一、Prompt与插件结合的方式利用prompt定义Agent人物特性与行为模式,再结合各种插件来强化和扩展功能,是当前的主流智能体开发策略,典型代表就是OpenAI的GPTs。现在市面上的类GPTs产品比如Coze、文心智能体等,都是用这种方式实现Agent开发。
其优势在于搭建过程的高效性,开发者仅需要输入大致主题方向,平台就可以根据这个主题自动生成一套全面且详尽的人物设定和行为Prompt,极大地提升开发的速度和便捷性。不足之处在于它难以应对逻辑复杂且对稳定性有较高要求的任务流程。在面对这类任务时,可能无法满足需求。二、基于workflow的工作流构建方式通过流程图来详细编排Agent的工作流程,是一种更为结构化且清晰的Agent构建方法。Voiceflow和Dify.AI都是这种方式代表性产品。这种开发方式的主要优势在于能够设计出非常复杂且庞大的工作流程,利用意图跳转、条件分支(if/else逻辑)、循环等逻辑结构,可以构建出企业内部非常复杂且精细的业务流程。
六、构建一个AI Agent
6.1 选择正确的大模型(LLM)
挑选合适的大模型对于 AI Agent 智能体达到预期的性能表现至关重要。
在决策过程中,需要考虑多个因素,如许可协议、成本和语言兼容性。
在构建 LLM Agent 时,最关键的考量是模型在编码、工具调用和推理等核心任务上的表现。
以下是一些用于评估的基准:
大规模多任务语言理解(MMLU)(用于推理能力);
伯克利函数调用排行榜(用于工具选择和调用);
HumanEval 和 BigCodeBench(用于编码能力);
另一个重要的考量因素是大模型的上下文窗口大小。AI Agent 智能体的工作流程可能会消耗大量 token——有时甚至达到10万或更多——因此,更大的上下文窗口将非常有益。
以下是一些你可能需要考虑的大模型:
闭源模型:GPT4-o、Claude 3.5
开源模型:Llama 3.2、Qwen 2.5通常情况下,大模型越大,性能表现越佳,但能够在本地运行的较小模型也是一个不错的选择。对于较小的模型,你可能只能处理更简单的用例,并且可能只能将你的 AI Agent 智能体与一两个基础工具相连接。
6.2 定义 AI Agent 智能体的控制逻辑
简单 LLM 与 AI Agent 智能体之间的核心差异体现在系统提示词(System Prompt)上。
在 LLM 的情境中,系统提示词是在模型开始处理用户查询之前,提供给模型的一系列指令和背景信息。可以在系统提示词中明确 LLM 所应展现的 AI Agent 智能体行为。
以下是一些常见的 AI Agent 智能体模式,它们可以根据您的具体需求进行调整:
工具使用:AI Agent 智能体判断何时应将查询导向适当的工具,或者何时依赖自身的知识库。
反思:AI Agent 智能体在向用户回复之前,会审视并修正其答案。大多数 LLM 系统也可以加入反思步骤。
推理后行动(ReAct):AI Agent 智能体会不断推理如何解决查询,执行操作,观察结果,并决定是否需要采取进一步行动或给出回应。
计划后执行:AI Agent 智能体会预先规划任务,如有必要,将任务分解为子步骤,然后逐一执行这些步骤。最后两种模式(ReAct 和计划后执行)通常是构建多功能单一 AI Agent 智能体的良好起点。为了有效地实现这些行为,需要进行一定的提示词工程(Prompt Engineering)。你可能还需要利用结构化生成技术。这实质上是指引导 LLM 的输出,使其符合特定的格式或模式,以确保 AI Agent 智能体的响应与您期望的沟通风格保持一致。
6.3 定义 AI Agent 智能体的核心指令
我们常常默认 LLM 拥有一系列即时的功能。虽然某些功能可能非常出色,但也有一些可能不完全符合我们的期望。为了实现我们所追求的性能,在系统提示词中详尽地阐述我们希望包含和排除的功能至关重要。
这可能涉及以下指导:
AI Agent 智能体的名称和角色:指定 AI Agent 智能体的名称及其用途。
语气和简洁度:确定 AI Agent 智能体的回应应该是正式还是非正式,以及回应的简洁程度。
使用工具的时机:明确何时应依赖外部工具而非模型自身的知识库。
错误处理:指导 AI Agent 智能体在遇到工具或流程问题时应采取的行动。
6.4 定义并优化你的核心工具
工具为你的 AI Agent 智能体提供了超乎寻常的能力。通过使用一组精心定义的工具,你可以实现多样化的功能。其中不可或缺的工具包括代码执行、网络搜索、文件读取和数据分析。
对于每一项工具,你需要定义以下内容,并将其纳入系统提示词的一部分:
工具名称:为功能提供一个唯一且具有描述性的名称。
工具描述:清晰地阐述工具的作用及其适用场景。这有助于 AI Agent 智能体判断何时应该选用该工具。
工具输入格式:描述必需和可选参数、它们的类型以及任何相关限制的格式。AI Agent 智能体将根据用户的查询使用这些信息来填充所需的输入。关于工具运行位置或方法的指示词。在某些情况下,你可能需要优化工具以达到预期的性能。这可能包括对工具名称或描述进行快速工程调整、设置高级配置以处理常见问题,或者对工具的输出进行筛选。
6.5 制定可靠的记忆处理策略
LLM 受限于其上下文窗口,即它们一次能够“记住”的令牌数量。这种记忆空间很快就会被多轮对话中的历史交流、冗长的工具输出或 AI Agent 智能体依赖的额外上下文所充满。因此,确立一个有效的记忆管理策略至关重要。
在 AI Agent 智能体的框架内,记忆涉及系统存储、检索和利用过往互动信息的能力。这允许 AI Agent 智能体随时间维持上下文,基于先前的交流优化其响应,并交付更加定制化的体验。
常见的记忆管理策略包括:
滑动记忆:保留最近 k 轮对话回合的记忆,并移除较早的对话回合。
令牌记忆:保持最后n个令牌,遗忘其他令牌。
总结记忆:利用 LLM 对每个对话回合进行总结,并移除单独的消息。此外,可以训练 LLM 识别关键信息以存储在长期记忆中。这样,AI Agent 智能体就能“记住”关于用户的重要细节,从而提供更加个性化的体验。
6.6 解析 AI Agent 智能体的原始输出
解析器是一种功能,它负责将原始数据转换成应用程序能够理解和操作的格式,例如带有属性的对象。
在构建我们的 AI Agent 智能体时,解析器需要辨识在第二步中设定的通信结构,并且输出结构化数据,例如 JSON 格式。这样做可以让应用程序更轻松地处理和执行 AI Agent 智能体的后续动作。
注意:某些模型供应商(例如 OpenAI)可能默认提供可以直接解析的输出。而对于其他模型,尤其是开源模型,可能需要额外的配置来生成可解析的输出。
6.7 安排 AI Agent 智能体下一步行动
最终步骤是确立编排逻辑。这一逻辑决定了在 LLM 产生输出之后将发生什么。
基于输出内容,你可以执行以下操作:调用工具,或者
返回答案 — 这可以是针对用户查询的直接回应,或者是请求更多信息的后续动作。当触发工具调用时,工具的输出会被送回给LLM(作为其工作内存的一部分)。随后,LLM将决定如何处理这些新数据:是进行另一个工具调用还是向用户给出答案
6.8 多 AI Agent 智能体的设计
尽管当前的 LLM 非常强大,但它们面临一个主要的挑战:处理信息过载的能力有限。过多的上下文或工具使用可能会导致模型负担过重,进而影响性能。
单一的通用 AI Agent 智能体最终可能会触及这个极限,尤其是考虑到 AI Agent 智能体对 token 的巨大需求。
在某些情况下,采用多 AI Agent 智能体架构可能更为合适。通过将任务分配给多个 AI Agent 智能体,可以避免单个 LLM Agen t的上下文过载,并提升整体的运作效率。
尽管如此,单一的通用 AI Agent 智能体架构是原型设计的极佳起点。它允许你快速验证用例并识别系统开始出现问题的点。
通过这个过程,你可以:
了解哪些任务部分真正从 AI Agent 智能体方法中受益。
确定可以在更复杂的工作流程中作为独立模块分离的组件。
从单一 AI Agent 智能体出发可以提供宝贵的洞见,这些洞见在扩展到更复杂的系统时有助于优化你的方法。