目录
agent是一个相对灵活的概念,没有统一的定义,它可以根据个人需求进行设计。
1.Agent要解决的问题
agent根据命令执行任务,强调任务需拆分为多个流程完成。agent并非脱离大模型的新事物,而是利用大模型进行任务拆分和执行。agent在执行任务时,每一步都在利用大模型进行决策和行动。
2.Agent具有的基本能力
- Agent能完成一系列任务,与大型模型进行交互以获取结果。
- Agent的能力取决于被赋予的能力,主要包括感知、思考和动作。
感知能力
1.感知能力使Agent能够与环境进行交互,观察文本、语音和图像信息。 2.感知过程将环境反馈转化为提示,帮助Agent更好地完成任务。
思考能力
1.思考能力使Agent能够对感知到的信息进行总结和提炼,形成记忆。 2.思考过程结合任务目标,将感知信息转化为对Agent有价值的关键点。
动作能力
1.动作能力使Agent能够根据思考结果执行相应操作,如发送短信、上网搜索等。 2.动作设计的丰富程度决定了Agent的智能水平。
智能体的协作与咨询
1.智能体之间可以进行协作和咨询,共同解决问题。 2.智能体可以互相询问彼此的回答,以获取更全面的信息。
3.Agent与LLM的关系
agent作为实际执行者,通过感知、思考和动作不断调用大模型来完成任务,且需遵循预定义的框架和原则。然而,这一过程极其昂贵,因为大模型的调用成本高昂,特别是在多智能体环境中,智能体之间的交互会进一步增加成本。
4.多智能体
多智能体在完成任务中的角色、属性、使命及交互。
- 智能体在复杂任务中充当不同角色,如程序员、产品经理、架构师等,每个角色有独特属性和使命。
- 其次,强调标准化流程中,智能体应保持角色一致性,避免双重人格。
- 接着,智能体间需产生交互,交互顺序可预设也可由智能体自行决定,通过感知信息和使命来判断交互对象。
- 最后,提到多智能体系统在实际应用中的灵活性,如斯坦福AI小镇等项目,允许智能体在提示下自主思考和交互。
5.框架
当前流行的AI框架如auto GPT、mate GPT等虽被广泛使用,但都存在各自的局限性,且都在持续迭代更新中,没有完美的框架。其次,强调框架对于用户来说主要是学习理解其任务流程和逻辑,以便在框架基础上进行增删改查等操作。最后,提到框架中的key(如调用基座模型)的重要性,以及模型基础能力(感知、思考、动作、记忆)对下游任务的影响,指出即便在专业领域,模型的基础能力仍不可或缺。