五、 AI Agents如何与环境交互?
上述交互循环通常被称为“感知-规划-行动”循环(Sense-Plan-Act Cycle)或“感知-行动”循环(Perception-Action Cycle)。我们以自动驾驶汽车为例,分阶段理解这一过程:
-
感知阶段
将以下视为智能体的 "感知 "阶段: Sensors → Processing → State Update。智能体通过传感器接收输入,处理和解释信息,根据新信息更新当前状态。 -
决策阶段
这是智能体的 "思考 "阶段:Current State + Goals → Evaluate Options → Select Best Action。
智能体评估可能采取的行动,通过考虑目标和制约因素,根据现有信息选择最佳行动。 -
行动阶段
这是智能体采取行动的阶段:Execute Action → Observe Changes → Begin New Cycle。
智能体通过执行器执行所选动作,环境因此发生变化,Agent通过传感器观察结果,开始新的循环。
这种循环不断重复,往往每秒重复多次。这种循环的强大之处在于:
- 适应性:如果出现意外情况,智能体可以在下一个感知阶段检测到,并相应调整行动。
- 学习机会:智能体可以将预测结果与实际结果进行比较,以改进未来的决策。
- 目标导向行为:每个循环都会使智能体更接近其目标,同时遵守约束条件。
六、AI Agents如何运作?
AI Agent可以理解人类语言(这要归功于 LLM)、推理信息、计划行动并执行任务,而不需要人类的持续输入。它们能解决复杂的问题,比简单的自动化工具先进得多。与基本的脚本不同,人工智能体集成到软件系统中,可以与其环境进行复杂的交互。
AI 智能体与简单的自动化有何不同?
那么,它们之所以不同,是因为有两大能力:工具和规划。
我们已经看到 ChatGPT 在处理基本数学问题时出错。这是因为它只能根据训练过的数据做出反应。
同样,如果我让你把 85 和 65 相乘,作为人类,如果你已经知道答案,或者使用一种叫做计算器的工具,你就可以直接回答,对吗?
我们对AI Agent也是如此,为他们提供工具。
第二件事是规划。以同样的数学计算为例,只有当你知道乘法或知道向计算器传递 85 和 65 以及乘法的参数时,你才能解决这个问题。这就是规划和推理过程。
- Orchestration layer (控制中心)
比方说,我想创建一个基于AI Agent的会议调度器,我向调度器询问:“我想为我所有的学生举办一次网络研讨会”。
这将被视为人工智能体的触发器。
查询可以是文本、音频、视频或图像。(大家已经知道,无论数据类型是什么,都会转换成数值供机器使用)。
查询将由AI智能体的协调层(又称控制中心)处理。包括四个部分:
-
Memory: 保持整个互动过程的记忆。
-
State: 存储整个进程的当前状态。
-
Reasoning: 引导代理进行推理。
-
Planning: 步骤是什么,下一步是什么?
-
Models (大脑)
模型是整个智能体的集中决策者。它通常是一个人工智能模型,如大型语言模型。
为了理解查询、制定计划和确定下一步行动,模型一般使用推理和逻辑框架,如:
- ReAct (Reason + Act) 确保采取深思熟虑的行动
- Chain-of-Thought 通过中间步骤进行思维链推理。
- 思维树探索多种路径,找到最佳解决方案
模型决定采取哪些行动,并使用特定工具执行这些行动。
- Tools (手)
利用工具,智能体可以与外部世界互动。就像我告诉你的,计算器、应用程序接口、网络搜索、外部数据库等均可被智能体调用。
通过工具,智能体可以执行超出模型能力的操作,获取实时信息,或完成现实世界中的任务。
七、什么时候应该使用AI Agents?
当我们需要一个 LLM 来确定应用程序的工作流程时,Agent是很有用的。但它们往往矫枉过正。问题是:我是否真的需要工作流程的灵活性来有效解决手头的任务?如果预先确定的工作流程经常出现问题,那就意味着你需要更多的灵活性。
让我们举个例子:假设您正在制作一个应用程序,用于处理旅行网站上的客户请求。假设我们可以事先知道请求将属于以下2个选择中的任何一个,并为这 2 种情况分别预定义工作流程。
- 想要了解有关旅行的知识吗?⇒ 让他们访问搜索栏,搜索相关的知识库
- 想与销售人员交谈?⇒ 给他们接入人工服务
如果确定性工作流程适合所有查询,那么就把一切都编成代码!这将为大家提供一个 100% 可靠的系统,不会因为让不可预测的 LLM 介入工作流程而产生错误。为了简单和稳健起见,建议这种情形下不要使用任何Agent行为。
但是,如果无法提前确定工作流程怎么办?例如,一个用户会问:"我可以周一来,但我忘带护照了,所以有可能被推迟到周三,有没有可能在周二上午带我和我的东西去冲浪,并提供取消保险?这个问题取决于很多因素,上述预定规则可能都不能满足这个要求。
如果预设的工作流程经常出现问题,这就意味着你需要更多的灵活性。这就是AI Agent的应用场景所在。
在上述示例中,我们可以制作一个多步骤Agent,该Agent可以访问天气 API 以获取天气预报、访问 Google 地图 API 以计算旅行距离以及访问知识库中的 RAG 系统。
直到最近,计算机程序还局限于预先确定的工作流程,试图通过堆砌 if/else 开关来处理复杂性。它们专注于极其狭窄的任务,比如 “找出此图中最短的路径”。但实际上,现实生活中的大多数任务,比如我们上面的旅行例子,并不适合预先确定的工作流程。Agent系统为此打开了现实世界任务的广阔天地!
八、应用领域
人工智能体是一种多功能工具,可在广泛领域内提高生产力、效率和智能。它们正越来越多地应用于日常应用和先进的、具有重大影响的领域。
九、结论
随着人工智能技术的不断发展,AI Agent应用的未来潜力巨大。通过关注通用人工智能、人机协作等,我们可以创造出不仅能高效执行任务,而且符合人类价值观并能为社会做出积极贡献的AI Agent系统。
回顾本文,我们重点学习了:AI Agent是自主系统,可感知、决定和采取行动以实现目标。其核心组件包括传感器、执行器、决策引擎和学习模块。人工智能体可用于虚拟助手、自动驾驶汽车和医疗保健等应用领域。
通过了解基本原理和掌握最新进展,我们可以利用AI Agent的力量推动创新,创造更美好的未来。
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】