人工智能:一种现代的方法 (第二章 智能Agent)(完结)

回到总目录可以点击索引文导航

2.1 Agent和环境

  • Agent通过传感器感知环境并通过执行器对所处环境产生影响。
  • 感知序列:Agent所收到得所有输入数据的完整历史。
  • Agent函数:将任何一定感知序列映射为行动。
  • Agent程序:是Agent函数的具体实现。

2.2 理性Agent

  • 理性Agent是指做事正确的Agent。正确的事就是在环境中希望得到的结果,通过性能度量描述。
  • 理性Agent:对每一个可能的感知序列,根据已知的感知序列提供的证据和Agent具有的先验知识,理性Agent应该选择能使其性能度量最大化的行动。
  • 完美Agent:首先要区别理性和全知的概念,一个全知的Agent明确地知道它的行动会带来的实际结果,这在现实中是不可能的。故为了使理性Agent接近完美Agent,我们需要信息收集学习,我们称这种自身去收集信息的性质为自主性

2.3 环境

2.3.1 任务环境的规范描述(重点)

  • 任务环境的PEAS描述:性能度量(Performance)、环境(Environment)以及Agent的执行器(Actuator)和传感器(Sensors)。
    以自动驾驶的出租车为例,我们讨论下该世界的任务环境:
    性能度量:安全性;舒适度;到达正确的目的地;油量和磨损最小化;到达目的地的时间和费用最小化;对交通法规的触犯和对其他司机的干扰最少化;利润最大化。显然有些目标是相互矛盾的,所以有必要折中。
    环境:各种道路;各种交通信号;其它车辆、行人和其它东西;车上的乘客和潜在的顾客。
    执行器:油门、刹车和方向盘;通过嘴巴或其它语音合成器来与顾客交流。
    传感器:眼睛;可控制的摄像头;速度表;其它仪表;耳朵,用于听乘客或其它顾客的需求。

2.3.2 任务环境的性质

  • 完全可观察、部分可观察的、无法观察的。
  • 单Agent、多Agent:多Agent的环境又可以分为竞争性的和合作性的。
  • 确定的、随机的:通常来说完全可观察的就是确定的环境,部分可观察或无法观察的就是随机的环境。
  • 片段式的、延续式的:当前片段的行动是否影响下个片段的行动,片段式的环境比延续式的环境简单得多,因为不需要前瞻
  • 静态的、动态的、半动态的。
  • 离散的、连续的。有限的、无限的。
  • 已知的、未知的:这里指的是行动的后果是否已知。

2.4 Agent的结构

AI的任务是设计Agent程序,Agent=体系结构+程序,体系结构就是某个具备物理传感器和执行器的计算设备。一般来说体系结构为程序提供来自传感器的感知信息,运行程序,并把程序计算出的行动决策送达执行器。

2.4.1 简单反射Agent

基于当前感知选择行动,不关注感知历史。
例如:如果前方车辆在刹车,那么开始刹车。
这种Agent可能陷入无限循环中,解决的方式是随机化。例如在模拟退化算法中,就采用随机化方法避免了陷入局部最优。

2.4.2 基于模型的反射Agent

在部分可观察的世界模型中(世界模型就是关于世界如何运转的知识),这种Agent会持续记录观测不到的那部分感知信息并且根据感知历史维持内部状态(即维持原先的行为)。
例如在超车过程中,车辆要持续关注前后方车辆的行为,并依然维持着超车状态。

2.4.3 基于目标的Agent

在基于模型的反射Agent中加入了考虑行动的后果,与简单反射Agent有根本的不同,因为它考虑了目标,考虑了执行这个行为是否有助于目标实现。
尽管基于目标的Agent显得效率很低,但是它更灵活。
包括:问题求解Agent(第三章)、规划Agent(第七章和第十章)

2.4.4 基于效用的Agent

效用一词来源于经济学,目标指的是好和不好,而效用可以指更快、更安全、更可靠或更便宜等需求。其实本质上就是我们常用的目标函数,是最常用的一种Agent结构。

2.4.5 学习Agent

建造会学习的机器。学习Agent可以被划分为4各概念上的组件。

  • 学习元件:负责改进提高,利用来自评判元件的反馈评价Agent做的如何并确定如何修改性能元件来做得更好。
  • 评判元件:反馈评价Agent做的如何。
  • 性能元件:整个Agent,接受感知信息并决策。
  • 问题产生器:可以得新的和有信息经验的行动提议。做一些探索性行动以减少学习次数。

2.5 课后习题和参考答案

  1. 假设性能度量只关注环境的前T各时间步,忽略其他所有。请说明理性Agent的行动可能不仅以来于环境状态,还取决于它达到的时间点。
    参考答案:
    理性Agent在不同的时间点所作的决策不同,在较为靠后的时间点理性Agent只会考虑当前的性能度量,而在较为靠前的时间点则会考虑整体性能度量。
  2. 在这里插入图片描述
    参考答案:
  • a. 错。完美理性是指在接收到传感器信息的情况下总是做出正确决策的能力。
  • b. 对。纯反射Agent忽略之前的感知信息,所以在部分可感知的环境中是不能成为一个理性Agent的。你无法给纯反射Agent完全充分的信息。
  • c. 对。例如,在一个只有一个状态的环境中,所有的动作都有相同的奖励。
  • d. 错。从概念上讲,Agent函数接收到该点的整个感知序列作为输入,而Agent程序只接收当前感知。
  • e. 错。例子是Agent函数,它要求在恒定时间内解决任意大小的棘手问题实例。
  • f. 对。是c的一个特例。
  • g. 对。也可以拿c来说。
  • h. 错。完全无法做正确的事。
  • i. 错。可能拿到的牌无论怎么打都是输的,无解的问题就没有可行解。
  1. 略。这题比较基础,通过前面的概念就可以解决。
  2. 略。原文的概念就已经比较好了,没必要用自己的话混淆。
  3. 略。见第3题d。
  4. 第7题至第13题都是设计Agent的,这里自行解答。
发布了60 篇原创文章 · 获赞 32 · 访问量 2万+

猜你喜欢

转载自blog.csdn.net/weixin_42297855/article/details/103084013