机器学习工程师 - Udacity 强化学习

一、简介

1.强化学习简称RL,即Reinforcement Learning。

2.应用

3.智能体需要在以下两种情形之间找到平衡点:
1)exploration,探索如何选择动作的潜在假设;
2)exploitation,利用已有的可行有限知识。
同时,智能体不仅关心现在可以获得的奖励,而且要最大化长期可以获得的奖励数量。

4.OpenAI Gym

你可以通过查看该 GitHub 代码库详细了解 OpenAI Gym。

建议你花时间查看 leaderboard,其中包含每个任务的最佳解决方案。

请参阅此博客帖子,详细了解如何使用 OpenAI Gym 加速强化学习研究。

5.资源

关于强化学习的经典教科书:Reinforcement Learning: An Introduction

参阅此 GitHub 代码库以查看该教科书中的大多数图表的 Python 实现。

6.阶段性任务与连续性任务
具有清晰结束点的任务称之为阶段性任务。当某个阶段结束后,智能体会查看奖励总量,并判断自己的表现如何,然后带着之前的经验从头开始。
一直持续下去的任务称之为连续性任务,例如,根据金融市场买入和卖出股票的算法。

7.目标和奖励

如果想详细了解 DeepMind 的研究成果,请参阅此链接。研究论文位于此处。此外,观看这个非常酷的视频(链接来自Youtube)。

8.累计奖励
智能体如何通过与环境互动实现目标这种框架适合很多现实应用,框架将互动简化为在智能体和环境之间传递的三种信号,状态信号是环境向智能体呈现情形的方式,智能体做出动作响应并影响到环境,环境做出奖励响应,表示智能体是否对环境做出了正确响应。该框架还包括智能体目标,即最大化累计奖励。

9.折扣回报

10.杆平衡

在这个经典的强化学习任务中,在光滑的道路上有一辆购物车,购物车的顶部插着一根杆子。目标是通过使购物车向左或向右移动,防止杆子掉下来,并且购物车不会脱离轨道。

在 OpenAI Gym 实现中,智能体在每个时间步都向购物车应用 +1 或 -1 的力。它是一个阶段性任务,在以下情况下这一阶段会结束:(1) 杆子与垂直方向的夹角超过 20.9 度,(2) 购物车离道路中心的距离超过 2.4 个单位,或者 (3) 时间步超过了 200 步。对于每个时间步,购物车都获得奖励 +1,包括最终时间步。你可以在 OpenAI 的 github 中详细了解该环境。该任务还出现在了教科书的第 3.4 个示例中。

习题 1/3

智能体在每个时间步都获得奖励 +1,包括最终时间步。哪些折扣率会鼓励智能体尽量使杆子保持平衡?(请选中所有适用项。)

A.折扣率为 1。

B.折扣率为 0.9。

C.折扣率为 0.5。

答案:ABC。
解析:对于每个折扣率,智能体都在杆子尚未掉下的每个时间步获得正面奖励。因此,在每种情况下,智能体将尝试尽量使杆子保持平衡。

习题 2/3

假设我们对奖励信号进行了修改,仅在阶段结束时向智能体提供奖励。因此在每个时间步,奖励都是 0,但是最终时间步除外。当阶段结束时,智能体获得奖励 -1。哪些折扣率会鼓励智能体尽量使杆子保持平衡?(请选中所有适用项。)

A.折扣率是 1。

B.折扣率是 0.9。

C.折扣率是 0.5。

D.所有这些折扣率都无法帮助智能体,因为没有奖励信号。

答案:BC。

解析:没有折扣的话,智能体将始终获得奖励 -1(无论在阶段过程中选择哪个动作),因此奖励信号将不会向智能体提供任何实用的反馈。有了折扣后,智能体将尽量使杆子保持平衡,因为这样会形成相对来说不是太负面的回报。 

习题 3/3

假设我们对奖励信号进行了修改,仅在阶段结束时向智能体提供奖励。因此在每个时间步,奖励都是 0,但是最终时间步除外。当阶段结束时,智能体获得奖励 +1。哪些折扣率会鼓励智能体尽量使杆子保持平衡?(请选中所有适用项。)

A.折扣率是 1。

B.折扣率是 0.9。

C.折扣率是 0.5。

D.所有这些折扣率都无法帮助智能体,因为没有奖励信号。

答案:D。

解析:如果折扣率是 1,智能体将始终获得奖励 +1(无论它在这一阶段中选择哪些动作),因此奖励信号将不会向智能体提供任何实用反馈。如果折扣率是 0.5 或 0.9,智能体将尝试尽快结束这一阶段(通过快速扔下杆子或离开轨道边缘)。因此,我们必须重新设计奖励信号!

 
 

 

猜你喜欢

转载自www.cnblogs.com/paulonetwo/p/10087370.html