机器学习工程师 - Udacity 强化学习

一、简介

1.强化学习简称RL，即Reinforcement Learning。

2.应用

了解 AlphaGo Zero，一款先进的计算机程序，打败了专业人类围棋手。
了解如何使用强化学习 (RL) 玩Atari 游戏。
了解打败全世界的顶级 Dota 2 玩家的 OpenAI 机器人。
了解指导仿真机器人如何行走的研究。
了解无人驾驶车强化学习。
要了解应用于金融领域的强化学习示例，请参阅这个最终项目，该项目的作者是一位毕业于机器学习工程师纳米学位的学员。
了解电信强化学习。
阅读这篇介绍库存管理强化学习的论文。

3.智能体需要在以下两种情形之间找到平衡点：
1)exploration，探索如何选择动作的潜在假设；
2)exploitation，利用已有的可行有限知识。
同时，智能体不仅关心现在可以获得的奖励，而且要最大化长期可以获得的奖励数量。

4.OpenAI Gym

你可以通过查看该 GitHub 代码库详细了解 OpenAI Gym。

建议你花时间查看 leaderboard，其中包含每个任务的最佳解决方案。

请参阅此博客帖子，详细了解如何使用 OpenAI Gym 加速强化学习研究。

5.资源

关于强化学习的经典教科书：Reinforcement Learning: An Introduction。

参阅此 GitHub 代码库以查看该教科书中的大多数图表的 Python 实现。

6.阶段性任务与连续性任务
具有清晰结束点的任务称之为阶段性任务。当某个阶段结束后，智能体会查看奖励总量，并判断自己的表现如何，然后带着之前的经验从头开始。
一直持续下去的任务称之为连续性任务，例如，根据金融市场买入和卖出股票的算法。

7.目标和奖励

如果想详细了解 DeepMind 的研究成果，请参阅此链接。研究论文位于此处。此外，观看这个非常酷的视频（链接来自Youtube）。

8.累计奖励
智能体如何通过与环境互动实现目标这种框架适合很多现实应用，框架将互动简化为在智能体和环境之间传递的三种信号，状态信号是环境向智能体呈现情形的方式，智能体做出动作响应并影响到环境，环境做出奖励响应，表示智能体是否对环境做出了正确响应。该框架还包括智能体目标，即最大化累计奖励。

9.折扣回报

10.杆平衡

在这个经典的强化学习任务中，在光滑的道路上有一辆购物车，购物车的顶部插着一根杆子。目标是通过使购物车向左或向右移动，防止杆子掉下来，并且购物车不会脱离轨道。

在 OpenAI Gym 实现中，智能体在每个时间步都向购物车应用 +1 或 -1 的力。它是一个阶段性任务，在以下情况下这一阶段会结束：(1) 杆子与垂直方向的夹角超过 20.9 度，(2) 购物车离道路中心的距离超过 2.4 个单位，或者 (3) 时间步超过了 200 步。对于每个时间步，购物车都获得奖励 +1，包括最终时间步。你可以在 OpenAI 的 github 中详细了解该环境。该任务还出现在了教科书的第 3.4 个示例中。

习题 1/3

智能体在每个时间步都获得奖励 +1，包括最终时间步。哪些折扣率会鼓励智能体尽量使杆子保持平衡？（请选中所有适用项。）

A.折扣率为 1。

B.折扣率为 0.9。

C.折扣率为 0.5。

答案：ABC。

解析：对于每个折扣率，智能体都在杆子尚未掉下的每个时间步获得正面奖励。因此，在每种情况下，智能体将尝试尽量使杆子保持平衡。

习题 2/3

假设我们对奖励信号进行了修改，仅在阶段结束时向智能体提供奖励。因此在每个时间步，奖励都是 0，但是最终时间步除外。当阶段结束时，智能体获得奖励 -1。哪些折扣率会鼓励智能体尽量使杆子保持平衡？（请选中所有适用项。）

A.折扣率是 1。

B.折扣率是 0.9。

C.折扣率是 0.5。

D.所有这些折扣率都无法帮助智能体，因为没有奖励信号。

答案：BC。

解析：没有折扣的话，智能体将始终获得奖励 -1（无论在阶段过程中选择哪个动作），因此奖励信号将不会向智能体提供任何实用的反馈。有了折扣后，智能体将尽量使杆子保持平衡，因为这样会形成相对来说不是太负面的回报。

习题 3/3

假设我们对奖励信号进行了修改，仅在阶段结束时向智能体提供奖励。因此在每个时间步，奖励都是 0，但是最终时间步除外。当阶段结束时，智能体获得奖励 +1。哪些折扣率会鼓励智能体尽量使杆子保持平衡？（请选中所有适用项。）

A.折扣率是 1。

B.折扣率是 0.9。

C.折扣率是 0.5。

D.所有这些折扣率都无法帮助智能体，因为没有奖励信号。

答案：D。

解析：如果折扣率是 1，智能体将始终获得奖励 +1（无论它在这一阶段中选择哪些动作），因此奖励信号将不会向智能体提供任何实用反馈。如果折扣率是 0.5 或 0.9，智能体将尝试尽快结束这一阶段（通过快速扔下杆子或离开轨道边缘）。因此，我们必须重新设计奖励信号！

机器学习工程师 - Udacity 强化学习

猜你喜欢