机器学习工程师 - Udacity 强化学习 Part Three

四、动态规划
1.在动态规划设置中,智能体完全了解表示环境特性的马尔可夫决策流程 (MDP)。(这比强化学习设置简单多了,在强化学习设置中,智能体一开始不知道环境如何决定状态和奖励,必须完全通过互动学习如何选择动作。)

2.迭代方法求状态值函数
迭代方法先对每个状态的值进行初始猜测。尤其是,我们先假设每个状态的值为 0。然后,循环访问状态空间并通过应用连续的更新方程修改状态值函数的估算结果。

3.动作值
思考下 qπ​(s1​,right) 这个示例。这个动作值的计算方式如下所示:
qπ​(s1​,right)=−1+vπ​(s2​)=−1+2=1,
我们可以将状态动作对的值 s1​,right 表示为以下两个量的和:(1)向右移动并进入状态 s2​ 的即时奖励,以及 (2) 智能体从状态 s2​ 开始并遵守该策略获得的累积奖励。

4.对于更加复杂的环境
在这个简单的网格世界示例中,环境是确定性环境。换句话说,智能体选择某个动作后,下个状态和奖励可以 100% 确定不是随机的。对于确定性环境,所有的s′,r,s,a 为 p(s′,r∣s,a)∈{0,1}。
在这种情况下,当智能体处在状态 s 并采取动作 a 时,下个状态 s′ 和奖励 r 可以确切地预测,我们必须确保 qπ​(s,a)=r+γvπ​(s′)。
通常,环境并非必须是确定性环境,可以是随机性的。这是迷你项目中的 FrozenLake 环境的默认行为;在这种情况下,智能体选择动作后,下个状态和奖励无法确切地预测,而是从(条件性)概率分布 p(s′,r∣s,a)中随机抽取的。
在这种情况下,当智能体处在状态 s 并采取动作 a 时,每个潜在下个状态 s′ 的概率和奖励 r 由 p(s′,r∣s,a) 确定。在这种情况下,我们必须确保 qπ​(s,a)=∑s′∈S+,r∈R​p(s′,r∣s,a)(r+γvπ​(s′)),我们计算和 r+γvπ​(s′) 的期望值。

猜你喜欢

转载自www.cnblogs.com/paulonetwo/p/10371486.html
今日推荐