[强化学习-7] 模型和规划(model and planning)

版权声明:本文为博主原创文章,如若转载,请注明出处! https://blog.csdn.net/u013010889/article/details/82493857

之前的博客都在讲从之前的experience中学习policy或者value function,这一篇博客讲解从之前的experience中学习model

何为model

一句话总结就是状态转移概率和奖励

这里写图片描述

Learning a model

状态转移概率s, a → s‘可以看作是一个density estimation问题,而奖励s, a → r可以看做是regression问题
有很多方式建模
- Table Lookup Model
- Linear Expectation Model
- Linear Gaussian Model
- Gaussian Process Model
- Deep Belief Network Model

最简单的就是Table Lookup Model,就是查表计算一下转移概率和奖励的均值
这里写图片描述

Planning with a Model

有了model后,我们可以采用之前讲的策略迭代或者值迭代(DP类,不采样)求解了,或者根据model进行样本采样如Q-learning、SARSA、Monte-Carlo等(采样类)求解,这种采样的效率更高

Dyna

这里写图片描述

先从真实experience中学习value function,然后再学习model,然后根据model采样出模拟的experience,根据真实的和模拟的experience对value function进行进一步的学习

这里写图片描述

总结

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u013010889/article/details/82493857
今日推荐