版权声明:本文为博主原创文章,如若转载,请注明出处! https://blog.csdn.net/u013010889/article/details/82493857
之前的博客都在讲从之前的experience中学习policy或者value function,这一篇博客讲解从之前的experience中学习model
何为model
一句话总结就是状态转移概率和奖励
Learning a model
状态转移概率s, a → s‘可以看作是一个density estimation问题,而奖励s, a → r可以看做是regression问题
有很多方式建模
- Table Lookup Model
- Linear Expectation Model
- Linear Gaussian Model
- Gaussian Process Model
- Deep Belief Network Model
最简单的就是Table Lookup Model,就是查表计算一下转移概率和奖励的均值
Planning with a Model
有了model后,我们可以采用之前讲的策略迭代或者值迭代(DP类,不采样)求解了,或者根据model进行样本采样如Q-learning、SARSA、Monte-Carlo等(采样类)求解,这种采样的效率更高
Dyna
先从真实experience中学习value function,然后再学习model,然后根据model采样出模拟的experience,根据真实的和模拟的experience对value function进行进一步的学习