第十四讲--深度增强学习

增强学习: 通过agent和environment交互


公式化:

Markov property: 未来与过去无关,只取决于现在(前提是现在充分可观测)



由于含有随机性,采用最大化期望值来确定pi


value function:给定初始态,reward的加权期望值

Q value function:给定初始态和初始行为,reward的加权期望值




-----------------------------------------------------------------------------------------------



猜你喜欢

转载自blog.csdn.net/qq_39638957/article/details/80372477
今日推荐