增强学习: 通过agent和environment交互
公式化:
Markov property: 未来与过去无关,只取决于现在(前提是现在充分可观测)
由于含有随机性,采用最大化期望值来确定pi
value function:给定初始态,reward的加权期望值
Q value function:给定初始态和初始行为,reward的加权期望值
-----------------------------------------------------------------------------------------------