[归纳]强化学习导论 - 第十章:基于拟合器的on-policy控制

NoSuchKey