强化学习第七章

1、策略迭代、价值迭代、泛化迭代的前提条件：智能体知道环境的状态转移概率，即是基于模型的问题

2、蒙特卡洛方法采样：随机采样估计期望值，通过样本序列逼近真实的期望值。成立原因：大数定理。

3、探索和利用，探索指的是不拘于当前的表现，选择不同于当前策略的行动；利用是持续使用当前的最优策略，尽可能的获得更多的回报。

4、蒙特卡洛方法的缺点：估计值的方差大。估计值方差大则均值收敛需要更长时间。方差大的原因：每次掷骰子的数字都不同，采样频率的问题，会多次出现同一个状态，在计算的过程中没有区分第一次到达这个状态和第二次到达，是every-visit的方式，可以改成采用first-visit的方式减小方差，但没有显著提高。

优点：数据量足够大的时候，对期望值的估计是无偏的。

5、时序差分法与Sarsa：TD法结合了动态规划和蒙特卡洛方法，利用了最优子结构的思想。

但是他是为了缩小方差使得误差变大了，蒙特卡洛方法是为了极小的误差使得方差变大，TD方法结果没有MC好。

6、Q-learning：它和Sarsa只在一个地方有区别，Sarsa遵循了真实的交互序列，根据真实的行动进行价值的估计，Q-learning在下一时刻选择了使得价值最大的行动，没有遵循交互序列。

存在”过高估计“的问题，使用最优价值的行动替代交互时候使用的行动。 200页两个步骤，关于收敛性证明暂时没看懂？？？？？

7、DQN算法两个突出点：

（1）replay buffer 回放机制：

　　Q学习方法基于当前策略进行交互和改进，每一次模型利用交互的数据学习，学习后样本被丢弃。存在两个问题：一个是交互得到的序列存在相关性。而对于基于极大似然的机器学习模型来说，假设就是训练样本是独立且来自同分布的，假设不成立则效果大打折扣。另一个是交互数据的使用效率低，模型训练需要多轮迭代才能收敛，没用用过就丢弃花的时间长。

　　样本回放保存了交互的样本信息，保存当前的状态s、动作a和长期累积回报v。buffer的大小设置的比较大，达到100万个样本这么多，新的样本把久远的样本覆盖，之后均匀的从样本中随机采样进行学习。

（2）target network目标网络:

　　引入和表现网络一样的模型，目标网络由表现网络的参数延时更新而来，目标价值由目标网络计算得到。用它和表现网络的估计值比较进行表现网络参数的更新。

猜你喜欢