强化学习理论-知识总结

总结和转载大佬们的文章,记录个人学习笔记,感谢大家!

1.贝尔曼方程
链接: 贝尔曼方程

2.动态规划-策略迭代与值迭代
链接: 策略迭代与值迭代1
链接: 策略迭代与值迭代2
链接: 策略迭代与值迭代3

3.蒙特卡洛方法
链接: 蒙特卡洛方法

4.Sarsa和Q-Learning
链接: Sarsa和Q-Learning

5.PPO算法/DQN算法/A3C算法
链接: 强化学习实战

6.策略梯度
链接: 策略梯度

7.MCPT和POMCP
链接: MCPT和POMCP1
链接: MCPT和POMCP2
链接: MCPT和POMCP3
链接: MCPT和POMCP4

8.规划与学习-算力聚焦
链接: 规划与学习-算力聚焦1
链接: 规划与学习-算力聚焦2

9.重要性采样(Importance Sampling)
链接: 重要性采样

10.ε-greedy & UCB
链接: ε-greedy & UCB

11.离线强化学习:
链接: 离线强化学习(OfflineRL)总结

猜你喜欢

转载自blog.csdn.net/weixin_39735688/article/details/127489694
今日推荐