强化学习之Exploration - Exploitation Dilemma 1

在这里插入图片描述
Exploration是探索如何选择动作的潜在假设。例如,采取智能体之前从未采取的动作,Q-learning 中的贪婪策略就是基于这个思想会,设置一定的概率来采取之前没有的动作。

Exploitation是利用已有的知识来更好地完成任务,根据当前已知情况获得最大收益。例如一条路收益为5,一条路收益为10,这是两条已知的路,狗狗会加油发现那个10的道路。但是还有一条收益为15的道路狗狗探索不到,需要exploration。在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/89292422