Exploration与Exploitation相关解释

RL智能体需要在不确定策略的探索(Exploration)和当前策略的开采(Exploitation)之间进行权衡。

 

智能体会选择贪婪参数,范围在(0,1)上,通常值接近0。智能体会对当前状态s用的概率采取贪婪行为

的概率采取随机行为。那就是智能体用的概率开采当前值函数估计,用的概率进行探索。

 

猜你喜欢

转载自www.cnblogs.com/phonard/p/12522892.html
今日推荐