RL智能体需要在不确定策略的探索(Exploration)和当前策略的开采(Exploitation)之间进行权衡。
智能体会选择贪婪参数,范围在(0,1)上,通常值接近0。智能体会对当前状态s用的概率采取贪婪行为,
用的概率采取随机行为。那就是智能体用的概率开采当前值函数估计,用的概率进行探索。
RL智能体需要在不确定策略的探索(Exploration)和当前策略的开采(Exploitation)之间进行权衡。
智能体会选择贪婪参数,范围在(0,1)上,通常值接近0。智能体会对当前状态s用的概率采取贪婪行为,
用的概率采取随机行为。那就是智能体用的概率开采当前值函数估计,用的概率进行探索。