强化学习 值函数

Gt = Rt +  gamma * Rt+1  +  gamma^2 *Rt+2 , 对未来要加一个折现率, 未来预测值是有风险的,保守起见最好加个折扣。

状态St =s 的值为:

V(s) = E(Gt|St=s) , where Gt = Rt +  gamma * Rt+1  +  gamma^2 *Rt+2 + …

状态St=s,At=a时的值为:

Q(s,a) = E(Gt|St=s, At=a), where Gt = Rt +  gamma * Rt+1  +  gamma^2 *Rt+2 + …

猜你喜欢

转载自www.cnblogs.com/xinping-study/p/9049787.html