Gt = Rt + gamma * Rt+1 + gamma^2 *Rt+2 , 对未来要加一个折现率, 未来预测值是有风险的,保守起见最好加个折扣。
状态St =s 的值为:
V(s) = E(Gt|St=s) , where Gt = Rt + gamma * Rt+1 + gamma^2 *Rt+2 + …
状态St=s,At=a时的值为:
Q(s,a) = E(Gt|St=s, At=a), where Gt = Rt + gamma * Rt+1 + gamma^2 *Rt+2 + …