除了Q-leraning,你还应该知道的强化学习算法

Sarsa 算法介绍

Sarsa 是一种基于 时序差分(Temporal Difference, TD) 的强化学习算法,属于 on-policy 方法(即使用当前策略生成的动作更新 Q 值)。其核心思想是通过不断更新状态-动作对的价值(Q 值),最终找到最优策略。

核心公式

Sarsa 的 Q 值更新公式如下:
[ Q ( s t , a t ) ← Q