除了Q-leraning，你还应该知道的强化学习算法

Sarsa 是一种基于 时序差分（Temporal Difference, TD） 的强化学习算法，属于 on-policy 方法（即使用当前策略生成的动作更新 Q 值）。其核心思想是通过不断更新状态-动作对的价值（Q 值），最终找到最优策略。

Sarsa 的 Q 值更新公式如下：