除了Q-leraning,你还应该知道的强化学习算法 业界资讯 2025-04-09 23:37 0 阅读 Sarsa 算法介绍 Sarsa 是一种基于 时序差分(Temporal Difference, TD) 的强化学习算法,属于 on-policy 方法(即使用当前策略生成的动作更新 Q 值)。其核心思想是通过不断更新状态-动作对的价值(Q 值),最终找到最优策略。 核心公式 Sarsa 的 Q 值更新公式如下: [ Q ( s t , a t ) ← Q 猜你喜欢