On-policy与Off-policy有什么区别呢?

On-policy(同策略)和Off-policy(异策略)是强化学习中策略优化的两种核心范式,其官方定义和核心差异如下:


1. On-policy(同策略)

官方定义
  • **行为策略(Behavior Policy)目标策略(Target Policy)**是同一个策略。
    即:使用当前正在优化的策略(目标策略)直接与环境交互生成数据,并用这些数据更新策略本身。
核心特点
  • 数据生成与策略更新强耦合:必须用最新的策略生成新数据,旧数据可能因策略更新而失效。
  • 数学本质:基于当前策略的期望来估计价值函数或策略梯度(如:直接利用策略π产生的轨迹计算梯度)。
  • 典型算法:SARSA、REINFORCE、PPO(近端策略优化)等。