On-policy(同策略)和Off-policy(异策略)是强化学习中策略优化的两种核心范式,其官方定义和核心差异如下:
1. On-policy(同策略)
官方定义:
- **行为策略(Behavior Policy)与目标策略(Target Policy)**是同一个策略。
即:使用当前正在优化的策略(目标策略)直接与环境交互生成数据,并用这些数据更新策略本身。
核心特点:
- 数据生成与策略更新强耦合:必须用最新的策略生成新数据,旧数据可能因策略更新而失效。
- 数学本质:基于当前策略的期望来估计价值函数或策略梯度(如:直接利用策略π产生的轨迹计算梯度)。
- 典型算法:SARSA、REINFORCE、PPO(近端策略优化)等。