On-policy与Off-policy有什么区别呢？

编程语言 2025-04-11 18:55

0 阅读

On-policy（同策略）和Off-policy（异策略）是强化学习中策略优化的两种核心范式，其官方定义和核心差异如下：

1. On-policy（同策略）

官方定义：

**行为策略（Behavior Policy）与目标策略（Target Policy）**是同一个策略。
即：使用当前正在优化的策略（目标策略）直接与环境交互生成数据，并用这些数据更新策略本身。

核心特点：

数据生成与策略更新强耦合：必须用最新的策略生成新数据，旧数据可能因策略更新而失效。
数学本质：基于当前策略的期望来估计价值函数或策略梯度（如：直接利用策略π产生的轨迹计算梯度）。
典型算法：SARSA、REINFORCE、PPO（近端策略优化）等。