TIP 2025 | 基于双模拟度量的约束视觉表示学习用于安全强化学习

论文信息

Constrained Visual Representation Learning With Bisimulation Metrics for Safe Reinforcement Learning
基于双模拟度量的约束视觉表示学习用于安全强化学习
Rongrong Wang, Yuhu Cheng, Xuesong Wang

论文创新点

  1. 引入安全双模拟度量:论文提出了安全双模拟度量,用于量化状态之间的行为相似性,并将安全成本纳入度量计算中。这一创新使得模型能够在潜在状态表示学习中综合考虑奖励和成本,从而在保证安全性的同时优化策略。
  2. 顺序条件变分推断模型:作者设计了一个顺序条件变分推断模型,用于从高维视觉观测中提取低维状态表示。该模型通过捕捉观测数据中的内在模式和关联,生成紧凑且信息丰富的潜在状态表示,为后