大模型RLHF算法更新换代,DeepMind提出自训练离线强化学习框架ReST

NoSuchKey