一点思考|漫谈 AI 中的「反馈」机制

前言:生物世界中的正负反馈机制能够促进生物进化,为生物圈的良好生态提供保障。本文探究反馈机制在深度神经网络中的体现,由于笔者知识浅薄,故仅列举个人认知范围内的以下几种「反馈」示例。(本文初稿诞生于2022年12月12日)


反向传播

反向传播(Back Propagation,BP)带来梯度更新,然后是神经网络的参数更新,提高神经网络的拟合能力。

变体:BPTT(随时间反向传播)

生成对抗网络(GAN)

GAN由生成器+判别器构成,判别器输出的结果可作为生成器生成效果的反馈,提高生成器的生成性能;而随着生成器能力的提升,其输出与真实数据又会共同喂给判别器,提高判别器的判别能力,二者在彼此的成长中相得益彰,不断精进。

ChatGPT 中的 RLHF

ChatGPT 使用的神经网络是 InstructGPT,其背后基于人工反馈的强化学习方法的核心思想是:在训练过程中,生成结果由 Human Evaluation 纠正,以确保其生成的文本积极正向,不含性别歧视等负面内容,即 RLHF(Reinforcement Learning from Human Feedback):使用强化学习的方法,利用人类反馈信号直接优化语言模型。这就涉及到 Human-in-the-Loop(人机回圈)的概念。根据此篇文章,人类在机器的塑造过程中发挥重要作用,促进机器的发展。

Teacher-Student Model

Teacher model 的生成结果可以作为 student model 的评判,提升 student model 的性能。

后记:没有反馈,就没有进步。


参考资料

  1. 神经网络算法详解 04:反馈神经网络(Hopfield、BAM、BM、RBM)_datamonday的博客-CSDN博客
  2. 智能产品设计中的Human-in-the-Loop - 知乎 (zhihu.com)
  3. 以反馈控制“对付”智能时代不确定性----中国科学院 (cas.cn)
  4. 解读 ChatGPT 背后基于人工反馈的强化学习(RLHF)的方法 - 知乎 (zhihu.com)

猜你喜欢

转载自blog.csdn.net/qq_36332660/article/details/132335499