【AI学习】从RLHF到GRPO

最近学习了从RLHF到GRPO的发展变化,主要就是看了以下的文章。
整理一下,作为记录。

图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读
https://mp.weixin.qq.com/s/mhPJzhQvPJlAWsO2nW9BHg

DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了
https://mp.weixin.qq.com/s/nT2KTyrsgkv-ztXN2CK_Lw

DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)
https://mp.weixin.qq.com/s/Z-wRuqsQTF_6TeV7ao_9Yw

从Policy Gradient到REINFORCE++,万字长文梳理强化学习最新进展
https://mp.weixin.qq.com/s/mGlObqTANspHGkujzCmY5A

深度长文|一文读懂多模态大模型:强化学习技术全面解读 SFT、RLHF、RLAIF、DPO
https://mp.weixin.qq.com/s/T5qsBAXCDhoFOsDbwOF3ow

强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
https://mp.weixin.qq.com/s/lwoq764gVSFjsEhzPS3ChQ

DeepSeek R1范式复现笔记
https://mp.weixin.qq.com/s/BYPKP5oXg1V4C_vg0VFGhw

从ReFT, Kimi K1.5到DeepSeek R1,聊聊Reasoning Model的精巧实现
https://mp.weixin.qq.com/s/yaBMe-XOlINOBg6_CL0vEw

翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看
https://mp.weixin.qq.com/s/7844Xk8bbNP68Jbf0pWjuQ

一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……
https://mp.weixin.qq.com/s/n-dqidRM0CD5VNaRHGf4MA

猜你喜欢

转载自blog.csdn.net/bylander/article/details/145786659
今日推荐