最近学习了从RLHF到GRPO的发展变化,主要就是看了以下的文章。
整理一下,作为记录。
《图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读》
https://mp.weixin.qq.com/s/mhPJzhQvPJlAWsO2nW9BHg
《DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了》
https://mp.weixin.qq.com/s/nT2KTyrsgkv-ztXN2CK_Lw
《DeepSeek 背后的数学原理:深入探究群体相对策略优化 (GRPO)》
https://mp.weixin.qq.com/s/Z-wRuqsQTF_6TeV7ao_9Yw
《从Policy Gradient到REINFORCE++,万字长文梳理强化学习最新进展》
https://mp.weixin.qq.com/s/mGlObqTANspHGkujzCmY5A
《深度长文|一文读懂多模态大模型:强化学习技术全面解读 SFT、RLHF、RLAIF、DPO》
https://mp.weixin.qq.com/s/T5qsBAXCDhoFOsDbwOF3ow
《强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法》
https://mp.weixin.qq.com/s/lwoq764gVSFjsEhzPS3ChQ
《DeepSeek R1范式复现笔记》
https://mp.weixin.qq.com/s/BYPKP5oXg1V4C_vg0VFGhw
《从ReFT, Kimi K1.5到DeepSeek R1,聊聊Reasoning Model的精巧实现》
https://mp.weixin.qq.com/s/yaBMe-XOlINOBg6_CL0vEw
《翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看》
https://mp.weixin.qq.com/s/7844Xk8bbNP68Jbf0pWjuQ
《一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……》
https://mp.weixin.qq.com/s/n-dqidRM0CD5VNaRHGf4MA