LLM每周学术/资讯最前沿！ | 涉及Llama4、DeepSeek最新研究、强化学习、大模型Agent应用等

源自: AINLPer（每日干货分享！！）
编辑: ShuYini
校稿: ShuYini
时间: 2025-4-2

引言

紧跟技术发展趋势，快速了解大模型最新动态。今天继续总结最近一周的研究动态，本片文章共计梳理了8篇有关大模型(LLMs)的最新研究进展，其中主要包括：Meta最新Llama4、DeepSeek最新训练方法、强化学习Dr.GRPO、大模型Agent应用、最新MoE架构等热门研究及咨询。

Meta | 开源Llama 4

Meta发布Llama4系列模型。该系列包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。所有这些模型都经过了大量未标注的文本、图像和视频数据的训练，以使它们具备广泛的视觉理解能力。

Llama 4 Scout 拥有 170 亿激活参数、16 个专家和 1090 亿总参数，是目前全球同类中最佳的多模态模型，支持长达 1000 万 token 的上下文窗口，采用无位置嵌入的交错注意力层（iRoPE 架构）以增强长上下文泛化能力，在编码、推理、长上下文和图像基准测试中表现优异。

Llama 4 Maverick 拥有 170 亿激活参数、128 个专家和 4000 亿总参数，是同类中性能最强的多模态模型，采用交替的密集层和混合专家（MoE）层来提高推理效率。在 MoE 层中，使用了128 个路由专家和一个共享专家。其 ELO 得分在 LMArena 上达到 1417，总排名第二，超越了 DeepSeek，在困难提示词、编程、数学和创意写作等任务中表现突出。

Llama 4 Behemoth 是目前 Meta 最强大的模型之一，拥有 2880 亿激活参数、16 个专家和近 2 万亿总参数，采用混合专家（MoE）架构和 FP8 精度训练，数据混合总量超过 30 万亿 token，支持多模态输入，正在训练中，未来将释放更多内容。

DeepSeek | SPCT训练方法

连接：https://arxiv.org/abs/2504.02495

强化学习（RL）在大规模大型语言模型（LLM）后训练中被广泛应用。研究表明，合适的训练方法可以提升模型的推理时扩展性。然而，获取准确的奖励信号是强化学习的一大挑战，尤其是在复杂领域中。

本文作者研究了如何通过增加推理计算资源来提升奖励建模（RM）的扩展性，并提出了一种新的训练方法——SPCT。该方法通过在线强化学习优化生成式奖励建模（GRM），使其能够自适应生成原则并准确生成批评，从而开发出DeepSeek-GRM模型。此外，作者还通过并行采样和元奖励模型进一步提升了推理时的扩展性。实验结果表明，SPCT显著提高了GRM的质量和扩展性，在多个基准测试中表现优于现有方法，且没有明显偏差。尽管DeepSeek-GRM在某些任务中仍有待改进，但作者认为未来的研究可以解决这些问题。

UNC |符号MoE架构

连接：https://arxiv.org/pdf/2503.05641
将现有预训练专家LLMs组合是解决大规模多样化任务的一种方法，但任务级选择专家过于粗粒度。

本文作者提出了符号混合专家（Symbolic-MOE）框架，通过强调技能（如数学中的代数、生物医学推理中的分子生物学等）进行细粒度选择，基于专家优势动态选择与任务最相关的专家LLMs集合，各专家生成推理结果后由聚合器整合成高质量响应。为降低计算开销，采用批量推理策略，按分配专家对实例分组，实现单GPU集成16模型，时间成本与4 GPU多代理基线相当。在多个基准测试中，Symbolic-MOE性能优于强LLMs及多代理方法，平均提升8.15%，且无需昂贵多轮讨论，计算量更少。

扫描二维码关注公众号，回复： 17596222 查看本文章

HKUST |YuE模型：长音乐生成

本文作者针对长篇音乐生成中的歌词到歌曲难题，基于LLaMA2架构提出了YuE模型。该模型可扩展至万亿级token，生成长达5分钟的音乐，保持歌词对齐、音乐结构连贯和吸引人的旋律。

通过轨道解耦的下一个token预测、结构化渐进式条件和多任务多阶段预训练实现。还重新设计了音乐生成的上下文学习技术，支持风格转换和双向生成。经评估，YuE在音乐性和人声灵活性上可匹敌甚至超越一些专有系统，其学习到的表示在音乐理解任务上表现优异。

Sea | 强化学习：Dr.GRPO

连接：https://arxiv.org/pdf/2503.20783

DeepSeek-R1-Zero证明了强化学习（RL）可直接提升大型语言模型（LLMs）的推理能力，无需监督微调。本文作者对 R1-Zero 类训练的两大核心组件——基础模型和RL进行了批判性分析，研究发现，DeepSeek-V3-Base 基础模型已表现出“顿悟时刻”，而 Qwen2.5 基础模型即使没有提示模板也具备强大推理能力，暗示了预训练可能存在偏差。

此外，本文作者发现GRPO存在优化偏差，会导致训练时响应长度增加，尤其是错误输出。为此，作者引入无偏优化方法Dr.GRPO，在保持推理性能的同时提升token效率。基于这些见解，提出极简 R1-Zero 方案，使用 7B 基础模型在 AIME 2024 上达到 43.3% 准确率，创下新纪录。

Tuebingen| 升级版LoRA：DeLoRA

连接：https://arxiv.org/pdf/2503.18225

随着大规模预训练模型的广泛应用，参数高效微调（PEFT）方法因能快速适应下游任务且计算成本低而受关注。但常见微调方法如LoRA在超参数选择或扩展训练方案方面表现的鲁棒性存在一定的局限性。

为此，本文作者提出了解耦低秩适配（DeLoRA）方法，通过归一化和缩放可学习低秩矩阵，限制变换距离，有效解耦角度学习与适配强度，增强鲁棒性且不损失性能。在主题驱动的图像生成、自然语言理解和指令微调等任务评估中，DeLoRA匹配或超越了其他PEFT方法性能，且鲁棒性更强。

清华| 目标检测分割：YOLOE

连接：https://arxiv.org/pdf/2503.07465

目标检测与分割在计算机视觉应用中广泛使用，但传统模型如YOLO系列主要依赖预定义类别，在开放场景中应用受限。

为此，本文作者提出YOLOE，将检测与分割整合于单一高效模型，涵盖多种开放提示机制，实现任意目标实时识别。

针对文本提示，提出可重参数化区域文本对齐（RepRTA）策略，通过轻量辅助网络优化预训练文本嵌入，强化视觉文本对齐且无推理和迁移开销；

对于视觉提示，呈现语义激活视觉提示编码器（SAVPE），采用解耦语义与激活分支，在极小复杂度下提升视觉嵌入与精度；

在无提示场景下，引入懒惰区域提示对比（LRPC）策略，借助内置大词汇量与专用嵌入识别所有目标，避免依赖昂贵语言模型。

大量实验表明YOLOE零样本性能卓越、迁移性强，推理效率高且训练成本低。

JHU|AgentRxiv框架，助力科学研究

连接：https://arxiv.org/pdf/2503.18102

科学发现往往是众多科学家共同协作的成果，但现有智能体工作流自主研究时相互孤立。

本文作者提出AgentRxiv框架，让LLM智能体实验室能从共享预印服务器上传、检索报告，实现协作、共享见解、迭代构建研究。实验表明，能访问先前研究的智能体相比孤立智能体性能提升更明显（在MATH - 500上相对基线提升11.4%），且该策略在其他领域基准测试中平均提升3.3%。多个实验室通过AgentRxiv共享研究成果，朝着共同目标更快进步，整体准确率更高（在MATH - 500上相对基线提升13.7%），表明自主智能体或许能与人类共同设计未来AI系统，加速科学发现。

更多：>>>>专注大模型/AIGC、学术前沿的知识分享！

LLM每周学术/资讯最前沿！ | 涉及Llama4、DeepSeek最新研究、强化学习、大模型Agent应用等

引言

Meta | 开源Llama 4

DeepSeek | SPCT训练方法

UNC |符号MoE架构

HKUST |YuE模型：长音乐生成

Sea | 强化学习：Dr.GRPO

Tuebingen| 升级版LoRA：DeLoRA

清华| 目标检测分割：YOLOE

JHU|AgentRxiv框架，助力科学研究

推荐阅读

目录

引言

Meta | 开源Llama 4

DeepSeek | SPCT训练方法

UNC |符号MoE架构

HKUST |YuE模型：长音乐生成

Sea | 强化学习：Dr.GRPO

Tuebingen| 升级版LoRA：DeLoRA

清华| 目标检测分割：YOLOE

JHU|AgentRxiv框架，助力科学研究

推荐阅读

猜你喜欢

目录

热门文章