DeepSeek:核心技术详解(深度好文)

目录

核心技术一:强化学习GRPO

核心技术二:知识蒸馏

核心技术三:MOE架构(分而治之)

核心技术四:智能体(AI Agent)

核心技术五:Graph RAG

核心技术六:思维链

核心技术七:多模态智能体

核心技术八:MLA机制


DeepSeek,2024 年 1 月 5 日发布首个大模型 DeepSeek LLM。2024 年 5 月,开源第二代 MoE 大模型 DeepSeek - V2。

2024 年 12 月 26 日,模型 DeepSeek - V3 首个版本上线并开源。

2025 年 1 月 20 日,正式发布 DeepSeek - R1 模型。2025 年 2 月,DeepSeek - R1、V3、Coder 等系列模型陆续上线国家超算互联网平台。

如何实现了技术创新和科技变革?

核心技术一:强化学习GRPO

1. 强化学习GRPO(广义策略优化)是一种基于策略梯度的无模型强化学习算法,通过优化策略网络来最大化累计奖励,利用广义优势估计(GAE)等技术来提高样本效率和学习稳定性。
2. 它的价值在于能有效处理高维、复杂的强化学习环境,提高学习效率,降低样本复杂度,可应用于机器人控制、自动驾驶、游戏等众多领域,帮助智能体快速学习到接近最优的策略。
3. 使用GRPO时,通常需先定义环境和智能体的状态空间、动作空间,然后初始化策略网络和价值网络,接着收集环境交互数据,利用这些数据通过GRPO算法更新策略网络和价值网络,不断迭代优化直到达到满意的性能。
4. 相比PPO算法,GRPO能更好地利用旧策略数据,理论上有更强的理论收敛保证,在一些复杂环境中可能具有更好的样本效率和收敛速度,对优化问题的处理更灵活,能适应更广泛的目标函数优化。

比PPO算法的好处在于其无需单独价值网络,在计算效率、内存占用上更具优势,通过KL散度约束使策略更新更可控,能以更快的训练速度、更少的资源消耗实现更稳定的策略优化。GRPO摒弃价值网络,显著减少了计算和存储需求,训练速度提升30%,内存节省了50%;

为什么关注强化学习和策略优化?

在介绍 GRPO 前,先思考:为何重视策略优化和强化学习?在推荐系统、大语言模型对齐等场景中,我们期望模型输出更优序列。深度强化学习用 “奖励” 引导生成,策略优化是其中关键方法

语言模型应用与强化学习微调

语言模型应用时,通常先进行大规模无监督或自监督训练,再通过 “监督微调”(SFT)初步满足需求。但 SFT 难以融入人类偏好,“强化学习微调” 便应运而生,PPO 是代表性算法,不过它要维护大价值网络,在大模型场景中对内存和计算需求大,GRPO 正是在此背景下诞生。

通俗讲解一下监督微调:好比一个大学生,虽然在大学里学习了很多基础知识,但毕业进入不同行业,还需要参加入职培训、专项训练,才能更好地完成工作任务。预训练模型也是如此,通过后续的微调,比如监督微调(SFT),就能适应不同的具体任务,发挥出更大的价值。监督微调(SFT)通常需要基于预训练模型进行。我把它类比成装修房子,方便你理解二者关系。预训练模型就像是毛坯房,开发商(预训练过程)已经完成了房屋主体结构的建造,并且准备好了基本的水电等基础设施,就像预训练模型已经在大量数据上学习到了通用的语言知识和语义理解能力。

价值函数(当下评估,太昂贵)与优势函数(未来期望,分组比较)的作用

在 PPO 等策略梯度方法中,常引入价值函数,它表示当前状态下未来期望获得的奖励;优势函数衡量某个动作比平均水平好多少。引入它们是因为仅靠奖励指引训练,样本方差大、收敛慢,价值函数可降低训练方差,提升效率。

PPO 的局限性

小模型时代,PPO 相关问题影响不大,但在当代 LLM 背景下,训练内存和计算资源紧张。进行 RLHF 或其他对齐强化学习时,要搭建奖励模型、价值网络和策略模型,算力负担重。

GRPO 的问题背景

GRPO 旨在保证如 PPO 般稳定、可控的前提下,减少对昂贵价值网络的依赖。其核心思路是用 “分组输出相互比较” 估计基线,从而无需价值网络。

GRPO 是什么?为何需要它?

PPO 在大模型时代存在痛点,GRPO(Group Relative Policy Optimization)为解决问题而生。在许多实际应用中,奖励稀疏离散,让价值网络学习每个 token 价值不划算,通过奖励对比能推断输出优劣,对 token 进行相对评分,无需明确价值函数。

GRPO 的关键点

  • 分组采样与相对奖励:针对问题 q 采样多份输出,送入奖励模型得到奖励分,归一化处理后得出分组内相对水平,形成相对奖励,赋给对应 token 的优势函数,直接反映同一问题下的优劣。

  • 无需价值网络的高效策略优化:GRPO 无需在每个 token 上拟合价值函数,节省内存,大幅加速训练。当然,它也有代价,推理时需多花算力生成候选答案,与 “自洽性采样” 思路类似。

核心技术二:知识蒸馏

1. 知识蒸馏:是一种模型压缩和迁移学习技术,通过将一个复杂的教师模型的知识传递给一个简单的学生模型,让学生模型学习模仿教师模型的输出行为,从而使学生模型在保持一定性能的同时具有更小的规模和更高的效率。
2. 核心价值:它能解决模型部署时计算资源受限、推理速度慢的问题,还能提升小模型在复杂任务上的性能,减少过拟合风险,提高模型的泛化能力。
3. 如何使用?使用知识蒸馏时,首先要训练一个性能较好的教师模型,然后将教师模型的软标签或中间层特征等知识作为监督信息,与原始数据的硬标签一起用于训练学生模型,通过调整学生模型的参数使其输出与教师模型的输出尽可能相似,从而完成知识的迁移。

4. 总结:是一种模型压缩和优化技术,它将一个复杂的、性能较高的教师模型的知识,通过特定的训练方法传递给一个相对简单的学生模型。在这个过程中,学生模型学习模仿教师模型的行为和决策,从而在保持或接近教师模型性能的同时,拥有更小的模型规模和更低的计算成本。
好处:泛化能力强,训练成本低,推理速度快

5. 举例说明:

假设教师模型是一个大型的卷积神经网络(CNN),用于识别各种动物。它在海量的动物图像数据集上进行了长时间训练,能够准确识别不同种类的动物。而学生模型是一个相对简单的小型 CNN。

在知识蒸馏过程中,教师模型对一张猫的图片进行预测,输出的结果是对各类动物的概率分布,比如猫的概率是 0.9,狗的概率是 0.05,其他动物是 0.05 等。这个概率分布包含了教师模型对这张图片的 “知识”,不仅仅是判断出这是猫,还包含了它对其他动物可能性的 “认知”。

然后,学生模型也对同一张图片进行预测,通过一种损失函数,将学生模型的预测结果与教师模型的输出概率分布进行对比,让学生模型学习教师模型的 “知识”。在这个过程中,学生模型逐渐调整自己的参数,使得自己的预测结果越来越接近教师模型的输出概率分布。经过一段时间的训练,虽然学生模型结构简单,但也能像教师模型一样准确地识别动物。

核心技术三:MOE架构(分而治之)

在 MOE 架构里,模型由多个 “专家模型”(对应上面的各个专家)和一个 “门控网络”(相当于系统的路由机制)组成。门控网络根据输入数据的特征,判断应该把任务交给哪个专家模型处理。这种架构使得模型在处理复杂多样的任务时,就像专业分工明确的团队一样高效,每个专家模型专注于自己擅长的领域,不仅提高了处理速度,还能提升结果的准确性。例如在自然语言处理中,不同的专家模型可以分别擅长处理翻译、文本生成、情感分析等任务,遇到相应任务时,门控网络精准分配,大大提升模型的综合性能。

1. MOE(Mixture of Experts)架构是一种将多个专家模型组合起来,通过门控网络来选择和融合不同专家输出的架构。
2. 它能解决模型容量有限难以处理复杂多样任务、训练成本高以及过拟合等问题,提高模型的泛化能力和性能。
3. 它通过将任务分解为多个子任务,让不同专家模型分别处理擅长的子任务,门控网络根据输入数据动态分配任务到合适的专家,并对专家输出进行加权融合,以此来解决上述问题。

MOE架构讲解

以前是稠密模型(大专家教授孩子),现在用多个专家教授孩子,但是不是一次性用,有选择性的挑选专家来,一直用的叫共性专家,路由是随机挑选的专家;

4. 举例说明:

假设你运营一家大型电商平台,每天会收到海量来自顾客的咨询。这些问题各式各样,有的询问商品信息,有的是物流进度查询,还有的是售后投诉等。为了高效处理这些问题,你组建了一个客服团队,并且给团队成员进行了专业分工:

商品专家:对平台上各类商品的特点、功能、使用方法等了如指掌,专门负责解答顾客关于商品的疑问。

物流专家:熟悉所有物流合作伙伴的运作流程,能精准查询和反馈订单的物流状态,处理物流相关问题。

售后专家:擅长处理各种售后纠纷,无论是商品退换货,还是质量投诉,都能妥善解决。

当有顾客咨询 “某款智能手表的续航时间是多久”,系统(相当于 MOE 架构中的路由机制)会把这个问题分配给 “商品专家”。因为 “商品专家” 在商品知识方面是最专业的,能够快速准确地给出答案。同样,当顾客询问 “我的快递到哪儿了”,系统会将问题交给 “物流专家” 处理。


为什么MoE让大模型的推理速度更快?其实就是将Transformer中一个大的FFN网络替换成多个小的专家网络(也是FFN结构),每次推理只激活其中的1~2个专家网络,大大减少推理的计算参数量,从而提升整个MoE模型的推理效。

核心技术四:智能体(AI Agent)

1. 智能体是一种具有感知、决策和执行能力的智能系统或程序,能够理解外部环境信息,基于自身的知识和算法进行推理、规划与决策,并采取相应行动来实现特定目标。
2. 智能体可解决的问题包括但不限于信息处理与分析难题,如快速处理和理解海量数据;人机交互中的沟通障碍,提供自然流畅的交互体验;复杂任务的自动化执行问题,将任务拆解并自主完成,提升工作效率。
3. 使用智能体时,通常需先明确任务需求和目标并输入给智能体,然后根据其提供的交互方式,如文本输入、语音指令等进行操作,最后对智能体输出的结果进行评估和验证,必要时调整输入或参数,以获得更满意的结果。

又称“人工智能代理”,是一种模仿人类智能行为的智能化系统,能够感知所处的环境,并依据感知结果,自主地进行规划、决策,进而采取行动以达成特定目标。简单来说,智能体能够根据外部输入做出决策,并通过与环境的互动,不断优化自身行为。

核心技术五:Graph RAG


1. Graph RAG是一种融合图结构数据与检索增强生成(RAG)技术的方法,旨在将图数据中的结构信息和语义信息融入到生成任务中。
2. 它解决了传统RAG在处理具有复杂关系和结构的数据时表现不佳,以及难以有效利用图数据中丰富信息等问题,提升了生成结果的准确性和相关性。
3. 其核心原理是通过图神经网络对图数据进行编码,提取图的结构特征,然后将这些特征与文本数据的表示相结合,在检索和生成过程中利用图的信息来指导和优化生成过程。


核心技术六:思维链


1. 思维链是思考路径,一种让大模型在处理任务时,生成一系列中间推理步骤,或逻辑链条来得出最终答案的方法,可看作是模型从输入到输出过程中展现出的思考路径。
2. 其核心价值在于,能显著提升大模型在复杂推理任务上的性能表现,使模型输出更具可解释性,还能帮助人更好地理解模型决策过程,增强对模型的信任度。
3. 常见的思维链包括简单思维链、复杂推理思维链、多模态思维链等,简单思维链用于基础推理,复杂推理思维链针对复杂逻辑问题,多模态思维链则融合多种模态信息进行推理。


核心技术七:多模态智能体


1. 多模态智能体是一种能够融合多种模态(如视觉、听觉、语言等)信息,并利用这些信息进行感知、决策和交互的智能系统。
2. 它能解决单一模态信息有限导致的理解不全面、不准确问题,以及在复杂场景中多模态协同感知与交互的难题,提升智能体在真实世界中的适应性和智能水平。
3. 使用多模态思维链时,首先要将不同模态信息进行融合编码,然后基于融合后的信息构建思维链,引导智能体按照多模态逻辑进行推理和决策,以实现更高效准确的任务执行和交互。

核心技术八:MLA机制

MLA机制:大语言模型用规则填词,查找序列中各个词关联的概率,神经网络记不住以前的信息(RNN/LSTM),DS对Transfomrer改进,记住该记住的次,减少内存成本;

1956年是“人工智能元年”,2025年是大模型元年,2025年是智能体元年,69年有6个关键里程碑,两次革命性飞跃,一次是判别式AI技术,基于机器学习;第二次是生成式AI技术,基于深度学习。
人工智能包含了机器学习,机器学习包含了深度学习,深度学习可以采用不同的模型,其中一种模型是预训练模型,预训练模型包含了预训练大模型(可以简称为“大模型”);
大模型是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,核心技术之一就是;
Transformer是在谷歌团队在2017年发表的,论文名称为《Attention Is All You Need》
- 核心价值一:Transformer的自注意力机制(精准捕捉输入数据中的长期依赖关系),让模型能更智能地理解上下文信息。
- 核心价值二:Transformer的并行计算能力,极大提高了训练和推理效率。
- 核心价值三:Transformer的多模态融合技术,多头注意力机制,能够更好地处理复杂的任务。
基于编码器,的知名模型是Bert模型,变现卓越,类似于完形填空;基于解码器,的知名模型就是GPT,强大语言理解和生成能力;

MLA 机制核心原理

  • 降低计算复杂度:它通过联合压缩键值(Key - Value)为低秩向量,极大地减少了推理时的 KV 缓存需求。在处理长文本序列时,效率得以显著提升,同时降低了硬件内存占用。举例来说,当模型处理一篇超长的学术论文时,传统的注意力机制可能需要大量的内存来存储键值对,而 MLA 机制可以将这些键值对压缩成低秩向量,从而减少内存的使用,使得模型能够更高效地处理文本。

  • 参数共享结构:在不同注意力头之间采用共享部分结构的方式,减少了模型参数数量。这不仅没有降低模型的输出质量,反而在部分任务中超越了传统 MHA 的性能。比如在机器翻译任务中,MLA 机制可以在不增加过多参数的情况下,更准确地捕捉源语言和目标语言之间的语义关系,提升翻译的准确性。

MLA 机制在 DeepSeek 中的应用

在 DeepSeek 的模型架构中,MLA 机制与其他技术协同发挥作用。以 DeepSeekMoE 架构为例,MoE 通过动态路由机制,将输入数据分配给最相关的专家处理,实现计算资源的高效利用;而 MLA 机制则通过引入潜在向量,减少键值缓存(KV cache)的需求,显著提升了推理效率。在 DeepSeek - V2 架构中,MLA 技术被整合应用,通过细粒度划分专家网络和共享公共知识专家,在平衡计算资源与模型质量的同时,还降低了 30% 的推理成本 ,使得模型在运行时更加高效且经济。

猜你喜欢

转载自blog.csdn.net/Peter_Changyb/article/details/145801300
今日推荐