看一下llama大模型吧

1.llama1 与 llama2 的区别

1)预训练语料从1->2 Trillion（万亿） tokens

2）context window 长度从2048->4096

3）收集了100k人类标注数据进行SFT（指令微调）

4）收集了1M人类偏好数据进行RLHF（先用偏好数据（对同一个问题，不同的大模型的回答进行排序打分）训练一个奖励模型，然后用奖励模型对模型回答进行打分，利用奖励模型提供的反馈，优化预训练模型的输出，使其更符合人类的偏好。）

2.LLaMA的示意图，区别于transformer模型的点

1）这张图展示的是 LLaMA 系列模型（包括 LLaMA 2）中 Transformer Block 的架构，它是一个典型的 Decoder-only 架构的 Transformer 模块，与transformer传统架构区别如下

1）替代了传统的正弦-余弦位置编码，引入旋转位置编码（RoPE），提升了模型在处理长文本和捕捉相对位置信息方面的能力（RoPE 的核心思想是将位置信息通过旋转操作嵌入到查询（Query）和键（Key）向量中。具体来说，对于每个位置 ppp，定义一个旋转角度 θp\theta_pθp，然后对向量进行旋转，这个旋转角度是通过确定性的数学公式计算得出，确保每个位置的编码具有一致性和可重复性。），而之前传统的正弦-余弦位置编码，是采用固定的正弦和余弦函数：

2）对输入向量进行 Root Mean Square Normalization，这是 LLaMA 使用的归一化方式（区别于 LayerNorm（层归一化））

RMSNorm专注于**重新缩放（re-scaling）**输入数据，而不是重新中心化（re-centering）。这种方法通过计算输入向量的均方根（RMS）来实现归一化。

3）SiLU 激活 + Gated Linear Unit 结构：非线性增强，计算更高效。

（在LLaMA模型中，激活函数从传统的ReLU切换为SiLU（Sigmoid-Weighted Linear Unit），并结合了Gated Linear Unit (GLU)结构。这种设计旨在增强非线性表达能力，同时提高计算效率。）

4）Decoder-only 结构 + Causal Mask（和gpt模型一样）

3.随着大模型规模日益增长，微调整个模型的开销逐渐变得难以接受。本文提出了一种名为PiSSA的参数高效微调方法，微调模型中最重要的参数。

文章内容参考链接：https://zhuanlan.zhihu.com/p/636784644

https://zhuanlan.zhihu.com/p/695583073

猜你喜欢

目录

热门文章