LLaMA

文章目录

LLaMA
- 关于
- 使用

关于

Introducing LLaMA: A foundational, 65-billion-parameter large language model
https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
github : https://github.com/facebookresearch/llama
论文：LLaMA: Open and Efficient Foundation Language Models
https://arxiv.org/abs/2302.13971
LLaMA Model Card : https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md

模型说明

转载翻译自：https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md

This repository is intended as a minimal, hackable and readable example to load LLaMA (arXiv) models and run inference.

提供多种大小的 LLaMA ： 7B, 13B, 33B, 和 65B 参数，并共享LLaMA模型卡，详细说明如何根据可靠的的人工智能实践方法构建模型。
在1.4万亿 tokens 上训练了LLaMA 65B和LLaMA 33B。我们最小的模型LLaMA 7B是在一万亿个 tokens 上训练的。

与其他大型语言模型一样，LLaMA的工作原理是将一系列单词作为输入，并预测下一个单词以递归生成文本。
为了训练的模型，从20种使用者最多的语言中选择了文本，重点是那些使用拉丁字母和西里尔字母的语言。
LLaMA被设计为通用的，可以应用于许多不同的用例，而不是为特定任务设计的微调模型。

评估

模型性能指标使用以下指标来评估模型：

常识推理、阅读理解、自然语言理解（MMLU）、BIG卧推、WinoGender和CrowS Pairs的准确性，
与问题回答完全匹配，
Perspective API对 RealToxicityPrompts 的toxicity评分。

决策阈值不适用。
不确定性和可变性的方法由于训练LLM的计算要求很高，只训练了每种大小的一个模型，因此无法评估预训练的可变性。

该模型在以下基准上进行了评估：BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、 ARC、OpenBookQA、NaturalQuestions、TriviaQA、RACE、MMLU、BIG台式硬盘、GSM8k、RealToxicityPrompts、WinoGender、CrowS Pairs。

数据使用

该模型使用以下数据来源进行训练：CCNet[67%]、C4[15%]、GitHub[4.5%]、Wikipedia[4.5%]、Books[4.5%]]、ArXiv[2.5%]和Stack Exchange[2%]。
维基百科和图书领域包括以下语言的数据：bg、ca、cs、da、de、en、es、fr、hr、hu、it、nl、pl、pt、ro、ru、sl、sr、sv、uk。

Quantitative 分析

模型体系结构的超参数

LLaMA	Model hyper parameters
Number of parameters	dimension	n heads	n layers	Learn rate	Batch size	n tokens
7B	4096	32	32	3.0E-04	4M	1T
13B	5120	40	40	3.0E-04	4M	1T
33B	6656	52	60	1.5.E-04	4M	1.4T
65B	8192	64	80	1.5.E-04	4M	1.4T

我们在下表中给出了八个标准常识推理基准的结果。

LLaMA	Reasoning tasks
Number of parameters	BoolQ	PIQA	SIQA	HellaSwag	WinoGrande	ARC-e	ARC-c	OBQA	COPA
7B	76.5	79.8	48.9	76.1	70.1	76.7	47.6	57.2	93
13B	78.1	80.1	50.4	79.2	73	78.1	52.7	56.4	94
33B	83.1	82.3	50.4	82.8	76	81.4	57.8	58.6	92
65B	85.3	82.8	52.3	84.2	77	81.5	56	60.2	94

我们在下表中给出了我们关于偏差的结果。请注意，较低的值更好地指示较低的偏置。

No	Category	FAIR LLM
1	Gender	70.6
2	Religion	79
3	Race/Color	57
4	Sexual orientation	81
5	Age	70.1
6	Nationality	64.2
7	Disability	66.7
8	Physical appearance	77.8
9	Socioeconomic status	71.5
	LLaMA Average	66.6

使用

安装

# 安装依赖项
pip install -r requirements.txt

# 安装 llama
pip install -e .

下载模型

要下载 checkpoints 和tokenizer，需要填写表格：google form https://forms.gle/jk851eBVbX1m5TAv5

如果你填写表单被允许了，将会收到下载 tokenizer 和 model 文件的链接；

编辑 download.sh 脚本，和邮件中签名的 url，来下载，

推理

提供的 example.py 可以在单GPU 或多GPU 上，使用 torchrun 来运行，完成后将输出两个预定义的 prompts。

使用 download.sh 中定义的 TARGET_FOLDER :

torchrun --nproc_per_node MP example.py --ckpt_dir $TARGET_FOLDER/model_size --tokenizer_path $TARGET_FOLDER/tokenizer.model

不同的模型需要不同的 MP 值:

Model	MP
7B	1
13B	2
33B	4
65B	8

23-04-04

LLaMA

LLaMA

文章目录

关于

模型说明

评估

数据使用

Quantitative 分析

使用

安装

下载模型

推理

猜你喜欢