低资源大语言模型LLM研究者的希望 LIMA + 4Bit 量化训练

人类的大模型炼丹可能也遵从2/8规则,RLHF训练能增强20%的大模型响应能力但是需要花费额外80%的训练成本。

LIMA模型的研究 (https://arxiv.org/abs/2305.11206)给大家指明了可能的低资源条件下大模型研究方向,概括起来就是以下几点:

1 。 指令微调只是给模型增加风格,并不能提升能力

2。指令微调数据的质量, 每条指令遵从的质量和多样性才是关键。

3。RLHF人类遵从的强化学习训练不是必要的

越大的模型才有越强的潜力,65B可能成为黄金分割点,兼顾成本与效果的平衡。

LIMA在65B参数上用1000条微调数据达到了可接受的水平,这给个人研究者带来了一定的希望,具体方法是:

1.  4Bit 训练方法,可以在A6000或6000 ADA这样的消费级显卡上进行65B模型的微调

        4bit微调框架:kuleshov-group/llmtune: 4-Bit Finetuning of Large Language Models on One Consumer GPU (github.com)

扫描二维码关注公众号,回复: 15644624 查看本文章

   QLora 框架,精度损失更小:artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs (github.com) 

2. 人工收集加工1000条或稍多的高质量指令微调数据成为可能

        数据需要高质量(多样性,每条的质量要好)

预测后面的 大模型研发工作将进入井喷状态,各种大模型会层出不穷。

挑战: 从论文和最近社区的实践来看,这种方法可能不会达到完全状态,很难超越GPT4或其它类似模型,但是可以让开源模型达到可实用阶段。

猜你喜欢

转载自blog.csdn.net/znsoft/article/details/130839134