人类的大模型炼丹可能也遵从2/8规则,RLHF训练能增强20%的大模型响应能力但是需要花费额外80%的训练成本。
LIMA模型的研究 (https://arxiv.org/abs/2305.11206)给大家指明了可能的低资源条件下大模型研究方向,概括起来就是以下几点:
1 。 指令微调只是给模型增加风格,并不能提升能力
2。指令微调数据的质量, 每条指令遵从的质量和多样性才是关键。
3。RLHF人类遵从的强化学习训练不是必要的
越大的模型才有越强的潜力,65B可能成为黄金分割点,兼顾成本与效果的平衡。
LIMA在65B参数上用1000条微调数据达到了可接受的水平,这给个人研究者带来了一定的希望,具体方法是:
1. 4Bit 训练方法,可以在A6000或6000 ADA这样的消费级显卡上进行65B模型的微调
4bit微调框架:kuleshov-group/llmtune: 4-Bit Finetuning of Large Language Models on One Consumer GPU (github.com)
扫描二维码关注公众号,回复:
15644624 查看本文章
QLora 框架,精度损失更小:artidoro/qlora: QLoRA: Efficient Finetuning of Quantized LLMs (github.com)
2. 人工收集加工1000条或稍多的高质量指令微调数据成为可能
数据需要高质量(多样性,每条的质量要好)
预测后面的 大模型研发工作将进入井喷状态,各种大模型会层出不穷。
挑战: 从论文和最近社区的实践来看,这种方法可能不会达到完全状态,很难超越GPT4或其它类似模型,但是可以让开源模型达到可实用阶段。