A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs

本文是LLM系列文章,针对《A Little Help Goes a Long Way: Efficient LLM Training by
Leveraging Small LMs》的翻译。

摘要

大型语言模型(LLM)开发的一个主要挑战是其繁重的预训练成本。通常,这种预训练涉及在大型语料库上优化自我监督目标(如下一个token预测)。本文探索了一种通过适当利用小语言模型(SLM)来提高LLM预训练效率和质量的有前景的范式。特别是,这种范式依赖于SLM来(1)提供软标签作为额外的训练监督,以及(2)选择一小部分有价值的(“信息”和“硬”)训练示例。总的来说,这使得SLM的预测分布能够有效地转移到LLM,同时优先考虑训练数据分布的特定区域。根据经验,与标准训练相比,这可以减少LLM的训练时间,同时提高整体质量。理论上,我们开发了一个统计框架,系统地研究SLM在高效训练高质量LLM方面的效用。特别是,我们的框架描述了SLM看似低质量的监督如何加强更有能力的LLM的训练。此外,它还强调了通过在SLM提供的软标签引入的偏差和方差之间取得平衡,对这种监督进行适应性利用的必要性。我们通过在Pile数据集上使用具有1.5B参数的较小LM来改进具有2.8B参数的LLM的预训练,从而证实了我们的理论框

猜你喜欢

转载自blog.csdn.net/c_cpp_csharp/article/details/143512215
way