LLM入门课#04-大模型的微调技术

LLM入门课#04-大模型的微调技术

大家经常会听到大模型这个概念,实际上这些通用大模型的训练非常依赖硬件的资源情况,你可能听过某某公司又买了几百张卡用于模型训练,某公司又构建了一个多大的数据中心,这些对于我们普通人来说是非常不容易的。下面有一张图用来展示一个模型构建过程中所占用的资源情况,除了模型本身的参数之外,还有梯度、优化器的状态等其他的需要占用到资源的情况。

image-20250314144250328

所以,微调是一个非常关键的技术,通过少量的资源在你的特定任务上进行训练。一些技术会稍微更新修改其中的一些参数,另外一些技术中会在原有的模型基础上添加一些层来完成,通过这种方式来避免模型出现的灾难性遗忘的问题。适合于特定任务的训练,比如a适合问答,b适合总结。

image-20250314144603111

相当于原先有个基础模型,基础模型有基础的认知能力,在这个基础模型上,对各个子任务进行微调,微调之后可以让你们的模型整体非常强大,每次当有不同的任务来到的时候,模型就会适配使用不同的头部。

猜你喜欢

转载自blog.csdn.net/ECHOSON/article/details/146258849
今日推荐