从0到1:如何系统地学习大语言模型

随着ChatGPT在2022年11月的发布,大语言模型从比较专业的应用领域走进了人们的生活。在这之前,生成式预训练Transformer(GPT)在文本预测、推理、补全、翻译等方面应用较广,而ChatGPT的“Chat”这种交互方式拉近了生成式AI与人类使用者之间的距离,大语言模型迅速爆火,同类的产品经过一段时间的追赶,也逐步形成与OpenAI竞争的态势。

  • 一、误区

大语言模型(LLM,Large Language Model)从2017年Google翻译团队那篇著名的论文《attention is all you need》开始飞速发展,时间也不过7、8年时间,模型架构、相关软件版本变化非常快,各种模型层出不穷,对于为了开发基于AI的应用、将LLM当成一种基础工具使用的初学者,学习大语言模型可能会走入以下误区:

1、以深度学习的理论学习大语言模型

由于神经网络、深度学习、NLP等理论、算法、实践都比较成熟,一些图书会以这些理论为基础,讲解LLM,这也没什么问题,但对于初学者,这些知识门槛不低,很容易造成“入门到放弃”。实际上,从2017年后,LLM的基础理论并未有大的变化,一个Transformer架构、一个注意力机制,再加上一个Transformers库的知识储备,对于入门LLM基本上就够了。

2、可能误入ChatGPT生态

很多LLM的书,是讲ChatGPT如何使用,如何用OpenAI的接口编写程序,图书内容让人眼花缭乱,但问题显而易见,我们难于访问ChatGPT,使用会有成本 ,且使用的是云服务,自己部署模型的本领未学到。

3、可能被限定到某种模型或平台

市面上的模型非常多,几乎都声称爆款、赶超OpenAI、霸榜huggingface之类的,然后初学者被引导到人家的官网、云平台,知识限定到某种模型或API。实际上,从使用者来看,能装显卡驱动、能装CUDA、能装Python,会使用Transformers库,那就能处理大部分模型了,各种模型的安装、微调、开发API,大同小异。

  • 二、学习方法

那么如何系统地学习大语言模型,少走弯路,是初学者所需要了解的。合理的学习路径能够让初学者循序渐进地掌握知识,每学一部分内容,会打下一定的LLM基础,学习时间也不长,学得也扎实,做到“从入门到精通”,而不是“从入门到放弃“。以下是作者总结的学习方法和步骤:

1、准备显卡

LLM是实践性非常强的一门学科,不管是安装、微调、量化,还是应用开发,都需要动手实践,做得多了,填得坑多,经验就丰富。有条件的话,最好准备一张24G显存的显卡,因为目前新的8B、9B规模的模型,使用半精度装入GPU大概要20G以上的显存,当然16G显存的显卡也可以用,装入的模型稍旧些,不影响学习。但如果听信了模型量化工具不需要GPU资源,也能用大模型的说法,实际上这个说法也没错,但学到的知识也只是学到了使用量化大模型这一点知识。

2、学基础知识

了解NLP、Transformer、自注意力机制、PyTorch等这些LLM的基础知识,对深入学习LLM会有帮助,做到知其然,也知其所以然。

3、亲自部署大模型

有很多云算力租用平台,是将显卡驱动、CUDA、Anaconda(Python虚拟环境)、PyTorch等基础环境事先装好的,初学者使用这些平台就会漏学掉很多知识,事实上,显卡驱动、CUDA、Pytorch之间的版本依赖问题是比较多的,安装过程也并不会很顺利,只有自己多装几遍,多实践,才能摸清楚LLM基础环境的脾气,以后遇到报错的时候不会慌张。正确的做法是用裸机,最好是用Linux,初学者在上面装显卡驱动、CUDA、Anaconda、PyTorch,然后部署某一个大模型完整实践,其他模型的使用也同样基于Transformers库,大同小异,区别不大,多装几遍就可以应对很多模型了。

4、学习微调

微调(也可以夸大一些说成训练)是应用大模型的常用技术,初学者在能熟练安装模型的基础上,就可以练习某些模型的微调了,语料格式也就那么几种常用的,微调方法以LoRA较为常用,多练习几遍,也就掌握了。具备这样的知识,就能做行业模型训练之类的工作了。

5、学习RAG

RAG(检索增强、知识库与LLM整合)是目前比较流行的一种技术,我个人理解这只是算力不足、模型训练周期过长等情况下的一种过渡性方案,前景并不好,不过这只是我的一家之言,不一定对。目前RAG比较流行,学习一下也好。

6、学习应用开发

首先,得先学OpenAI的编程接口技术(目前是事实上的Chat应用标准接口方式),了解SSE(服务端主动向客户端推送信息),然后学做一个Chat工具,接着按自己的爱好,学学编程机器人、Agent之类的技术。

  • 三、总结

经过以上的学习步骤,从理论、到具体操作(安装、微调、量化),然后到开发,把LLM的常用的技术就学扎实了,实现了从0到1的突破,用的时间也就是半个月左右,在此基础上,再根据实际情况深入学习,就没什么问题了。在此,给大家推荐一本新书《大模型项目实战:多领域智能应用开发》,是作者用了两年时间、做了近10场、每场30~40位学员的线下培训,然后总结出以上方法论形成的成果。书中的简要操作方法、源代码全部在https://github.com/little51/llm-dev 开源,方便读者实践。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文转自 https://mp.weixin.qq.com/s/dkETzQZPBt6oltO0F35haw,如有侵权,请联系删除。

猜你喜欢

转载自blog.csdn.net/2401_84205765/article/details/143489393