大语言模型的演进

大语言模型的演进

大语言模型的演进

借着上次科技树剪枝的话题《大语言模型为人工智能科技树再次剪枝》,让我们再来看看大语言模型这个分枝是如何生长的,也是经历6年的Google和OpenAI两家公司几次大战后的结果。

第一回合

2017年6月,Google的6500万参数的Transformer模型面世,Google大脑团队(Google Brain)在神经信息处理系统大会(NeurIPS)上发表了一篇名为“Attention is all you need”《自我注意力是你所需要的全部》的论文。这篇论文被视为了大语言模型的开山之作。

2018年6月,OpenAI公司发布了1.17亿参数的GPT-1,GPT-1 采取预训练 + FineTuning两个阶段,它采取Transformer的decoder作为特征抽取器,总共堆叠12个。同时发表了论文“Improving Language Understanding by Generative Pre-training”(用生成式预训练提高模型的语言理解力)

2018年10月,Google提出3亿参数的BERT(Bidirectional Encoder Representation from Transformers),即“来自Transformers的双向编码表示”模型。

此时,BERT的效果好于GPT-1,因为它是双向模型,可以利用上下文来分析。而GPT是单向模型,无法利用上下文信息,只能利用上文。

第二回合

2019年2月,OpenAI推出了GPT-2,最大模型共计48层,参数量达15亿。同时,他们发表了介绍这个模型的论文“Language Models are Unsupervised Multitask Learners” (语言模型是无监督的多任务学习者)。

2021年,OpenAI的副总裁Dario Amodei带着10名员工与公司决裂,成立自己的研究实验室Anthropic,其推出的产品 Claude。

2019年10月,Google在论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》提出了一个新的预训练模型T5(Transfer Text-to-Text Transformer),参数量达到了110亿,成为全新的NLP SOTA预训练模型。

这时,T5以绝对的优势胜出,Google仍然领先。

第三回合

2020年5月,OpenAI发布了具有有1750亿参数的GPT-3,发表了论文“Language Models are Few-Shot Learner”(小样本学习者的语言模型)

2021年1月,Google大脑团队就重磅推出了超级语言模型Switch Transformer,有1.6万亿个参数,是GPT-3 参数的9倍。

2021年1月,OpenAI发布了文本生成图像的模型 DALL-E,超出语言模型向着多模态前进了一步。

2021年5月,谷歌展示了LaMDA(Language Model for Dialogue Applications)对话应用语言模型,具有1370亿参数。

2021年6月,OpenAI 和GitHub 联合发布了新的AI 代码补全工具GitHub Copilot,推出120 亿参数的Codex。

2022年3月,OpenAI发布了InstructGPT,引入人类反馈机制。并发表论文“Training language models to follow instructions with human feedback”(结合人类反馈信息来训练语言模型使其能理解指令),相比1750亿参数的GPT3,人们更喜欢13亿参数的InstructGPT生成的回复,并不是规模越大越好。

2022年7月,OpenAI发布了 DALL-E 2;

那时,业界仍然更加认可Google的大模型。

第四回合

2022年11月30日,OpenAI发布了约2000亿参数的ChatGPT,是对GPT-3模型(又称为GPT-3.5)微调后开发出来的对话机器人。ChatGPT3的token限制大约在4096左右,大约相当于3072个英文单词,其训练数据的最后更新时间是在2021年的9月。

ChatGPT 这个产品并不是有心栽花,而是无心插柳的结果。最早,团队是用它来改进GPT语言模型的。因为 OpenAI 发现,要想让 GPT-3 产出用户想要的东西,必须使用强化学习,让人工智能系统通过反复试验来学习以最大化奖励,来完善模型。而聊天机器人可能是这种方法的理想候选者,因为以人类对话的形式不断提供反馈将使人工智能软件很容易知道它何时做得很好以及需要改进的地方。因此,在 2022 年初,该团队开始构建 ChatGPT。

2023年1月23日,微软表示,它正在扩大与 OpenAI 的合作伙伴关系,以290亿美元的估值继续投资约100亿美元,获得 OpenAI 49%的股权。

2023年2月7日,谷歌发布了下一代对话AI系统Bard,基于的大语言模型LaMDA的类ChatGPT产品。

2023年3月14日OpenAI发布了GPT-4 ,并没有公布参数量。最大token数为32768个,大约相当于24576个单词,文本长度被扩大了八倍。支持多模态输入,数据库的最后更新时间是在2021年9月。

截止目前,OpenAI的GPT-4完胜。但也出现了另一隐忧,GPT变成全封闭的大语言模型,不再有细节信息透露,外界只能通过API来使用它。

大模型历史发展过程以及这支科技树的发展情况,参见下图:

img

img

开源的大语言模型市场:大的拼不过,再来拼小的

2023年2月24日,Meta公司发布一款新的人工智能大型语言模型LLaMA。LLaMA 模型接受了20种语言训练,包括拉丁语和西里尔字母语言。目前包含70亿、130亿、330亿和650亿这4种参数规模的模型,参数仅为十分之一的LLaMA-130亿的性能优于OpenAI推出的GPT3(1750亿参数),也即支持ChatGPT的GPT3.5的前身。

2023年3月14日,斯坦福大学发布了Alpaca,它是由Meta的LLaMA 70亿参数微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。训练成本却不到600美元。

2023年3月31日,UC 伯克利联手 CMU、斯坦福、UCSD 和 MBZUAI,推出了 130 亿参数的 Vicuna,仅需 300 美元就能实现 ChatGPT 90% 的性能,只需单个 GPU 就能跑。

由LLaMA(美洲驼),Alpaca(羊驼)和Vicuna(小羊驼)组成的开源模型战斗组合,帮助那些无法接入GPT API的厂商开辟了另一个广阔的市场。数据对比参见下图:

img

img

现在我们一般谈到大语言模型,参数是超过100亿的。ChatGPT帮人类打开了一个大门,且让人们通过大门看到了曙光,越来越多的企业会走到这条路上,让科技的这个分支更加繁茂。

一般谈到大语言模型,参数是超过100亿的。ChatGPT帮人类打开了一个大门,且让人们通过大门看到了曙光,越来越多的企业会走到这条路上,让科技的这个分支更加繁茂。

猜你喜欢

转载自blog.csdn.net/linjie_830914/article/details/130630921
今日推荐