预训练语言模型 | (1) 概述

 

自从Bert问世以来,预训练语言模型的各种变体层出不穷,在预训练语言模型专栏,我将参考一些资料,对一些主要的平时使用比较多的预训练语言模型做一些理论层面的整理。

至于预训练语言模型的应用,可以查阅我的文分分类和机器阅读理解相关专栏,上面结合代码和具体的任务,详细说明了如何把预训练语言模型应用到文本分类和阅读理解任务上。

全系列预训练语言模型的相关论文可以查看清华大学刘志远老师组整理的list:https://github.com/thunlp/PLMpapers。具体的模型细节,可以查阅list中的相关论文。

 

  • 简单概述

语言模型是机器理解人类语言的途径,17年的transformer是语言模型摆脱rnn,lstm建模的一次尝试,后续的bert则是大力出奇迹的代表,用更大的模型和更多的数据将nlp任务的benchmark提高了一大截。gpt在auto-regressive的路上一路走到黑,而xlnet将gpt和bert的优点结合在了一起,然后用更更大的数据吊打了bert。没过多久,bert的增强版roberta用更更更大的数据打败了xlnet。然而当bert的模型达到一定程度后,受到了硬件资源的限制,于是谷歌通过矩阵分解和参数共享压缩了bert的模型大小,因此当albert使用了和bert同样的参数量的时候,推理能力又上了一个台阶

接下来几篇博客,我将对一些主要的平时使用比较多的预训练语言模型做一些理论层面的整理,今后还会跟进预训练语言模型技术的发展,争取与时俱进。

 

 

发布了405 篇原创文章 · 获赞 765 · 访问量 14万+

猜你喜欢

转载自blog.csdn.net/sdu_hao/article/details/104189186