1、基本概念
1.1 定义
目前,谈到大模型,通常都指的是大语言模型(LLMs,即:Large Language Models)
大语言模型是具有大规模参数和复杂计算结构的深度学习模型,通常由深度神经网络构建而成,参数量从数十亿到数千亿不等(甚至更多)
这些模型通过训练海量文本数据来学习语言的语法、语义和语境规则,从而能够生成自然语言文本或理解语言文本的含义
1.2 参数量的重要性
-
类脑设计视角:参数可以类比为脑细胞,脑细胞越多,模型的“智力”越强,能够处理更复杂的任务
-
数学视角:从函数的角度看,参数越多,模型能够映射的关系越复杂,从而更好地捕捉数据中的复杂模式
1.3 训练平台
-
硬件需求:训练大语言模型离不开高性能的GPU,通常需要数百甚至上千个GPU集群(一些大型模型的训练平台可能需要“万卡”级别的GPU支持)
-
工程挑战:除了硬件资源,训练大模型还需要高效的分布式训练框架和优化算法,以应对大规模数据和复杂模型结构带来的挑战
1.4 训练数据
-
预训练语料规模:大语言模型通常需要海量的文本数据进行预训练,例如:一些模型可能会使用18T(18万亿字节)级别的语料,相当于3600万本《红楼梦》的量级
-
数据质量与多样性:除了数据量,数据的质量和多样性也至关重要,高质量的数据可以提高模型的性能和泛化能力,而多样化的数据则有助于模型学习到更广泛的语言模式
1.5 训练时长
-
传统时长:过去,训练一个大语言模型可能需要3到6个月
-
当前进展:随着技术的进步,训练时长已经大幅缩短,现在可能只需要1到2个月(甚至更短),这主要得益于更高效的训练算法、硬件性能的提升以及分布式训练技术的发展
2、小模型时代与大模型时代的对比
-
小模型时代:
-
单一职责原则:每个模型通常针对一个特定的场景或任务进行设计和训练,例如:一个用于文本分类的模型、一个用于机器翻译的模型等,每个模型都有独立的数据集、训练过程、评估方法、部署方式和维护策略
-
系统架构:一个系统中可能挂载多个微服务,每个微服务对应一个或几个小模型(这种架构的优点是每个模型可以针对特定任务进行优化,但缺点是系统复杂度高,维护成本高,且难以实现跨任务的知识共享)
-
-
大模型时代:
-
大一统:一个系统中通常挂载一个大模型,通过指令遵循,大模型可以同时解决多种不同的问题,例如:同一个大语言模型可以用于文本生成、问答、翻译等多种自然语言处理任务
-
多模态大模型:除了单纯处理文本或图像等单一模态数据,大模型还可以发展为多模态大模型,这种模型能够同时处理文本、图像、音频等多种数据类型,实现对多模态信息的综合理解和分析
-
3、生成式人工智能与判别式人工智能
生成式人工智能与判别式人工智能是两种常见的人工智能建模方法,他们的区别如下:
-
生成式人工智能(Generative AI)
-
定义:生成式人工智能是指能够生成新的数据样本(如文本、图像、音频等)的人工智能模型,这些模型通过学习数据的分布,生成与训练数据相似但又不完全相同的新内容
-
特点:具有创作性和生成性,能够创造出全新的内容,例如:大语言模型可以根据用户输入的提示生成连贯的文本(随着生成式人工智能的发展,如何实现人机协同成为下一步的重点,人机协同是指人类与人工智能系统之间相互协作,共同完成任务,例如:在创意写作中,人类可以利用生成式人工智能提供的文本片段进行进一步的创作和编辑)
-