全面解放AI算力！让大模型训练效率暴涨的硬科技来啦，斩获金奖

夕小瑶科技说原创
作者 | 卖萌酱

ChatGPT自发布以来，很多企业宣布入局大模型，争相训练自己的大模型，“百模大战”如火如荼地上演。

如果当下问一位NLP算法工程师，现在最头疼的问题是什么，他很可能会说——

算力根本不够用啊。。。

模型训的太慢了。。。

集群上任务又挂了。。。

**“算力焦虑”**已经成为了NLP算法工程师的标配情绪。当下正在狂训或即将训练大模型的厂商们，自然也没少为算力的事情头疼。

引发算力焦虑的，不仅仅是GPU的数量，还有一个关键指标会极大地决定**“有效算力”**的水平，那就是 “算力集群的利用率” 。

有些缺乏经验的厂商，不懂这里面的关键技术，光组建AI服务器、GPU集群，完成大模型算力平台搭建，就已经输在了起跑线。

硬生生的让千卡集群退化成了百卡集群，让砸重金买的A100退化成了V100甚至更老的GPU的计算效率。算力、人力效率双低，严重拖慢了大模型的训练迭代速度，自然也难以做出有竞争力的大模型。

所以，大模型热潮下，AI算力升级是行业迫切需要的。

AI算力效率，已经成为了过去几个月里，大模型厂商面前的一道难题。

那么，这个问题，有通用的解决方案吗？

大模型研究测试传送门

GPT-4能力研究传送门（遇浏览器警告点高级/继续访问即可）：
https://gpt4test.com

破局

有人说，是不是去用云厂商的解决方案就可以？真正去调研过，你就会发现太太太太贵了，要么就是A100卡太少了，远不如自己组GPU集群来的划算。而且自己组GPU集群，花出去钱大头转化成了算力资产，还可以转手变现，显然划算的多。

此外，AI安全也是个问题。模型作为企业的技术成果，没人希望被别人copy走，还有训练和推理用到的数据，好多都是企业的私有数据资料，如果放在公有云上，难免有数据和模型泄露的风险。所以自建算力集群对很多大模型相关的科技企业来说是非常重要的。

因此，如果有一套面向集群私有化部署的通用的软件层解决方案就好了。

令人激动的是，笔者在刚刚结束的2023全球人工智能产品应用博览会上，惊喜的发现这个问题是有解的！

作为老牌的算力厂商，浪潮信息公司在这个问题上，交出了满意的答卷——其发布的智能业务生产创新平台AIStation长期关注AI模型的训练和部署，在如今的大模型时代，完全可以撑得起大模型的训练和部署，提供了算力管理和优化的一站式方案，将“买来AI加速卡”到“训练部署大模型”之间的桥梁完美打通了，提供了稳定、可靠的企业级大模型算力基建解决方案。

值得一提的是，这个AIStation，还一举夺得了智博会的产品金奖，足以证明它将为行业带来的价值和想象。

由此，对于中小企业组织、初创企业来说，与其消耗相当多的时间成本和人力成本来攻克这个算力基建难题，不如直接站在浪潮信息AIStation这个巨人的肩膀上，直接撬动大模型训练这个沉重的车轮。

当然，话说回来，尽管浪潮信息AIStation在大模型训练部署问题上游刃有余，但AIStation实际上是一个通用的AI全流程开发和管理平台。即使企业业务不是当前火热的类ChatGPT大模型，只要是需要算力集群建设的场景，那么借力AIStation都是一个不错的选择。

下面我们展开聊聊这背后的故事。

千卡万卡训练有多难

ChatGPT之父Sam Altman提出了AI时代下新“摩尔定律” ，每18个月AI运算量提升1倍，实际计算量的增长远超这个速度。

GPT-3的参数量是1750亿，训练GPT-3的算力消耗约等于64个A100 GPU训练1年时间。GPT-4的参数量至今没有透露，有人猜测GPT-4参数量已经到了万亿规模，训练时间更是未知。更可怕的是，任何一版成功的模型，背后都是在至少几十上百次的“失败模型”的基础上找到的成功经验。如果仅有64张A100，那加上实验探索的时间，恐怕成功探索出一个GPT-3都要100年了。

这显然是不可接受的，这也是为什么说大模型训练的集群动辄就要千卡、万卡规模。

在这样的算力要求下，算力不再是CPU、GPU的简单组合，而是能够支撑千卡万卡级别的高速互联。如果仅仅是将若干GPU机器不加软件层优化的连接起来，那么算力损耗随集群规模的变化就会如图所示：

到了千卡、万卡规模后，集群大部分的时间都消耗在了数据传输、网络通信上，大量的显卡算力空闲，长时间的“等数据”。

因此，如果想要GPU、CPU硬件充分发挥性能，需要软硬件协同设计，包括将算力聚合的高性能网络、高效率的异构资源调度管理策略、大规模数据存储加速方案等。

在这之上，系统的稳健性也是一大挑战，比如如何在千卡万卡规模上持续稳定的训练和运行，是否支持面对突发故障的弹性容错。这些方面最终都会体现在模型训练和推理的性能加速和服务稳定上。

由此可见，大模型训练是一个大规模分布式训练任务，离不开计算、数据、网络的互联和调度，训练和推理的算力成本和性能是要考虑的头等大事。话不多说，看看浪潮信息是如何解决的。

浪潮信息AIStation怎么解决的

浪潮信息基于对AI开发和部署长期的关注和技术积累，应对大模型训练的挑战，给予了行业针对AI大模型开发的优秀解决方案，实现了对计算资源、数据资源、深度学习软件栈资源进行统一管理，极大提升算力的使用效率，降低大模型训练成本。

关键有三点：

第一，AI Station实现了毫秒级调度万卡集群，将集群的资源使用率由原来的30%-40%，提升到70%以上。

AIStation实现了异构算力集群的统一池化管理，优化异构计算芯片和多种网络环境管理，自研多种高效调度策略保证算力资源的使用和调度。在大模型训练工作方面，AIStation分布式任务自适应系统，能够实现计算、存储、网络的自动化配置，也提供自定义超参功能，从而简化大模型训练前大量的、环境配置、依赖库适配和超参数调整工作。

第二，AIStation优化后的数据缓存机制，可让模型训练效率获得200%-300%的提升。

大模型良好的泛化性能离不开海量规模的训练数据，数据的输入效率是影响模型训练周期的关键因素。AIStation综合考虑AI计算对数据I/O的需求以及企业内部的实际场景，通过优化后的数据缓存机制满足高性能计算需求，可让模型训练效率获得200%-300%的提升，将月级别的模型开发周期缩短至周级别成为可能。

第三，AIStation为大模型训练场景提供了专门的通信拓扑优化，千卡规模集群中的分布式训练线性加速比能够达到0.9，这意味着使用更少的算力资源或更短的训练时间。

加速比是并行计算衡量效率提升的重要指标，线性加速比又称为理想加速比，是指处理器数量增加几倍，计算效率也相应提升几倍。实际模型训练过程中，会有参数同步等网络通信开销，达不到1的理想加速比。一般千卡规模的线性加速比通常在0.7左右，而AIStation千卡规模集群中的分布式训练线性加速比能够高达0.9，抑制节点协同损耗，提升平台使用效率。

除此之外，值得强调的是，浪潮信息AIStation提供的是私有化部署方案，让客户拥有安全且私有的定制环境，模型和数据的存储方式能保证私密安全，是严格的安全保障。

从大模型的训练看详细数据

浪潮信息曾经训过一个2457亿参数的大模型——“源”。

在这个大模型的训练中，浪潮信息采用了张量并行、流水线并行和数据并行的“三合一”并行策略，其训练算力效率达到了44.8%，对比GPT-3大模型在V100 GPU集群上的训练算力效率是21.3%。

除了在自家的大模型实践上有出色的表现，浪潮信息AIStation平台的具体能力也已有实际案例验证。

例如，纵目科技是国内率先获得整车厂L4级别量产项目定点合同的智能驾驶企业之一，通过部署浪潮信息AI服务器和AIStation软硬件一体化方案，纵目科技实现了智能驾驶训练平台计算资源、数据资源以及AI开发环境整合服务的优化和提升，同时，模型训练的算力资源利用率由原先的70%提升至90%，模型训练效率提升了35%。浪潮信息AIStation帮助纵目科技加速了智能驾驶应用的开发和行业创新。

再比如，合合信息利用浪潮信息AI服务器、AIStation平台优势，推出面向金融行业的一站式智能OCR方案，单张GPU卡能同时运行5-8个OCR识别服务，帮助金融机构将票证录入效率提升达到百倍以上，每年可节省人力资源成本数百万元。

可以说，浪潮信息AIStation，为AI行业的各大厂商提供了一个非常高的借力点，可以极大的提升AI产品的研发效率和部署成本优势，进而提升企业的竞争力。

总结

大模型凭借着强算法、多数据、大算力的结合带来的智能体现和泛化性，引爆了各行各业的变革。其落地第一步就是要构建可以提供大规模的 AI 算力基础设施，然而，这一步充满了挑战。

浪潮信息作为领先的AI算力基础设施提供商，提供的AIStation解决方案有效地解决了大规模算力的高效使用和调度问题，并提供了易用稳健的支撑软件平台，从此，AI行业的新老玩家终于可以将精力聚焦在其关键的业务问题上了，不用再被算力基建问题困扰了。

还是那句话：

站在巨人的肩膀上，搞事情：）

大模型AI全栈手册

行业首份AI全栈手册开放下载啦！！

长达3000页，涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”，回复“789”下载资料
[图片]