全面解放AI算力!让大模型训练效率暴涨的硬科技来啦,斩获金奖

夕小瑶科技说 原创
作者 | 卖萌酱

ChatGPT自发布以来,很多企业宣布入局大模型,争相训练自己的大模型,“百模大战”如火如荼地上演。

如果当下问一位NLP算法工程师,现在最头疼的问题是什么,他很可能会说——

算力根本不够用啊。。。

模型训的太慢了。。。

集群上任务又挂了。。。

**“算力焦虑”**已经成为了NLP算法工程师的标配情绪。当下正在狂训或即将训练大模型的厂商们,自然也没少为算力的事情头疼。

引发算力焦虑的,不仅仅是GPU的数量,还有一个关键指标会极大地决定**“有效算力”**的水平,那就是 “算力集群的利用率”

有些缺乏经验的厂商,不懂这里面的关键技术,光组建AI服务器、GPU集群,完成大模型算力平台搭建,就已经输在了起跑线。

硬生生的让千卡集群退化成了百卡集群,让砸重金买的A100退化成了V100甚至更老的GPU的计算效率。算力、人力效率双低,严重拖慢了大模型的训练迭代速度,自然也难以做出有竞争力的大模型。

所以,大模型热潮下,AI算力升级是行业迫切需要的。

AI算力效率,已经成为了过去几个月里,大模型厂商面前的一道难题。

那么,这个问题,有通用的解决方案吗?

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):
https://gpt4test.com

破局

有人说,是不是去用云厂商的解决方案就可以?真正去调研过,你就会发现太太太太贵了,要么就是A100卡太少了,远不如自己组GPU集群来的划算。而且自己组GPU集群,花出去钱大头转化成了算力资产,还可以转手变现,显然划算的多。

此外,AI安全也是个问题。模型作为企业的技术成果,没人希望被别人copy走,还有训练和推理用到的数据,好多都是企业的私有数据资料,如果放在公有云上,难免有数据和模型泄露的风险。所以自建算力集群对很多大模型相关的科技企业来说是非常重要的。

因此,如果有一套面向集群私有化部署的通用的软件层解决方案就好了

令人激动的是,笔者在刚刚结束的2023全球人工智能产品应用博览会上,惊喜的发现这个问题是有解的!

作为老牌的算力厂商,浪潮信息公司在这个问题上,交出了满意的答卷——其发布的智能业务生产创新平台AIStation长期关注AI模型的训练和部署,在如今的大模型时代,完全可以撑得起大模型的训练和部署,提供了算力管理和优化的一站式方案,将“买来AI加速卡”到“训练部署大模型”之间的桥梁完美打通了,提供了稳定、可靠的企业级大模型算力基建解决方案。

值得一提的是,这个AIStation,还一举夺得了智博会的产品金奖,足以证明它将为行业带来的价值和想象。

由此,对于中小企业组织、初创企业来说,与其消耗相当多的时间成本和人力成本来攻克这个算力基建难题,不如直接站在浪潮信息AIStation这个巨人的肩膀上,直接撬动大模型训练这个沉重的车轮。

当然,话说回来,尽管浪潮信息AIStation在大模型训练部署问题上游刃有余,但AIStation实际上是一个通用的AI全流程开发和管理平台。即使企业业务不是当前火热的类ChatGPT大模型,只要是需要算力集群建设的场景,那么借力AIStation都是一个不错的选择。

下面我们展开聊聊这背后的故事。

千卡万卡训练有多难

ChatGPT之父Sam Altman提出了AI时代下新“摩尔定律” ,每18个月AI运算量提升1倍,实际计算量的增长远超这个速度。

GPT-3的参数量是1750亿,训练GPT-3的算力消耗约等于64个A100 GPU训练1年时间。GPT-4的参数量至今没有透露,有人猜测GPT-4参数量已经到了万亿规模,训练时间更是未知。更可怕的是,任何一版成功的模型,背后都是在至少几十上百次的“失败模型”的基础上找到的成功经验。如果仅有64张A100,那加上实验探索的时间,恐怕成功探索出一个GPT-3都要100年了。

这显然是不可接受的,这也是为什么说大模型训练的集群动辄就要千卡、万卡规模。

在这样的算力要求下,算力不再是CPU、GPU的简单组合,而是能够支撑千卡万卡级别的高速互联。如果仅仅是将若干GPU机器不加软件层优化的连接起来,那么算力损耗随集群规模的变化就会如图所示:

到了千卡、万卡规模后,集群大部分的时间都消耗在了数据传输、网络通信上,大量的显卡算力空闲,长时间的“等数据”。

因此,如果想要GPU、CPU硬件充分发挥性能,需要软硬件协同设计,包括将算力聚合的高性能网络、高效率的异构资源调度管理策略、大规模数据存储加速方案等。

在这之上,系统的稳健性也是一大挑战,比如如何在千卡万卡规模上持续稳定的训练和运行,是否支持面对突发故障的弹性容错。这些方面最终都会体现在模型训练和推理的性能加速和服务稳定上。

由此可见,大模型训练是一个大规模分布式训练任务,离不开计算、数据、网络的互联和调度,训练和推理的算力成本和性能是要考虑的头等大事。话不多说,看看浪潮信息是如何解决的。

浪潮信息AIStation怎么解决的

浪潮信息基于对AI开发和部署长期的关注和技术积累,应对大模型训练的挑战,给予了行业针对AI大模型开发的优秀解决方案,实现了对计算资源、数据资源、深度学习软件栈资源进行统一管理,极大提升算力的使用效率,降低大模型训练成本。

关键有三点:

第一,AI Station实现了毫秒级调度万卡集群,将集群的资源使用率由原来的30%-40%,提升到70%以上

AIStation实现了异构算力集群的统一池化管理,优化异构计算芯片和多种网络环境管理,自研多种高效调度策略保证算力资源的使用和调度。在大模型训练工作方面,AIStation分布式任务自适应系统,能够实现计算、存储、网络的自动化配置,也提供自定义超参功能,从而简化大模型训练前大量的、环境配置、依赖库适配和超参数调整工作。

第二,AIStation优化后的数据缓存机制,可让模型训练效率获得200%-300%的提升

大模型良好的泛化性能离不开海量规模的训练数据,数据的输入效率是影响模型训练周期的关键因素。AIStation综合考虑AI计算对数据I/O的需求以及企业内部的实际场景,通过优化后的数据缓存机制满足高性能计算需求,可让模型训练效率获得200%-300%的提升,将月级别的模型开发周期缩短至周级别成为可能。

第三,AIStation为大模型训练场景提供了专门的通信拓扑优化,千卡规模集群中的分布式训练线性加速比能够达到0.9,这意味着使用更少的算力资源或更短的训练时间

加速比是并行计算衡量效率提升的重要指标,线性加速比又称为理想加速比,是指处理器数量增加几倍,计算效率也相应提升几倍。实际模型训练过程中,会有参数同步等网络通信开销,达不到1的理想加速比。一般千卡规模的线性加速比通常在0.7左右,而AIStation千卡规模集群中的分布式训练线性加速比能够高达0.9,抑制节点协同损耗,提升平台使用效率。

除此之外,值得强调的是,浪潮信息AIStation提供的是私有化部署方案,让客户拥有安全且私有的定制环境,模型和数据的存储方式能保证私密安全,是严格的安全保障。

从大模型的训练看详细数据

浪潮信息曾经训过一个2457亿参数的大模型——“源”。

在这个大模型的训练中,浪潮信息采用了张量并行、流水线并行和数据并行的“三合一”并行策略,其训练算力效率达到了44.8%,对比GPT-3大模型在V100 GPU集群上的训练算力效率是21.3%

除了在自家的大模型实践上有出色的表现,浪潮信息AIStation平台的具体能力也已有实际案例验证。

例如,纵目科技是国内率先获得整车厂L4级别量产项目定点合同的智能驾驶企业之一,通过部署浪潮信息AI服务器和AIStation软硬件一体化方案,纵目科技实现了智能驾驶训练平台计算资源、数据资源以及AI开发环境整合服务的优化和提升,同时,模型训练的算力资源利用率由原先的70%提升至90%,模型训练效率提升了35%。浪潮信息AIStation帮助纵目科技加速了智能驾驶应用的开发和行业创新。

再比如,合合信息利用浪潮信息AI服务器、AIStation平台优势,推出面向金融行业的一站式智能OCR方案,单张GPU卡能同时运行5-8个OCR识别服务,帮助金融机构将票证录入效率提升达到百倍以上,每年可节省人力资源成本数百万元。

可以说,浪潮信息AIStation,为AI行业的各大厂商提供了一个非常高的借力点,可以极大的提升AI产品的研发效率和部署成本优势,进而提升企业的竞争力。

总结

大模型凭借着强算法、多数据、大算力的结合带来的智能体现和泛化性,引爆了各行各业的变革。其落地第一步就是要构建可以提供大规模的 AI 算力基础设施,然而,这一步充满了挑战。

浪潮信息作为领先的AI算力基础设施提供商,提供的AIStation解决方案有效地解决了大规模算力的高效使用和调度问题,并提供了易用稳健的支撑软件平台,从此,AI行业的新老玩家终于可以将精力聚焦在其关键的业务问题上了,不用再被算力基建问题困扰了。

还是那句话:

站在巨人的肩膀上,搞事情:)

大模型AI全栈手册

行业首份AI全栈手册开放下载啦!!

长达3000页,涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”,回复“789”下载资料
[图片]

猜你喜欢

转载自blog.csdn.net/xixiaoyaoww/article/details/131596106