GPU不够用了,开始囤DPU?大模型赛跑又有新神器

多种迹象显示,以ChatGPT所激发的预训练大语言模型“赛跑”正进入超跑的加速度阶段,一种新的加速器正在成为大语言模型“赛跑”的神器。

众所周知,预训练大语言模型动辄上千亿甚至万亿参数规模,而模型训练需要“吃掉”的训练数据量在数十TB级,运用的算力在上万张GPU卡,可以说是极为烧钱的“军备赛”。

众多的厂商和创业公司,都排着队进入大语言模型赛道,360、商汤、阿里、华为、亚马逊、科大讯飞、京东等大厂,还有王小川、李开复、王慧文等一众创业大佬等,为大语言模型赛道带来了“众神之战”的色彩。

当然,NVIDIA也是大语言模型成功背后的受益者。甚至呼吁暂停下一代GPT训练的马斯克,一边呼吁暂停一边扭脸就囤了1万张GPU卡,为推特的大模型研发做好了准备。

一时间,GPU不够用了的焦虑,笼罩着大模型赛道的上空。那么,有什么替代方案么?有的,那就是采用DPU,通过提升网络带宽和加速性能可以极大提升GPU的效率。这就是NVIDIA创始人兼CEO黄仁勋的另一步妙棋——BlueField 系列DPU。

DPU是一种定制化的CPU/GPU加速硬件,可以将CPU/GPU的部分数据交换和处理工作,转移到DPU上进行,这样就极大减轻了CPU/GPU的压力,同时还能提升整体处理效率和降低总体成本。

例如,微软在今年初就斥资1.9亿美元收购了DPU厂商Fungible,而亚马逊云科技、阿里、华为等大厂均有自研的DPU,谷歌则采用了基于ARM的Ampere Altra进行数据处理加速。大厂们都不约而同的想到了采用DPU来加速数据中心基础设施,让自己的数据中心成本更低、性能更高。

既然是定制,不同DPU有着不同的设计,有的单一处理网络数据,有的单一处理安全数据,有的单一处理存储数据……而NVIDIA的DPU则是一种比较全面的设计,可以同时处理网络、存储和安全数据。

在前不久的NVIDA GTC大会上,NVIDIA宣布BlueField-3投产。NVIDIA BlueField DPU产品发展路线图中,包括了已量产的BlueField-2 DPU,刚投产的可达400Gb/s速率的BlueField-3 DPU,以及未来可达800Gb/s的BlueField-4 DPU。

在NVIDIA宣布BlueField-3量产的同时,还透露已经被百度、CoreWeave、京东、微软Azure、Oracle OCI、腾讯游戏等领先的云服务提供商所采用,以加速其云计算平台。

关于BlueField-3有很多“传说”。一个说法是一个BlueField-3 DPU所提供的数据中心基础设施服务的能力相当于多达300个CPU核心。还有一个说法是1个采用了BlueField-3 DPU的新一代DGX服务器,相比上一代DGX服务器来说,在大语言模型的训练上,性能约为后者的4倍多。另一个更为让业界动心的说法是,很多结合了DPU和GPU的大模型训练基础架构方案,将逐步亮相,届时将让一大批新加入大模型的“参赛者”,实现快车道超车。

对于没有自研能力的云、互联网、电信、金融等公司来说,采用NVIDIA的DPU是一种选择。对于有自研能力的大厂来说,采用NVIDIA的DPU+GPU方案,或许可以取得更惊艳的加速度。

根据已经透露的技术细节,BlueField-3 DPU有一种GPUDirect RDMA技术,可实现GPU之间高效、零拷贝的数据传输,DPU可以直接读写GPU内存,消除不必要的内存拷贝。GPU-direct RDMA的好处是显而易见的,特别对于大模型的训练来说更加节省了各种开销,从而降低了网络延迟、提高了网络性能,也相应的提高了训练速度。而这也是NVIDIA自家DPU结合自家GPU的好处。

据说,很多大厂和创业公司已经开始悄悄囤DPU了,准备今年下半年在大模型赛道上,一鸣惊人。那么,问题来了,今天要入手DPU么?(文/宁川)

猜你喜欢

转载自blog.csdn.net/achuan2015/article/details/130210034