汽车与芯片算力杂谈
参考文献链接
https://mp.weixin.qq.com/s/FO4gQNYCCzitVXoTaDILlw
https://mp.weixin.qq.com/s/L4u-ffG-jEDNKC2q-fr9bw
中国汽车，乱拳打死老师傅？
中国汽车，华丽转身
在2021年以前的十年时间里，中国汽车的出口量一直在100万辆左右徘徊。而2021年，中国汽车出口量猛增100% 至201.5万辆，首次突破200万辆，已大幅超过韩国（152万辆），在全球仅次于日本（382万辆）和德国（230万辆）。
没错，中国现在已经是全球第三大汽车出口国了，而且去年的出口高增长态势还在延续。
在这里插入图片描述

海关总署发布的数据显示，今年一季度，中国汽车整车出口67.6万辆，同比增长57.8%；整车出口金额为117.5亿美元，同比增长87.9%。今年1-5月，中国汽车出口108万辆，同比增长43%。
把数据与德国和日本做一个对比：1-4月德国出口汽车79.5万辆，日本112.6万辆，如果再考虑到欧洲车市供给不足的情况，可以说，按照这一市场趋势进行下去，今年中国很有可能全年出口超越德国，跃居全球第二。
从出口的具体市场看，目前亚洲仍为中国整车出口的最大市场，今年一季度，中国对亚洲出口整车19.95万辆，同比增长58.2%，占比30%左右。
另外，欧洲汽车市场加速向低碳转型也给中国车企出海提供了绝佳机会，中国对欧洲市场的出口增长非常明显。
2021年，欧洲市场在中国汽车出口中增长最快，增速达204%；今年一季度，中国对欧洲出口整车17.82万辆，同比增长139.9%。
众所周知，欧洲汽车市场一直是个难啃的硬骨头，消费者对欧洲本土汽车品牌的黏度很高，过去几十年，能真正在欧洲站稳脚跟的外来品牌寥寥可数，所以中国在欧洲市场的销量大增，也算是一个亮点。
再从中国汽车的主要出口国家来看。1-4月，中国汽车商品出口金额前十位的国家，依次是美国、墨西哥、日本、比利时、俄罗斯、韩国、德国、英国、澳大利亚和沙特阿拉伯。
可以看出，很多人印象里曾经廉价低质的中国汽车，现在逐渐展现出跻身欧美市场的实力。美国、日本和德国这些知名的汽车工业强国，已经是中国汽车商品的主要出口国，这在一定程度上说明中国汽车正在被国际市场广泛接受和认可。
另外，在这场汽车出口的大潮中，自主品牌车企的成绩也很亮眼。
乘联会数据显示，5月中国自主品牌出口达到14.1万辆，同比增长77%；合资与豪华品牌出口4.2万辆，同比增长76%。
其中，上汽集团是第一大顶梁柱，已经连续六年成为中国出口量第一的车企。
2021年，上汽集团在海外市场累计销售新车达69.7万辆，占中国去年全年汽车出口量的三分之一，也就是说，中国品牌汽车每出口三辆车，就有一辆来自上汽集团。
此外，奇瑞、长城、吉利和长安等中国车企，也都贡献了稳定的车辆供应出口订单。
缓慢崛起的造车大业
上面的数据的确振奋人心，因为汽车行业于国家的整体竞争力而言，重要性极高。
历史上，美国、德国、意大利、法国、日本和韩国等国经济腾飞前，无不以汽车工业的高速增长为先导。
作为“制造业中的制造业”，汽车拥有庞大的产业链，是高度技术密集型的工业。
一辆汽车里有数万个零部件，涉及钢铁、机械、化工、电子、橡胶等多个行业，几乎囊括所有的制造业部门，需要对大量的资本和技术进行统筹，完成多产业的跨地域协作。
所以，一个汽车行业的繁荣，能够带动多个关联产业的发展，还可以容纳足够多的就业人口，规模效应和乘数效应非常显著。
同时，汽车作为一种大规模生产的商业产品，最终面向的是民用市场，这就意味着车企在生产经营时，既要保证数万个零件在数十年的行驶期间内可靠运行，还要把生产和维修成本控制在一般民众能接受的价格范围内，难度可想而知。
所以，在某种程度上，一个国家的汽车工业发展情况如何，就代表了这个国家的综合工业水平如何。因为，拥有强大的汽车工业，意味着这个国家在各大工业部门的技术和人才积累，以及相关资源的协作与整合上，都达到了极高的程度。
世界上第一辆汽车，从1885年问世，至今已经有一百多年。
大家熟知的奔驰、大众、雷诺、雪铁龙、日产、福特等知名车企，都是在二战乃至一战前就发展了起来；作为汽车发源地的德国，其汽车工业的发展更是贯穿了整个汽车发展史。
中国直到80年代，生产的轿车只有上海牌轿车和红旗轿车，两种车型年产量不超过5000辆，而一个汽车厂年产量至少要到10万-20万辆，才算是规模化生产，否则毫无收益可言。
所以后来，中国政府和企业走上了外商直接投资、大规模技术引进的道路，即“以市场换技术”——所有进入中国的跨国汽车制造商，只能与不超过两家的国有企业进行合资生产才可以在国内市场销售，而纯进口汽车或者零部件将会被征收最高达100%的关税。
加上当时中国汽车消费市场处于快速成长的阶段，汽车市场成为一片广阔的“蓝海”，对外国车企有着较强的吸引力。
因此，这种合资模式，在一定程度上加快了外国企业向中国转让产品技术的速度，使本土汽车企业快速聚集起生产要素。
伴随着国内汽车市场的成熟，中国开始强调提高大型汽车企业产品自主研发能力，自主品牌也随之逐渐发展起来。
在这里插入图片描述

所以，在近两年很多人感叹“国产车好像突然崛起了”的背后，其实是中国政府和车企在七十年造车大业中的持续追赶，虽然前景不可盲目乐观，但现在的确已显现成效。

目前，在乘联会统计的2021年乘用车厂商批发销量排名前十中，自主品牌占据了五席，在前十五名里，自主品牌的席位则增加到7个。
从整体的市占率来看，2021年，中国自主车企的市场份额为44%，也为近三年以来的新高点。
疫情催化与换道超车
再回到本文开头的数据，中国汽车出口为什么在2021年迎来了翻倍增长？
翻番并不是件容易的事。事实上，中国汽车出口的井喷，来得多少是有点突兀的，因为在过去很长一段时间里，中国车企出口量始终维持在100万辆左右，是明显陷入停滞期的。
至于2021年汽车出口的突然爆发，部分是受到了偶然因素——疫情的影响。
汽车生产涉及数万个零部件，要求产业链的高度协调，但在疫情影响下，很多车企的供应链都受到冲击，汽车生产被迫中止。而中国的疫情防控措施较好，整车及零部件产业链生产能力快速恢复，动态复工复产展现出较强的韧性。
所以，当2021年丰田、本田、福特等海外厂商纷纷被迫暂停海外整车生产时，中国车企的生产相对正常，自然是受益的。
不过，综合来看，疫情的偶然因素主要起着催化剂的作用，或者说，疫情不是创造了新增长，而是使中国产业链的对比竞争优势被放大。
目前，中国是唯一拥有联合国产业分类当中全部工业行业的国家，具备全球规模最大、行业最全、配套最完备的制造业体系。
产业链的高效运行需要仓储、运输、信息等多要素支撑，而中国在物流体系、信息技术、大数据技术等方面，也具有综合优势，能够保障产业链的畅通运转。
在今年6月的中国宏观经济论坛(CMF)季度论坛中，复旦大学特聘教授黄奇帆就指出，“从这次疫情应对来看，那些产业链相对完整、产业链自成体系的地方，恢复起来要比两头在外、高度依赖国际供应链的地方要快要好”。
比如，在最近两三年的疫情期间，广州、深圳、上海、苏州、重庆、成都等城市，具有汽车电子各种制造业的产业集群，产业链相对比较完整，所以这些城市的复工复产，以及各种应对竞争的挑战都相对成功。
同时，在汽车产品力方面，近几年，中国品牌汽车无论在外观、质量，还是智能网联配置等方面，也都有大幅提升，相比合资品牌的产品并不逊色，某些先进配置甚至超越了合资产品，在海外拥有了一定的竞争力。
所以，在全球疫情肆虐、海外市场缺芯、欧美车企汽车产量缩减、全球汽车市场供应不足的背景下，中国凭借较好的疫情防控、完备的产业链基础和日渐增强的汽车产品力，顺理成章地实现了汽车出口的巨大增量。
在此基础上，一个更重要的原因是，中国汽车行业有着“新能源车”的增长曲线。
在传统汽车里，“三大件”——发动机、变速箱和底盘，关乎到汽车动力性能、操控平顺性、乘坐舒适性等多项体验，是汽车产品力最核心的方面。
国外品牌，早已在这些核心技术领域积累深厚，构建起了很高的竞争壁垒。中国车企尽管研发多年，但一直处于追赶状态，甚至可以说，如果国外车企不出错的话，可能永远都无法赶超。
然而，到了新能源汽车时代，汽车的核心“三大件”变成了三电系统——电池、电机和电控。
这意味着，在新能源车的赛道里，传统车企以往积累的优势并不管用了，反而中国的车企能“轻装上阵”，而则是“船大难调头”。

在这里插入图片描述

早在2009年，时任科技部部长的万钢就曾提出，中国汽车将在新能源领域实现“弯道超车”，但由于此前新能源汽车并未出现爆发式增长，“弯道超车”一度被视为“伪命题”。
不过，市场的转机从去年就已经开始显现。
2021年，中国新能源汽车零售销量达到298.9万辆，同比增长169.1%。
今年5月，中国新能源车国内零售渗透率达到26.6%，较2021年5月11.6%的渗透率提升15个百分点。其中，自主品牌中的新能源车渗透率已达51.8%；豪华车中的新能源车渗透率9.2%；而主流合资品牌中的新能源车渗透率仅有4%。
经过近10年的发展，中国已经拥有了从上游的正极、负极、电解液、隔膜，到中游的电池，下游的整车以及储能装置的新能源车产业链的完整布局。
并随着上游零件国产化和产业集群优势显现，中国已占全球新能源车总产量的60%，也成功实现“出海”，2021年出口了近50万辆电动汽车，且出口的同款车型相对内销的毛利率更高。
可以说，在新能源车领域，中国逐渐在全球产业链中占据了有利的竞争定位，正在实现“弯道超车”。
自主品牌的向上之路
新能源汽车的兴起，确实在某种程度上让全球汽车品牌来到了同一起跑线上，这对于中国自主汽车品牌而言，可以说是一个“百年一遇”的冲击高端品牌的好机会。
在传统燃油车领域，中国汽车单论产品性价比，其实也有很多不错的车型，但如果上升到高端品牌和高端车型，局面就变得比较窘困。
按照乘联会的定义，指导价30万元以上的为高端车，也就是大家普遍认为的“豪华车”。
此前，很多人都曾调侃，“20万简直是国内车企们的魔咒！”在传统汽车的高端市场，基本没有国产汽车的份，除了主要靠政府采购撑排面的红旗，高端车里清一色都是外资品牌。
的确，根据乘联会发布的数据，2021年度，中国高端轿车零售销量前十分别为宝马5系、宝马3系、奥迪A6、奔驰E级、奔驰C级、奥迪A4、沃尔沃S90、红旗H9、凯迪拉克CT6、辉昂。
在榜单一梯队（销量超过10万）里，仍然是清一色的BBA：宝马、奔驰和奥迪各有两个车型，全年销量均超过12万辆。
其中，宝马5系累计销量达17.2万辆，同比增长8.3%，排名第一；宝马3系排第二，累计销量17.0万辆，同比增长12.1%。
显然，经过几十年甚至上百年的积累和运营，BBA作为中国市场中份额最大、高端形象塑造最成功的品牌，已经让市场相信，BBA就是民用天花板，是燃油车产品里最优秀的选择。
而现在，换到新能源汽车领域，一个趋势是，中高端新能源市场的国产品牌越来越多，国产品牌正在挑战BBA。
相比结构复杂的传统燃油车，新能源车降低了造车门槛，形成了“百花齐放”之势。不仅核心三大件变了，而且汽车正在成为软件定义的智能移动终端，即向着智能化的方向发展。
在新能源汽车制造方面，国内的电机电控、动力电池、整车控制器等关键零部件研发生产到整车设计制造，已经具备了一定的产业基础和优势。
在这里插入图片描述

在智能化方面，一方面是政策持续力挺，包括自动驾驶试点政策等，另一方面，中国的5G、传感器等车内外技术也日趋成熟，国内汽车行业正迎来智能化的拐点。
电动化和智能化是未来中国品牌向上突围的两大新赛道。
现在很多消费者都有这样的感受，如果想要购买高端新能源车，考虑的品牌里，除了特斯拉，其他参考选项大多都是国产车，如比亚迪、蔚来、小鹏等。
造车新势力们在科技感、智能化方面，有着更为大胆和前卫的尝试和亮点，也颇受消费者青睐。
BBA的新能源车型目前还带着浓浓的“油改电”意味，只是改了动力，车内的智能化却并没有跟上，“与不少国产的新能源车一比，有点像制作精良的非智能手机与苹果手机”。
凭借在新能源和智能化上的持续发力，国产品牌的新能源车有了更多将售价提升到30万元，甚至是50万元以上的底气。
以蔚来为例，旗下ES6、ES8、EC6、ET7四款车型起售价均在40万元以上，高配售价突破50万元，在如此高昂售价的基础上，蔚来去年的年销量达到了91429辆，这说明市场是认这个价格的。
此外，理想汽车此前推出的理想ONE售价在30万元以上，这一款车型去年交付了90491辆；小鹏汽车也凭借P7车型的成功，去年首次成为新势力年度销冠，交付98155辆。
对比之下，BBA三家的纯电动车型去年在国内市场的销量总和仅为36266辆。
可以预见的是，在对智能化与电动化的持续迈进中，中国汽车品牌的科技实力与创新能力正在不断提高，未来打造出国际化的大品牌，指日可待。
算力猛兽：浪潮NF5468A5 GPU服务器深度测评
NF5468A5是浪潮推出的一款面向AI训练和AI推理、视频编解码等多种应用场景的全能型GPU服务器，在4U空间内搭载2颗AMD EPYC处理器，支持多达8张双宽加速卡。浪潮官网显示，这款产品已经支持NVIDIA、AMD、Intel、寒武纪、燧原等多家业界主流AI加速卡。
本次拿到的样机采用如下配置：
在这里插入图片描述

接下来，笔者将从系统解析、性能测试这两个方面对浪潮NF5468A5服务器进行测评。
1.NF5468A5系统解析1.1 整体系统设计
浪潮NF5468M5 AI服务器采用了4U机架式机箱，高x宽x深为175mm x 478mm x 830mm。整体风格简约、硬朗，不论做工、还是用料、细节，均彰显出大厂品质。
前面板沿用浪潮一贯稳重的黑色，六边形的格栅结构由金属制成，可以将风扇高速旋转产生的湍流风切割成平稳的平流风，从而更平稳的吹向服务器内部。前面板右上角，电源键下方是ID、Reset按键和系统状态指示灯，前面板左上角则是VGA、两个USB 3.0接口和管理接口。前面版的丰富接口，充分考虑了运维人员的工作场景，十分便捷。
在这里插入图片描述
浪潮NF5468A5前视图
从后窗来看，NF5468A5在4U空间内提供了8个全高全长双宽PCIe x16的物理插槽，支持最新PCIe Gen4,双向通信带宽高达64GB/s,相比PCIe Gen3,功耗不变,但通信性能提升1倍。在此基础上产品还提供了3个全高全长单宽x16物理槽位，可支持25G/100G/200G双口光纤，或者千兆/万兆RJ45网卡以及8/16端口12Gb/s RAID卡，可满足客户对网络及存储的要求。同时可支持1个OCP 3.0网卡专用插槽，支持热插拔，将网卡更换时间从20分钟缩短到1分钟，能够大幅提高运维效率。
NF5468A5支持4个电源模组，可以提供1600W~3000W功率的80 PLUS铂金电源模块，效率高达94%,可选3+1冗余或者2+2冗余，多种组合的冗余电源设计，充分考虑了不同配置AI服务器的负载情况，保障稳定性。
在这里插入图片描述

浪潮NF5468A5后视图
整个服务器采用非常紧凑的布局设计，总共分成四个功能区域，从前往后依次是：磁盘存储区、系统散热区、处理器+内存区、GPU+IO扩展区。
在这里插入图片描述
浪潮NF5468A5内部俯视图
下面先看下CPU和内存。这台样机搭配了2颗AMD EPYC 7543处理器，核心数达到了32核心64线程，基准主频2.8GHz，最大加速时钟频率3.7GHz，L3 Cache 256MB，功耗225W。另外，浪潮官网介绍NF5468A5可支持2颗AMD基于"Zen3"微架构内核的EPYC Milan-X处理器，最高128个核心256线程、1536MB L3 Cache 以及18 GT/s XGMI互连链路，CPU TDP最大支持280W。样机配置了16根32G DDR4内存，同时可以看到服务器主板整齐排布了32个DDR4内存插槽，最大容量可达8TB，内存总带宽750GB/s，支持RDIMM/LRDIMM等类型的内存条。NF5468A5强劲的处理器性能、巨大的内存容量和带宽，特别适合AI计算、云计算、HPC以及企业各类业务的工作负载。
在这里插入图片描述

浪潮NF5468A5的CPU散热器和内存条
笔者手上的这台NF5468A5，最吸引眼球的是本次测试样机搭配了8颗NVIDIA A100 40G加速卡，从京东网上的报价看，8张A100的价格已经与一款中高端轿车相当，这究竟是一款什么样的AI服务器，笔者将带大家一探究竟。
来重点看一下NF5468A5的GPU模组。样机搭配了8张NVIDIA A100 PCIE 40GB GPU加速卡，由于每张卡功耗高达250W，服务器也给GPU板卡配置了单独供电线，保证GPU卡的稳定工作。为了满足PCIE卡的高功率运行，看到NF5468A5在GPU板上专门设计了4个用于大电流通流的bus bar，据浪潮的工程师介绍，bus bar的通流能力可以达到2880W，这对于各类PCIE加速卡的支持是非常强劲的。
在这里插入图片描述

浪潮NF5468A5支持8张NVIDIA A100 PCIE 40GB GPU
NF5468A5提供了对丰富外插卡的支持，针对A100这种全高全长的卡配置了专用支架，搭配尾部锁片进行固定，这样能增强产品在运输过程中震动、跌落情况下的可靠性。翻开尾部锁片，旋转蓝色旋钮，就能非常顺利的取下GPU进行更换，这种针对PCIE卡免工具的操作非常人性化。
在这里插入图片描述

浪潮NF5468A5免工具更换PCIE加速卡
1.2 系统散热设计
从浪潮官网产品介绍中看到NF5468A5可以支持2颗280W CPU+8颗300W的GPU，在177mm的空间内浪潮究竟是如何实现的？笔者找浪潮工程师拿到了系统风流图，从中可以看出，系统整体风道采用前进后出的方式，散热风流主要从前面板的硬盘及下方开孔处进入系统。风流经系统风扇后通过导风罩的分配，一部分进入下层前排CPU和内存通道，一部分继续往后吹；经过CPU和内存后的风及未被预热的风大部分流向后方上面3U空间的GPU，小部分流向下面1U空间；最后经后面板流出系统。如此巧妙的风道设计和精准的风流控制，足见浪潮作为全球AI领导厂商深厚的设计功底。
在这里插入图片描述
系统分离式风流设计
这款服务器将整机柜产品中“风扇墙”的设计理念搬到了4U机箱中，“风扇墙”一共由6组可以单独维护的子风扇模组组成，风扇后部搭配了流线型设计的导风罩，覆盖了从风扇到GPU中间的区域，但整个导风罩并没有完全挡住风扇的出风区域，结合上面系统风流图也证明是为实现CPU和GPU独立风道的引流设计，避免风流的串扰，无论多“强悍”的CPU和GPU都可以驯服。
在这里插入图片描述
NF5468A5中置风扇墙和导流设计
1.3 架构设计
笔者查找了海外网站相关浪潮产品的介绍资料，找到一张产品的拓扑图，发现有别于传统CPU-PCIE Switch-GPU的设计，浪潮产品采用CPU-GPU直连方式。跟浪潮工程师确认，送测的NF5468A5也采用类似设计。工程师介绍，由于省去了PCIE Switch，2颗CPU与GPU的通讯延迟能降低200~300ns，同时GPU到CPU的通信带宽可以达到256GB/s，较GPU通过PCIE Switch只有1条与CPU PCIE通路比，带宽提升4倍，这种极致的互联架构设计，有助于提升GPU与CPU间数据通信的带宽，有效降低数据的处理延迟。
在这里插入图片描述

NF5468A5性能测评2.1 HPL测试
样机搭配2颗AMD EPYC 7543处理器，这款处理器是32 核 64 线程，基准主频2.8GHz，L3 Cache 256MB，最大加速时钟频率最高可达3.7GHz，功耗225W。为了能够了解CPU实际性能，下面将采用HPL基准软件进行测试。
在计算机基准测试软件中，HPL是应用最广泛的基准测试程序之一。通过使用高斯消元法对稠密线性方程组进行求解，HPL可以准确测试系统浮点计算指标。在每年全球超级计算机排名TOP500中，HPL测试性能是唯一的评价标准。
由于笔者拿到的设备是一台未预装任何软件的裸金属服务器，为了进行相关测试，首先在上面安装了Ubuntu20.04操作系统。
然后用HPL软件测试了系统的浮点运行能力。通过如下命令，将测试进程和CCD进行绑定。

mpi_options=“–mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader”

mpi_options=“$mpi_options --map-by ppr:1:l3cache -x OMP_NUM_THREADS=4 -x OMP_PROC_BIND=TRUE -x OMP_PLACES=cores”

mpirun $mpi_options -app ./appfile_ccx

在运行之前，还需要设置核心运行在最高频率，清除系统缓存，并开启大页内存等设置，保证获得当前平台最高性能。

echo 3 > /proc/sys/vm/drop_caches
echo 1 > /proc/sys/vm/compact_memory
echo 0 > /proc/sys/kernel/numa_balancing
echo ‘always‘ > /sys/kernel/mm/transparent_hugepage/enabled
echo ‘always‘ > /sys/kernel/mm/transparent_hugepage/defragsudo cpupower frequency-set -g performance

最终测试浮点计算速度为2.69 TFLOPS，根据当前AMD平台理论浮点计算速度，计算效率达到93.74%。
在这里插入图片描述

处理器浮点计算测试结果
2.2 内存带宽测试
用业界主流的测试软件STREAM对NF5468A5的内存带宽进行了测试，测试参数如下：

Thread Binding Options for AMD EPYC 7742/7763 Processor$ export GOMP_CPU_AFFINITY=0-64:8$ export OMP_NUM_THREADS=8

在运行前，清除系统缓存并且开启透明大页内存设置等，设置参数如下：

$ echo madvise | tee /sys/kernel/mm/transparent_hugepage/enabled$ echo madvise | tee /sys/kernel/mm/transparent_hugepage/defrag$ echo 3 > /proc/sys/vm/drop_caches$ echo 1 > /proc/sys/kernel/numa_balancing

通过以上编译和运行过程中优化，STREAM测试结果为373 GB/s，根据当前平台理论内存带宽409.6 GB/s,实测内存带宽效率达到91.1%。应该说，这个效率非常高了。
在这里插入图片描述
内存带宽测试结果
2.3 训练性能测试
下面来测试NF5468A5的AI训练性能。样机配置8张NVIDIA A100 PCIE 40GB GPU，这款GPU采用Ampere架构，基于7nm制造工艺，包含了超过540亿个晶体管，拥有6912个CUDA核心，搭载了40GB HBM2内存，具备1.6TB/s的内存带宽，FP64性能9.7 TFLOPS，FP32性能19.5 TFLOPS，FP16性能312 TFLOPS。
笔者从github网站上的公共仓库https://github.com/mlcommons/training_results_v1.0中下载了MLPerf Training V1.0代码，并使用这套代码按照以下测试步骤在NF5468A5上训练ResNet50模型。MLPerf是一套衡量机器学习系统性能的权威标准，将在标准目标下训练或推理机器学习模型的时间，作为一套系统性能的测量标准。MLPerf由图灵奖得主大卫·帕特森（David Patterson）联合谷歌、斯坦福、哈佛大学等单位共同成立，是国际上最有影响力的人工智能基准测试之一。ResNet50是计算机视觉领域中最经典的图像分类模型，广泛应用于图像识别、自动驾驶等场景。
MLPerf代码提供了容器配置文件，可以很方便的通过配置文件在自己的服务器设备上创建镜像环境,镜像中包含cuda、cudnn、nccl、mxnet等上层组件。但是在运行容器之前，还需要在Host OS中安装NVIDIA GPU Driver、docker、nvidia-docker这些基础软件。
首先，笔者参考https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html#runfile 教程在Ubuntu20.04操作系统中下载并安装了R470.82.01版本的驱动；然后按照https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html#docker 教程安装docker和nvidia-docker。
通过以下命令构建容器镜像：

$ cd ~/training_results_v1.0/NVIDIA/benchmarks/resnet/implementations /mxnet$ docker build -t mlperf1.0-nvidia:image_classification .

在测试之前，通过在nf5468a5_cxx.sh文中添加以下内容绑定核心与进程，最大化的利用系统中的计算资源，达到良好的负载均衡，保证获得最优的性能结果。

bind_cpu_cores=([0]=“48-63,176-191” [1]=“32-47,160-175” [2]=“16-31,144-159” [3]=“0-15,128-143” [4]=“112-127,240-254” [5]=“96-111,224-239” [6]=“80-95,208-223” [7]=“64-79,192-207”)bind_mem=([0]=“3” [1]=“2” [2]=“1” [3]=“0” [4]=“7” [5]=“6” [6]=“5” [7]=“4”)

测试环境准备完成，执行以下指令开始测试：

激活环境变量：$ source config_NF5468A5.sh$ export CONT=mlperf1.0-nvidia:image_classification $ export DATADIR=/home/data/mxnet_imagenet/ $ export LOGDIR=/home/resnet50/执行测试脚本：$ ./run_with_docker.sh
ResNet50训练测试结果
测试结果为21486 images/sec，也就是35分钟即可完成ResNet50模型的训练。参考最近几期MLPerf训练榜单，搭载8张NVIDIA A100 40G GPU卡的服务器的最好成绩是36.2分钟。可以说，在同等GPU配置的服务器中，浪潮在这里插入图片描述
NF5468A5的ResNet50训练性能是最好的。
2.4 推理性能测试
笔者也测试在目前推理场景中热度最高的NVIDIA Tesla T4，这款精致的GPU卡只有75W，采用Turing架构, 在半高卡的尺寸内集成320个Turing Tensor Core和2560个Turing CUDA Core，配备16GB GDDR6，支持FP32/FP16/INT8/INT4等多种精度的运算，FP16的峰值性能为65T，INT8为130T，INT4为260T。
在这里插入图片描述
NVIDIA Tesla T4 GPU
推理性能测试同样使用了MLPerf测试工具，本次测试是基于MLPerf Inference V1.0.复用了训练测试时使用的OS、docker、nvidia-docker等基础软件环境。
在NF5468A5搭载1张NVIDIA T4 GPU，使用github网站上的公开代码https://github.com/mlcommons/inference_results_v1.0，按照如下步骤测试了ResNet50模型的推理性能：
同训练时一样，首先要构建容器镜像：

unzip mlperf-inference-release.zip# cd /mlperf-inference-release/closed/Inspur# export MLPERF_SCRATCH_PATH=/home/inspur/data/data_mlperf/# make prebuild(备注：prebuild后会自动进入容器实例)

然后执行以下指令开始测试：

sudo CUDA_VISIBLE_DEVICES=0 make run RUN_ARGS=“–benchmark=resnet50 --scenarios=Offline --config_ver=default --test_mode=PerformanceOnly --fast”

在图像分类应用场景中，使用ImageNet数据集，ResNet50测试结果是每秒处理5671.9 张图片。了解到NVIDIA T4的ResNet50推理性能为每秒5000张图片左右。应该说，在NF5468A5上测得的T4推理性能非常好了。
在这里插入图片描述
ResNet50推理测试结果
笔者也拿到了寒武纪MLU270-S4推理加速卡。MLU270-S4采用TSMC 16nm工艺制造，集成16GB DDR4 内存，支持ECC，同时兼容INT4和INT16运算，理论峰值分别达到256TOPS和64TOPS。
发现NF5468A5对寒武纪的板卡也做了很好的兼容性适配，BMC可以显示MLU270-S4的资产信息，风扇转速也根据MLU270-S4的功耗进行了调整，相比A100，能够明显感觉到风扇转速主动降低了。不得不说，浪潮服务器的散热控制做得很精细。
在这里插入图片描述
寒武纪MLU270-S4加速卡
在NF5468A5上插了1张MLU270-S4，测试了Caffe框架下的ResNet18、PyTorch框架下的GoogleNet以及TensorFlow下的ResNet101v1.5、VGG16和InceptionV3这几个模型的推理性能，在使用int8精度时，计算性能分别为每秒7440、5800、2400、1400和1000张。
笔者分析，浪潮NF5468A5在训练和推理测试中能取得这么好的成绩主要有三个原因：第一，ResNet50模型从算法上还是需要CPU进行一定的图像预取和处理操作，本次送测的AMD 7543具备32核心2.8GHz主频，有助于图像在CPU端的预处理工作；第二，NF5468A5采用CPU和GPU直连设计，有效降低数据的处理延迟，同时单个CPU与GPU通信带宽高达128GB/s；第三，NF5468A5可以支持NVME SSD作为数据盘，通过将多颗NVME SDD数据盘组建RAID，可以极大的提升磁盘IO能力，在AI这种需要频繁读取数据的场景中，能够非常有效的避免因为IO短板带来的性能瓶颈。
2.5 视频编解码性能测试
笔者在NF5468A5服务器上也评测了浪潮自研的M10A加速卡。
据浪潮官网介绍，M10A是一款面向AI场景优化设计的VPU(Video Processing Unit), VPU是一种全新的视频处理核心引擎，将视频处理功能做成ASIC芯片，具有硬件编码、硬件解码、硬件转码等视频加速功能，可以减少服务器在视频处理业务上的计算性能消耗和降低视频传输对网络带宽的需求。
M10A在8W功耗下可以提供16路1080P30视频的加速能力，相当于每路1080P视频加速仅需0.5W。M10A针对H.265视频格式压缩算法进行了特殊优化，实测数据表明M10A的H.265编码效果可以使得网络带宽利用率翻倍，同时计算CPU负荷最低可降至2%，适用于直播、短视频、云游戏、视频会议等场景。
在这里插入图片描述
浪潮M10加速卡
在FFMPEG视频框架下，直接用软件SDK中的demo脚本，测试了M10A在不同视频分辨率下的性能数据，如下是16路1080P全高清视频实时转码的性能测试情况：

在测试的过程中，发现M10A VPU芯片内部是“多核”结构，这将进一步降低视频处理延迟，提高多路视频转码时的性能稳定性。
从测试结果看到，M10A进行16路1080P全高清视频转码时，每路视频转码性能都能达到33fps，达到了浪潮官方宣传的性能。
在这里插入图片描述
M10A视频转码性能测试结果
另外，还测试了4K超高清和720P高清分辨率下的M10A的性能数据，分别可以达到4K 120fps和720P 960fps，解码、编码和转码的性能都是一致的。
在跟视频行业技术大咖的交流中了解到，一张M10A的视频处理能力相当于一台双路服务器的性能，M10A具有高性能、低功耗的优点，这对视频行业来说是一个非常高性价比的解决方案。
2.6 HASH性能测试
除了前面讲到的几张加速卡，笔者也尝试了其他板卡，比如主流的消费级显卡RTX3090等，发现NF5468A5都做了很好的适配工作。
RTX3090采用第2代NVIDIA RTX架构-NVIDIA Ampere架构，采用8纳米工艺，拥有10496个CUDA核心，搭载了24 GB GDDR6X内存，384bit位宽。
在这里插入图片描述

RTX3090显卡
下面，来看看浪潮5468A5搭载RTX3090显卡在区块链场景的性能。基于T-Rex这个知名的应用软件，笔者对业界主流的哈希算法进行了性能测试。T-Rex不仅支持区块链场景中最常用的ETHASH算法，也支持其他诸如BLAKE3、MTP等哈希算法。
在这里插入图片描述
ETHASH算法性能测试过程
针对每种HASH算法，使用了t-rex软件的benchmark模型，在单个3090显卡上进行测试，每次测试持续10分钟时间，并记录了最终的性能数据，如下表所示。
浪潮NF5468A5+单卡RTX3090 HASH算法测试
在这里插入图片描述

其中ETHASH算法的单卡性能达到了108MH/s。
这在很大程度上得益于NF5468A5优秀的散热设计。RTX3090的功耗高达350W，在区块链场景，显卡通常是7*24小时运行，因此对散热的要求非常高。笔者监控了整个测试过程中的GPU功耗和温度情况，发现在长达半天的测试过程中，虽然GPU功耗长期维持在330~340W之间，但是GPU的温度一直维持在60℃左右，甚至在多卡同时运行时，GPU的温度也能保持在60℃左右，可以看出NF5468A5的散热设计做得相当不错。
3. NF5468A5服务器测评总结
通过对产品外观和内部设计的评测，看到，浪潮NF5468A5在产品设计上，存储、计算、风扇、GPU扩展等各模块简洁明朗，尤其是巧妙的分区散热设计有效实现CPU与GPU模组的分流，丰富的存储+IO扩展性，同时人性化的设计以扎实的做工，也彰显出浪潮对产品细节的严谨和大厂雄厚的设计实力。
在整体实际性能的综合测试，得益于浪潮高效的产品架构，最大发挥CPU与GPU之间的通讯效能，处理器计算效率达到93.74%，实测内存带宽373 GB/s，搭配8张A100训练ResNet50模型得到每秒处理21486张图片的惊人算力，在ImageNet数据集下进行ResNet50推理测试展现超出T4标称13%的图片处理能力，这台算力猛兽全方位的表现，相信给笔者和大家都留下了深刻的印象。
此外，ETHASH算法单卡性能突破100MH/s；很好地支持寒武纪国产推理卡，轻松实现每秒处理图片超7000张；搭载视频转码卡M10A展示了480fps 1080P视频转码性能。浪潮NF5468A5还有很多意想不到的潜能，笔者期待进一步的发掘，给大家带来更精彩的评测。

参考文献链接
https://mp.weixin.qq.com/s/FO4gQNYCCzitVXoTaDILlw
https://mp.weixin.qq.com/s/L4u-ffG-jEDNKC2q-fr9bw

汽车与芯片算力杂谈

mpi_options=“–mca mpi_leave_pinned 1 --bind-to none --report-bindings --mca btl self,vader”

mpi_options=“$mpi_options --map-by ppr:1:l3cache -x OMP_NUM_THREADS=4 -x OMP_PROC_BIND=TRUE -x OMP_PLACES=cores”

mpirun $mpi_options -app ./appfile_ccx

Thread Binding Options for AMD EPYC 7742/7763 Processor$ export GOMP_CPU_AFFINITY=0-64:8$ export OMP_NUM_THREADS=8

unzip mlperf-inference-release.zip# cd /mlperf-inference-release/closed/Inspur# export MLPERF_SCRATCH_PATH=/home/inspur/data/data_mlperf/# make prebuild(备注：prebuild后会自动进入容器实例)

猜你喜欢