刷新OpenStack最大规模集群纪录,智算中心操作系统有了新标杆

2020年初,一场以新基建之名的数字基础设施建设热潮,让国人为之兴奋。所谓“新基建”也称为新型基础设施,主要是指融合了云计算、大数据、人工智能等新兴数字技术的城市基础设施,2020年4月中央明确“新基建”范围,包括5G建设、大数据中心、人工智能等七大领域。新基建之所以重要,还在于它承担了推动传统基础设施向新型基础设施转型的历史重任,这在十三五与十四五之交具有格外重要的意义。

针对新基建以及大数据中心等具体的数字基础设施,浪潮作为国内老牌技术厂商以及全球第二大服务器厂商,在2020年4月提出了“智算中心”的概念,为大规模数据中心的演进指明了方向。如果说大规模数据中心强调的是算力、性能、可靠性等,那么智算中心更多强调的是算力的集约化,包括各种异构计算的整合以及云、大数据、人工智能等平台的协同打通。开放标准、集约高效、普适普惠,是智算中心的基本特征。

从大规模数据中心到智算中心,其核心“操作系统”又将迎来怎样的变化?2020年11月25日,浪潮在2020云海创新论坛(IIF2020)上发布了智算中心操作系统,向外界展示了对智算中心操作系统的构想及落地实践——云海OS完成了全球最大规模OpenStack单一集群1000节点的云数智融合实践。

(浪潮信息副总裁张东)

潮信息副总裁张东表示,浪潮云海OS以开源开放技术为基础、以新时期用户需求为出发点,不断进化成为开放、融合、敏捷、智能的操作系统,满足新基建时代智算中心的要求,奠定了政企数字化转型“云数智”融合的基础,是智算中心的中枢。

浪潮云海OS经历了从虚拟化管理到云数据中心操作系统的演变,如今又进化为智算中心操作系统,而其底座仍然是开源技术及工业标准硬件,从而满足开放标准、普适普惠、集约高效的要求。

突破OpenStack大规模单一集群

在11月25日举办的浪潮云海创新论坛2020上,浪潮云海发布了全球最大规模OpenStack单一集群达1000节点的云数智融合实践。浪潮云海在2019年就完成了单一集群500节点的测试,是当时基于OpenStack Rocky版本的全球最大规模单一集群实践。本次1000节点大规模测试,在规模、场景、性能等方面进行了全面突破,完成了从500节点到1000节点的升级,还刷新了今年4月云海OS所取得的SPEC Cloud IaaS 测试纪录,实现了量变到质变的跃迁。

中国信通院全程参与了两次集群的测试。中国信通院云大所副所长栗蔚表示,OpenStack是当前主流的云架构开源项目,逐渐成为高速发展企业和成熟企业基础IT架构的首选解决方案之一。OpenStack在小规模部署时,其性能和稳定性较为稳定,开源特性和良好的社区支持也为小规模部署提供了技术参考。随着企业探索的不断深入,大规模应用的需求越发迫切,OpenStack大规模云集群有待突破。

作为全球顶级的开源项目之一,OpenStack已经走过了十年的历程,成为私有云的产业事实标准以及部分公有云的“底座”,是当前全球部署最为广泛的开源云软件。截止2020年,OpenStack发布了22个版本,社区里有超过40个项目,全球有超过1000万的基于OpenStack的计算核心,在全球187个国家和地区有数十万成员。今年10月,OpenStack基金会演进成为Open Infrastructure Foundation开源基础设施基金会,凸显了融合人工智能、5G、大数据、边缘计算等新型工作负载的定位。

一方面,OpenStack可以纳管和支持融合的工作负载越来越多;另一方面,由于开源技术和复杂组件带来的局限性,导致当达到一定规模时,系统的运维难度陡增、并发性能降低,而通过对系统的合理优化方能满足大规模节点部署的应用场景,保证系统的正常稳定运行,这就是浪潮云海OpenStack大规模单一集群测试的意义所在。

更大、更全、更高

浪潮在多年云平台建设的探索中发现,大型用户的云平台实践普遍面临大规模的挑战。随着内外部用户数量的增长,单一应用和服务的规模变得愈发庞大,需要同时部署数百甚至数千台虚拟机。如果使用多个小规模集群构建云平台,应用和服务的跨集群部署、管理、升级会变得异常困难甚至无法实现,因此对单一集群的规模产生了强烈的需求。

针对大型用户对大规模云平台单一集群的需求,浪潮云海团队在中国信通院的见证下开展了OpenStack大规模单一集群的测试。浪潮云计算与大数据产品线首席架构师亓开元表示,从2019年的OpenStack单一集群500节点到今年的1000节点,不仅仅是更大规模的单一集群,今年还加入了大数据和人工智能,测试集群支撑的业务更全,整体系统达到的更高性能。

本次测试,浪潮云海团队在短短3天内完成了1000台服务器部署,支撑传统业务、云原生业务、大数据业务、人工智能应用等,并刷新了SPEC Cloud基准测试世界纪录:OpenStack实现3000个虚拟机高并发创建,密度可达5万,30分钟内完成百节点裸机发放;容器实现1000节点管理,3万 POD并发创建,20万POD管理,10万应用管理;存储实现240节点管理,10万卷分布式存储,单节点1万IOPS,单集群240万IOPS;SDN实现2到7层网络10万台虚拟机统一管理配置,流量灵活调度。

亓开元强调,浪潮公司大力支持OpenStack大规模单一集群的测试,仅本次测试用的1000台服务器的成本就高达上亿,是直接从生产线拉下来后送入老化线,其目标就是向用户展示浪潮的交钥匙工程能力。换言之,本次所测试实现的1000台OpenStack大规模单一集群,同样的方案可以直接部署到用户的数据中心,马上就可获得本次测试所实现的各种极致性能,例如金融和电信等行业都对1000节点单一集群有着实际需求,因此1000节点单一集群相应就极具行业参考规范价值。

而在1000节点之后,下一个测试规模是什么?亓开元介绍,实际上在本次测试中也进行了1000节点集群的多集群连接测试,未来可以通过多集群方式扩大到上万节点,满足用户更大规模数据中心的未来需求。

从云数据中心到智算中心

作为OpenStack社区的重要成员之一,浪潮早在2015年就开始围绕“开放、融合、敏捷”的理念,以OpenStack为核心构建数据中心操作系统,通过敏捷开发的模式实现了虚拟、裸机、容器的统一管理及增强。尤其是在高性能、高效率、高可用、资源融合、多云融合、云数智融合以及智能运维、智能服务等方面持续进行优化创新,在开源版本基础上融入了大量企业级增强和优化,打造了云数智坚实的底座。

实际上,对于云计算、大数据和人工智能计算来说,这是三种不同形态的计算方式,对于计算资源的要求和调度等有着各自的要求,那么作为智算中心操作系统又是如何实现云数智融合的呢?这首先就需要对云计算、大数据和人工智能等开源技术的深入掌握和深度理解,特别是需要掌握OpenStack云计算“底座”的精深知识以及相关的工程实践,而这就是1000节点单一集群测试和实践的重要价值。

对于浪潮云海OS来说,不仅强调对OpenStack开源技术的掌握,更强调参与开源社区以及通过自己的实践来回馈开源社区。例如在OpenStack第21个版本Ussuri和刚发布的第22个版本Victoria中,浪潮在代码提交数、完成蓝图数、起草蓝图数、补丁修复数和参与人天数均达到全球前列、中国第一。近年来,浪潮的社区贡献主要集中在Nova(计算)、Cinder(块存储)、Cyborg(加速)、Vitrage(根因分析)、Manila(文件存储)等核心模块,并主导完成Nova通过Cyborg管理加速设备的特性、贡献Inspur GPU、FPGA、NVMe SSD等硬件设备驱动,有效促进了人工智能、边缘计算等新兴领域的发展,今年还发布了Venus智能日志管理开源项目,与业界共同构建开放统一的智能基础设施。

而面向云原生领域、满足用户容器化场景需求,浪潮基于微服务思想、以应用为中心、面向私有云市场打造的企业级容器服务平台,这就是浪潮云海容器云平台InCloud K8S(简称 ICK8S),并于2020年9月发布了V2.2版本。该版本新增了微服务治理功能,并在应用管理、应用部署、应用中心等方面全面升级,实现针对容器化业务场景的全面覆盖。例如在最重要的微服务治理方面,ICK8S实现了无侵入式微服务治理——支持全流量治理、链路追踪、灰度发布等治理服务,治理实现与业务开发的完全解耦,平台兼容多种微服务框架,已有微服务应用无需额外改造即可平滑迁移。

在面向人工智能和机器学习方面,大数据处理平台浪潮云海Insight入选了Forrester发布中国预测分析和机器学习市场研究报告《Now Tech: Predictive Analytics And Machine Learning In China, Q3 2020》(简称PAML),浪潮与百度、阿里云、腾讯云等企业入选中国预测分析和机器学习市场第一阵营。浪潮云海Insight平台具备数据智能化分析挖掘、多数据源协同计算、大规模集群一键式部署、异构平台混合部署与资源精细化管理等领先技术特性。

正是有了前期在云计算、大数据和人工智能等领域的技术布局,如今浪潮云海OS才有可能升级到智算中心操作系统,特别是实践了1000节点大规模单一融合集群。浪潮以OpenStack、K8S等开放基础设施为底座,融入AIOps和人工智能训练推理平台,构建云数智一体化平台并提供智能化服务。“智算中心操作系统是智算中心的灵魂,能够有效联接下层硬件和上层服务,异构融合多种算力和多元场景,敏捷应对不同智算需求,以智能驱动创新”,浪潮信息副总裁张东就此表示。

总结来说:浪潮云海OS向智算中心操作系统的升级,是面向未来政企用户需求而提前进行的布局。浪潮作为互联网市场的第一大服务器厂商,将互联网对于新兴技术的需求以及相应的技术方案沉淀和积累下来,再向传统政企用户扩散。无论是云原生、大数据和人工智能等,真正要全面进入政企应用还要几年的时间,而浪潮智算中心操作系统不仅为新基建树立了新标杆,更是为十四五的政企数字化转型立下了新标杆!(文/宁川)

猜你喜欢

转载自blog.csdn.net/achuan2015/article/details/110824685