多元算力如何满足万千本土化场景需求,解析第四代至强核心加速器设计

作者 | 宋慧

出品 | CSDN 云计算

2023 年初,英特尔重磅发布了企业级芯片领域重要的产品——第四代英特尔® 至强® 可扩展处理器。当时报道中,我们就重点提到了其中重要的七大内置加速器,这也是英特尔为千行百业多种创新场景去提供算力支持的底气。

在第四代至强处理器发布后,英特尔的技术团队也马不停蹄,继续在用户的真实场景里探索、优化加速器的最佳实例。近期,英特尔工程师团队详细对媒体分享了其中几个加速器在实践中的设计思路,以及目前在国内用户系统中实际应用的案例。

首先,除了第四代至强处理器发布时推出的七大加速器,之后英特尔还推出了集成 vRAN Boost 的第四代英特尔至强可扩展处理器,这通用芯片将物理层加速功能完全集成到至强系统芯片(SoC)中,无需外置加速卡。英特尔 vRAN Boost 使得运营商能够在通用虚拟化平台上整合所有基站层,这种虚拟基站,采用通用的处理器实现基站功能,将带来可观的性价比提升,所以英特尔 vRAN Boost 也是继七大加速器之后,第四代至强处理器的新增助力。

这里,我们再列一下七大加速器的详细资料:

  • 英特尔® 高级矩阵扩展(英特尔® AMX):可大幅提高深度学习训练和推理性能,性能可提升至 10 倍,非常适合自然语言处理、推荐系统和图像识别等工作负载。
  • 英特尔® 动态负载均衡器(英特尔® DLB):实现了在多个 CPU 内核 / 线程上高效地分配网络处理,根据系统负载的变化而动态地在多个 CPU 内核上分配网络数据以进行处理,并能够还原在多个 CPU 内核上同时处理网络数据包的顺序,显著提升网络工作负载的系统级处理性能,时延降低 96%。
  • 英特尔® 数据流加速器(英特尔® DSA):专为卸载常见的、会导致数据中心规模部署开销的数据移动任务所设计,能够帮助加速 CPU、内存和缓存,以及所有附加的内存、存储和网络设备之间的数据移动,可将存储、网络和数据密集型工作负载的性能提升至 1.7 倍。
  • 英特尔® 存内分析加速器(英特尔® IAA):可在提高查询吞吐量的同时减少内存占用,非常适合内存数据库、开源数据库以及 RocksDB 和 ClickHouse 等数据存储工作,性能可提升至 3 倍。
  • 英特尔® 数据保护与压缩加速技术(英特尔® QAT):作为内置加速器,其可通过卸载加密、解密和压缩释放处理器内核,从而让系统能够支持更多客户端运行或实现降低能耗的目的。得益于英特尔® QAT 加速器,第四代英特尔® 至强® 可扩展处理器已成为为单一数据流压缩并加密数据性能最高的 CPU。
  • 英特尔® 安全技术:通过英特尔 软件防护扩展(英特尔® SGX)和英特尔® 全内存机密技术(英特尔® TME)对工作负载进行保护;借助英特尔® 密码操作硬件加速(英特尔® Crypto Acceleration)加速加密运算;利用英特尔® 内存故障管理技术(英特尔® MRT)实现预测性安全保护;并通过英特尔® 平台固件弹性技术(英特尔® PFR)完成平台安全启动。
  • 英特尔® 至强® CPU Max 系列:集成高带宽内存,能够在无需变更代码的情况下为科学计算工作负载加速。

其中,英特尔® 高级矩阵扩展(以下简称 AMX),是创新性地第一次在 CPU 平台上应用了用于矩阵运算的单元。以往如果要做大数据、人工智能等数据密集型的业务,CPU 上的计算单元(如 AVX-512)运算单元为向量型,第四代至强 CPU 引入了硬件矩阵的积存器 Tiles,同时还有配合硬件寄存器的运算单元,最终实现每一个 CPU 指令都可以进行矩阵运算。AMX 计算单元支持两种数据精度,分别是 8bit 的整形数据与 16bit 的浮点数据(BF16)。最终在 AI 训练和推理中,AMX 就可以支持不同数据精度如 BF16、INT8,去高效完成 AI 任务。

具体应用案例,则是用在阿里的地址标准化研究,以及其中的语义分析中。英特尔与阿里合作采用了第四代至强的 AMX(INT8 数据类型的精度),同时有软件运算时层级融合技术,以及英特尔开发的高性能运算优化库,最终相比基于第三代 Ice Lake 的整机,性能提升到原来的 2.48 倍。另外,还有阿里手淘首页搜索业务、部署于腾讯云的太极机器学习平台支撑的搜索业务等,得益于AMX,性能均获得了 2-3 倍的提升。

另外,针对大数据、内存分析类型数据库等数据场景,则有英特尔® 存内分析加速器(英特尔® IAA,以下简称 IAA)可以应用。IAA 从底层操作系统到虚拟化层形成了完整的软件栈,以用户态 QPL 库去操作 IAA 硬件,并针对 Clickhouse、MongoDB 做优化,最终可以用于数据压缩、解压、查询、过滤等工作负载。例如,以往 Clickhouse 常用 LZ4软件压缩算法,而英特尔采用 IAA Deflate 硬件加速,查询性能提升40%,同时压缩率提升 42%,最终帮助用户提升性能,节省磁盘、带宽、内存的成本和使用。

以上仅是少数应用案例,英特尔的七大加速器针对各类行业、技术应用场景的优化设计还有许多,一篇文章无法全面概述。而所有这些设计和追求,最终是为了实现更高效率、更低成本和能耗的数字化转型及创新应用落地。这种软硬协同、优化加速的设计思路,值得开发者多多关注参考,CSDN 将持续报道数字化转型的核心技术。

猜你喜欢

转载自blog.csdn.net/FL63Zv9Zou86950w/article/details/129881535