NVIDIA H100 80GB PCIe 动手进行 CFD 仿真

NVIDIA H100 80GB PCIe 动手进行 CFD 仿真
首先,我们有测试系统。这是在 NUMA 节点 L1 上具有 114 个计算单元和 80GB 内存的 OpenCL 设备的系统:
NVIDIA H100 80GB PCIe Lstopo
这是卡的 nvidia-smi 输出:
NVIDIA H100 80GB PCIe 英伟达 Smi
至于功耗,我们认为 68-70W 是相当正常的。310W 的最大功耗似乎有点高,但我们确实在某些 AI 工作负载上达到了这个数字。
尽管如此,我们还是想突出莫里茨的工作。以下是他的其他基准测试结果中的 NVIDIA H100 80GB 结果:
NVIDIA H100 80GB PCIe FluidX3D FP32 FP32
您可能需要查看上面图表的较大版本,但 H100 80GB PCIe 现在位于该图表的顶部。其次是 A100 SXM 80GB,然后是 PCIe A100,然后是 40GB SXM A100。无论如何,这是一个显着的改进。

以下是您从 Mortiz 那里看到的内容的描述:
这 3 个数字都是每秒 Mega Lattice UPdates,或者每秒计算多少百万个网格点。FluidX3D 是一种晶格玻尔兹曼方法 (LBM) 流体求解器,可在每个时间步计算立方网格上所有点的密度和速度。LBM 通过在内存中复制密度分布函数(DDF,这些只是浮点数)来工作,并且完全受带宽限制。FluidX3D 在 FP32 中执行所有算术运算,但对于此内存访问具有 3 级精度:

  • FP32 : 标准 FP32
  • FP16S:IEEE-754 FP16,在转换前/后具有比例因子;硬件支持转换
  • FP16C:一种自定义的 16 位浮点格式,只有 4 位指数和更准确的 11 位尾数。在某些情况下,这比 FP16S 更准确。转换是通过大量整数运算手动完成的,需要大约 51 条指令。由于 LBM 受带宽限制,将 DDF 从 FP32 压缩为任一 FP16 格式会使性能翻倍。FP16C 大量使用 int 算术,因此通常没有那么快。在大多数情况下,压缩根本不会影响准确性。

对于某些数据点,上述功耗:
**FP32 :**217W
**FP16S:**257W
**FP16C:**277W

这样,效率是:
**FP32:**51.3MLUP/W
**FP16S:**74.5MLUP/W
**FP16C:**53.9MLUP/W
有关CFD 仿真及H100的更多信息,可查看【昊源诺信】

猜你喜欢

转载自blog.csdn.net/weixin_50197960/article/details/127963980