使用 V100S GPU 的 DSS8440 上的 HPC 和 AI 性能
Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, 基准
Symptoms
EMC HPC 和 AI 创新实验室,2020 年 5 月
执行摘要
此博客DSS8440介绍了针对不同的 HPC 和深度学习应用程序(包括 HPL、LAMMPS 和 MLPerf-v0.6 套房。总而言之:
- 受 GPU 带宽限制的应用程序 (如 LAMMP)可以利用新的 V100S GPU,并将提升单个和多个 GPU 的性能。
- 深度学习应用程序( 例如在 MLPerf 中测试的应用程序)将受益于 V100S 更高的加速时钟和更高的带宽。
- GPU 计算密集型应用程序 (如 HPC 基准 HPL)将获得与 V100-PCIe 相同的性能。
本博客的其余部分列出了此测试的详细信息。 请注意,将来,相同的应用程序将在具有 RTX GPU(取代 V100S)的 DSS8440上运行,并且还将运行其他测试,例如 AMD 平台上的 V100S 性能。
Resolution
测试平台概述
而 Dell EMC DSS8440 服务器 是一款加速器优化的服务器,专为高性能计算和深度学习工作负载而设计。而 NVIDIA V100S 是 Tesla Volta 系列的最新成员,它是一款基于 32G PCIe 的双宽 GPU 卡。此博客将介绍DSS8440针对不同的 HPC 和深度学习应用程序(包括 HPL、LAMMPS 和 HPL、LAMMPS 和 MLPerf-v0.6 套房。
表 1 和表 2 中列出了测试的 DSS 8440 服务器的硬件和软件详细信息以及 V100S 和 V100-PCIe 的比较。
表 1:硬件和软件详细信息

表 2:V100S 和 V100-PCIe 规格差异
HPC 应用程序性能

图 1:DSS8440上的 V100S 和 V100-PCIe HPL 结果
图 1 显示了 HPL 性能数字。V100S 和 V100-PCIe 之间没有太大区别,因为 HPL 是一种极端压力测试应用程序。几乎没有温度空间 GPU 加速功能,因此 GPU 的频率会很快回落到基本时钟速率。由于 V100S 和 V100-PCIe 具有几乎相同的基本时钟速率,因此对于 HPL 等 GPU 计算受限应用程序,V100S 可提供与 V100-PCIe 大致相同的性能级别。

图 2:DSS8440上的 V100S 和 V100-PCIe LAMMPS 结果
图 2 是使用 Lennard Jones 数据集的 LAMMPS 的时间步长结果。LAMMPS 是分子动力学代码的一个示例,已知它是一种 GPU 带宽受限的应用程序。在此测试中,V100S 的性能比 V100-PCIe 高 27%。加速不仅来自提高 15% 的提升频率和 26% 的带宽,还来自更新的软件版本。V100-PCIe 编号使用 LAMMPS 8Feb2019 版本中的旧 KOKKOS 软件包获得。但是,较新版本 24Jan2020 添加了在具有 KOKKOS 的 GPU 上使用 cuFFT 的支持。大多数细节都可以在这里找到 LAMMPS 2020 年 1 月 24 日发行说明。
深度学习应用程序性能

图 3:DSS8440上的 V100S 和 V100-PCIe MLPerf 结果
MLPerf 训练封闭式除法 0.6 版 有 6 个子测试,涵盖广泛的深度学习领域,包括图像分类 (ResNet-50)、目标检测 (Mask、R-CNN 和 SSD)、翻译 (NMT 和 Transformer) 和强化学习 (MiniGo)。两种 GPU 卡的比较结果如图 3 所示。在 V100S 的 MLPerf 套件中观察到大约 1-5% 的性能提升,这与结果日志文件中提高 1-5% 的吞吐量一致。对 GPU 时钟速率的实时输出进行了监视,结果表明,在所有这些测试中,V100S GPU 的运行速度都高出 1-5%,因此性能优势来自 V100S 更高的提升频率。
结论和未来的工作
在此博客中,将采用 HPL、LAMMPS 的 HPC 应用程序性能以及采用 MLPerf 的深度学习性能与同一DSS8440服务器上的 V100S 和 V100-PCIe GPU 卡进行了比较。受 GPU 带宽限制的应用程序(如 LAMMP)可以利用新的 V100S GPU,并将提升单个和多个 GPU 的性能。在 MLPerf 中测试的深度学习应用程序还可以从 V100S 更高的加速时钟和更高的带宽中受益。GPU 计算边界 HPC 基准 HPL 获得与 V100-PCIe 相同的性能。未来,DSS8440上的相同应用程序将使用 RTX GPU 运行,并且将探索其他一些测试,例如 AMD 平台上的 V100S 性能。