使用 V100S GPU 的 DSS8440 上的 HPC 和 AI 性能

Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, 基准

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

作者:Frank Han、Rengan Xu 和 Quy Ta,Dell
EMC HPC 和 AI 创新实验室,2020 年 5 月

执行摘要

此博客DSS8440介绍了针对不同的 HPC 和深度学习应用程序(包括 HPL、LAMMPS 和 MLPerf-v0.6 套房。总而言之:

  • 受 GPU 带宽限制的应用程序 (如 LAMMP)可以利用新的 V100S GPU,并将提升单个和多个 GPU 的性能。
  • 深度学习应用程序例如在 MLPerf 中测试的应用程序)将受益于 V100S 更高的加速时钟和更高的带宽。
  • GPU 计算密集型应用程序 (如 HPC 基准 HPL)将获得与 V100-PCIe 相同的性能。

本博客的其余部分列出了此测试的详细信息。  请注意,将来,相同的应用程序将在具有 RTX GPU(取代 V100S)的 DSS8440上运行,并且还将运行其他测试,例如 AMD 平台上的 V100S 性能。

Resolution

测试平台概述

Dell EMC DSS8440 服务器 是一款加速器优化的服务器,专为高性能计算和深度学习工作负载而设计。而 NVIDIA V100S 是 Tesla Volta 系列的最新成员,它是一款基于 32G PCIe 的双宽 GPU 卡。此博客将介绍DSS8440针对不同的 HPC 和深度学习应用程序(包括 HPL、LAMMPS 和 HPL、LAMMPS 和 MLPerf-v0.6 套房。

表 1 和表 2 中列出了测试的 DSS 8440 服务器的硬件和软件详细信息以及 V100S 和 V100-PCIe 的比较。

 

表 1:硬件和软件详细信息

SLN321304_en_US__1image(15660)

表 2:V100S 和 V100-PCIe 规格差异
SLN321304_en_US__2image(15661)

 

HPC 应用程序性能

 

 SLN321304_en_US__3image(15658)

图 1:DSS8440上的 V100S 和 V100-PCIe HPL 结果

图 1 显示了 HPL 性能数字。V100S 和 V100-PCIe 之间没有太大区别,因为 HPL 是一种极端压力测试应用程序。几乎没有温度空间 GPU 加速功能,因此 GPU 的频率会很快回落到基本时钟速率。由于 V100S 和 V100-PCIe 具有几乎相同的基本时钟速率,因此对于 HPL 等 GPU 计算受限应用程序,V100S 可提供与 V100-PCIe 大致相同的性能级别。 

SLN321304_en_US__4image(15659)

图 2:DSS8440上的 V100S 和 V100-PCIe LAMMPS 结果

图 2 是使用 Lennard Jones 数据集的 LAMMPS 的时间步长结果。LAMMPS 是分子动力学代码的一个示例,已知它是一种 GPU 带宽受限的应用程序。在此测试中,V100S 的性能比 V100-PCIe 高 27%。加速不仅来自提高 15% 的提升频率和 26% 的带宽,还来自更新的软件版本。V100-PCIe 编号使用 LAMMPS 8Feb2019 版本中的旧 KOKKOS 软件包获得。但是,较新版本 24Jan2020 添加了在具有 KOKKOS 的 GPU 上使用 cuFFT 的支持。大多数细节都可以在这里找到 LAMMPS 2020 年 1 月 24 日发行说明

 

深度学习应用程序性能

SLN321304_en_US__5image(15662)

图 3:DSS8440上的 V100S 和 V100-PCIe MLPerf 结果

MLPerf 训练封闭式除法 0.6 版 有 6 个子测试,涵盖广泛的深度学习领域,包括图像分类 (ResNet-50)、目标检测 (Mask、R-CNN 和 SSD)、翻译 (NMT 和 Transformer) 和强化学习 (MiniGo)。两种 GPU 卡的比较结果如图 3 所示。在 V100S 的 MLPerf 套件中观察到大约 1-5% 的性能提升,这与结果日志文件中提高 1-5% 的吞吐量一致。对 GPU 时钟速率的实时输出进行了监视,结果表明,在所有这些测试中,V100S GPU 的运行速度都高出 1-5%,因此性能优势来自 V100S 更高的提升频率。

结论和未来的工作

在此博客中,将采用 HPL、LAMMPS 的 HPC 应用程序性能以及采用 MLPerf 的深度学习性能与同一DSS8440服务器上的 V100S 和 V100-PCIe GPU 卡进行了比较。受 GPU 带宽限制的应用程序(如 LAMMP)可以利用新的 V100S GPU,并将提升单个和多个 GPU 的性能。在 MLPerf 中测试的深度学习应用程序还可以从 V100S 更高的加速时钟和更高的带宽中受益。GPU 计算边界 HPC 基准 HPL 获得与 V100-PCIe 相同的性能。未来,DSS8440上的相同应用程序将使用 RTX GPU 运行,并且将探索其他一些测试,例如 AMD 平台上的 V100S 性能。

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.