DSS8440 搭配 V100S GPU 的 HPC 和人工智慧效能

Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, 效能指標

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

作者:Frank Han、Rengan Xu、Quy Ta
Dell EMC HPC 與 AI 創新實驗室,2020 年 5 月

執行摘要

本部落格介紹評估 8 個 V100S DSS8440不同 HPC 和深度學習應用的研究結果,包括 HPL、LAMMPS 和 MLPerf-v0.6 套房。摘要:

  • LAMMPS 等受 GPU 頻寬限制的應用程式可以利用新的 V100S GPU,並可提升單一和多個 GPU 的效能。
  • 深度學習應用程式例如在 MLPerf 中測試的應用程式) 將受益於 V100S 更高的加速時脈和更高頻寬。
  • HPC 效能指標 HPL 等 GPU 運算受限應用程式,其效能與 V100-PCIe 相同。

本博客的其餘部分列出了此測試的詳細資訊。  請注意,將來,相同的應用程式將在帶有RTX GPU(代替V100S)的DSS8440上運行,並且還將運行其他測試,例如AMD平臺上的V100S性能。

Resolution

試驗平台概觀

可使用 Dell EMC DSS8440伺服器 是加速器最佳化的伺服器,專為高效能運算和深度學習工作負載而設計。可使用 NVIDIA V100S 是特斯拉Volta系列的最新成員,是一款基於雙寬32G PCIe的GPU卡。本部落格將介紹評估 8 個 V100S DSS8440不同 HPC 和深度學習應用的研究結果,包括 HPL、LAMMPS 和 MLPerf-v0.6 套房。

表 1 和表 2 列出了所測試 DSS 8440 伺服器的硬體和軟體詳細資料,以及 V100S 和 V100-PCIe 的比較。

 

表 1:硬體和軟體詳細資料

SLN321304_en_US__1image(15660)

表 2:V100S 和 V100-PCIe 規格差異
SLN321304_en_US__2image(15661)

 

HPC 應用程式效能

 

 SLN321304_en_US__3image(15658)

圖 1:V100S 和 V100-PCIe HPL DSS8440結果

圖 1 顯示了 HPL 性能數據。V100S 和 V100-PCIe 之間沒有太大區別,因為 HPL 是一種極端壓力測試應用。幾乎沒有溫度空間 GPU 加速功能,因此 GPU 的頻率會很快回落至基準時脈速率。由於 V100S 和 V100-PCIe 的基本時脈速率幾乎相同,因此對於 HPL 等 GPU 運算受限應用,V100S 可提供與 V100-PCIe 大致相同的效能等級。 

SLN321304_en_US__4image(15659)

圖 2:V100S 和 V100-PCIe LAMMPS DSS8440結果

圖 2 顯示了 LAMMPS 與 Lennard Jones 數據集的時間步長結果。LAMMPS 是分子動態代碼的一個示例,該代碼被稱為 GPU 頻寬限制應用。在此測試中,V100S 提供的效能比 V100-PCIe 高出 27%。加速不僅來自提升頻率提高了 15%,頻寬增加了 26%,還來自更新的軟體版本。V100-PCIe 編號是在 LAMMPS 2019 年 2 月 8 日版本中使用舊 KOKKOS 套件取得的。但是,較新版本 2020 年 1 月 24 日增加了對在帶有 KOKKOS 的 GPU 上使用 cuFFT 的支援。大多數細節都可以在這裡找到 LAMMPS 2020 年 1 月 24 日版本資訊

 

深度學習應用程式效能

SLN321304_en_US__5image(15662)

圖 3:DSS8440上的 V100S 和 V100-PCIe MLPerf 結果

MLPerf 訓練封閉分區 0.6 版本 有6個子測試,涵蓋廣泛的深度學習領域,包括圖像分類(ResNet-50),對象檢測(Mask R-CNN和SSD),翻譯(NMT和變壓器)和強化學習(MiniGo)。兩張 GPU 卡的比較結果如圖 3 所示。在 V100S 的 MLPerf 套件中觀察到大約 1-5% 的效能提升,這與結果記錄檔中高出 1-5% 的輸送量一致。GPU 時脈速率的即時輸出受到監控,在所有這些測試中,觀察到 V100S GPU 的運行速度都高出 1-5%,因此性能優勢來自 V100S 更高的提升頻率。

結論和未來工作

在此部落格中,我們比較了 HPL、LAMMPS 的 HPC 應用程式效能,以及使用 MLPerf 的深度學習效能與相同DSS8440伺服器上的 V100S 和 V100-PCIe GPU 卡。LAMMPS 等受 GPU 頻寬限制的應用程式可以利用新的 V100S GPU,並可提升單一和多個 GPU 的效能。在 MLPerf 中測試的深度學習應用程式也受益於 V100S 更高的加速時脈和更高頻寬。GPU 運算受限 HPC 效能指標 HPL 可獲得與 V100-PCIe 相同的效能。將來,DSS8440上相同的應用程式將使用RTX GPU運行,並將探索其他一些測試,例如AMD平臺上的V100S性能。

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.