DSS8440 搭配 V100S GPU 的 HPC 和人工智慧效能
Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, 效能指標
Symptoms
Dell EMC HPC 與 AI 創新實驗室,2020 年 5 月
執行摘要
本部落格介紹評估 8 個 V100S DSS8440不同 HPC 和深度學習應用的研究結果,包括 HPL、LAMMPS 和 MLPerf-v0.6 套房。摘要:
- LAMMPS 等受 GPU 頻寬限制的應用程式可以利用新的 V100S GPU,並可提升單一和多個 GPU 的效能。
- 深度學習應用程式(例如在 MLPerf 中測試的應用程式) 將受益於 V100S 更高的加速時脈和更高頻寬。
- HPC 效能指標 HPL 等 GPU 運算受限應用程式,其效能與 V100-PCIe 相同。
本博客的其餘部分列出了此測試的詳細資訊。 請注意,將來,相同的應用程式將在帶有RTX GPU(代替V100S)的DSS8440上運行,並且還將運行其他測試,例如AMD平臺上的V100S性能。
Resolution
試驗平台概觀
可使用 Dell EMC DSS8440伺服器 是加速器最佳化的伺服器,專為高效能運算和深度學習工作負載而設計。可使用 NVIDIA V100S 是特斯拉Volta系列的最新成員,是一款基於雙寬32G PCIe的GPU卡。本部落格將介紹評估 8 個 V100S DSS8440不同 HPC 和深度學習應用的研究結果,包括 HPL、LAMMPS 和 MLPerf-v0.6 套房。
表 1 和表 2 列出了所測試 DSS 8440 伺服器的硬體和軟體詳細資料,以及 V100S 和 V100-PCIe 的比較。
表 1:硬體和軟體詳細資料

表 2:V100S 和 V100-PCIe 規格差異
HPC 應用程式效能

圖 1:V100S 和 V100-PCIe HPL DSS8440結果
圖 1 顯示了 HPL 性能數據。V100S 和 V100-PCIe 之間沒有太大區別,因為 HPL 是一種極端壓力測試應用。幾乎沒有溫度空間 GPU 加速功能,因此 GPU 的頻率會很快回落至基準時脈速率。由於 V100S 和 V100-PCIe 的基本時脈速率幾乎相同,因此對於 HPL 等 GPU 運算受限應用,V100S 可提供與 V100-PCIe 大致相同的效能等級。

圖 2:V100S 和 V100-PCIe LAMMPS DSS8440結果
圖 2 顯示了 LAMMPS 與 Lennard Jones 數據集的時間步長結果。LAMMPS 是分子動態代碼的一個示例,該代碼被稱為 GPU 頻寬限制應用。在此測試中,V100S 提供的效能比 V100-PCIe 高出 27%。加速不僅來自提升頻率提高了 15%,頻寬增加了 26%,還來自更新的軟體版本。V100-PCIe 編號是在 LAMMPS 2019 年 2 月 8 日版本中使用舊 KOKKOS 套件取得的。但是,較新版本 2020 年 1 月 24 日增加了對在帶有 KOKKOS 的 GPU 上使用 cuFFT 的支援。大多數細節都可以在這裡找到 LAMMPS 2020 年 1 月 24 日版本資訊。
深度學習應用程式效能

圖 3:DSS8440上的 V100S 和 V100-PCIe MLPerf 結果
MLPerf 訓練封閉分區 0.6 版本 有6個子測試,涵蓋廣泛的深度學習領域,包括圖像分類(ResNet-50),對象檢測(Mask R-CNN和SSD),翻譯(NMT和變壓器)和強化學習(MiniGo)。兩張 GPU 卡的比較結果如圖 3 所示。在 V100S 的 MLPerf 套件中觀察到大約 1-5% 的效能提升,這與結果記錄檔中高出 1-5% 的輸送量一致。GPU 時脈速率的即時輸出受到監控,在所有這些測試中,觀察到 V100S GPU 的運行速度都高出 1-5%,因此性能優勢來自 V100S 更高的提升頻率。
結論和未來工作
在此部落格中,我們比較了 HPL、LAMMPS 的 HPC 應用程式效能,以及使用 MLPerf 的深度學習效能與相同DSS8440伺服器上的 V100S 和 V100-PCIe GPU 卡。LAMMPS 等受 GPU 頻寬限制的應用程式可以利用新的 V100S GPU,並可提升單一和多個 GPU 的效能。在 MLPerf 中測試的深度學習應用程式也受益於 V100S 更高的加速時脈和更高頻寬。GPU 運算受限 HPC 效能指標 HPL 可獲得與 V100-PCIe 相同的效能。將來,DSS8440上相同的應用程式將使用RTX GPU運行,並將探索其他一些測試,例如AMD平臺上的V100S性能。