「V100S GPU搭載DSS8440におけるHPCおよびAIパフォーマンス(英語)」

Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, ベンチマーク

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

著者:Frank Han、Rengan Xu、Quy Ta
Dell EMC HPC & AI Innovation Lab、2020年5月

エグゼクティブサマリー

このブログではDSS8440、HPL、LAMMPS、 MLPerf-v0.6 スイート。要約:

  • LAMMPSなどのGPU帯域幅によって制限されるアプリケーションでは、新しいV100S GPUを活用でき、シングルGPUとマルチGPUの両方でパフォーマンスが向上します。
  • MLPerf でテストされたようなディープ ラーニング アプリケーションは、V100S の高いブースト クロックと高い帯域幅の恩恵を受けることができます。
  • HPCベンチマークHPLなどのGPUコンピューティングバウンド アプリケーションは、V100-PCIeと同じパフォーマンスが得られます。

このブログの残りの部分では、このテストの詳細について説明します。  将来的には、RTX GPUを搭載したDSS8440で同じアプリケーション(V100Sの代わりに)が実行され、AMDプラットフォームでのV100Sのパフォーマンスなど、他のテストも実行される予定であることに注意してください。

Resolution

テストベッドの概要

Dell EMC DSS8440サーバー はアクセラレーター向けに最適化されたサーバーで、特にハイパフォーマンス コンピューティングとディープ ラーニングのワークロード向けに設計されています。「 NVIDIA V100S はTesla Voltaシリーズの最新メンバーであり、ダブル幅の32G PCIeベースのGPUカードです。このブログでは、HPL、LAMMPS、およびディープ ラーニング アプリケーションについて、DSS8440で8台のV100Sを評価した調査結果を紹介します。 MLPerf-v0.6 スイート。

テストしたDSS 8440サーバーのハードウェアとソフトウェアの詳細、およびV100SとV100-PCIeの比較を表1と表2に示します。

 

表1:ハードウェアとソフトウェアの詳細

SLN321304_en_US__1image(15660)

表2: V100SとV100-PCIeの仕様の違い
SLN321304_en_US__2image(15661)

 

HPCアプリケーション パフォーマンス

 

 SLN321304_en_US__3image(15658)

図1: DSS8440でのV100SおよびV100-PCIe HPLの結果

図 1 は、HPL のパフォーマンス数値を示しています。HPLは極度のストレス テスト アプリケーションであるため、V100SとV100-PCIeの間に大きな違いはありません。温度の余地はほとんどありません GPUブースト機能そのため、GPUの周波数はベースクロックレートに非常に迅速にフォールバックします。V100SとV100-PCIeのベース クロック レートはほぼ同じであるため、HPLなどのGPUコンピューティングに制約のあるアプリケーションの場合、V100SはV100-PCIeとほぼ同レベルのパフォーマンスを提供します。 

SLN321304_en_US__4image(15659)

図2:DSS8440でのV100SおよびV100-PCIe LAMMPSの結果

図2は、Lennard Jonesデータセットを使用したLAMMPSのタイムステップ/秒の結果です。LAMMPSは、GPU帯域幅制限アプリケーションとして知られている分子動力学コードの一例です。このテストでは、V100SはV100-PCIeよりも27%高いパフォーマンスを発揮します。高速化は、15%高いブースト周波数と26%増加した帯域幅だけでなく、新しいソフトウェアバージョンによっても貢献しています。V100-PCIe番号は、LAMMPS 8Feb2019バージョンの古いKOKKOSパッケージを使用して取得されました。ただし、新しいバージョン24Jan2020では、KOKKOSを使用してGPUでcuFFTを使用するためのサポートが追加されました。詳細については、こちらを参照してください。 LAMMPS 2020年1月24日リリース ノートの詳細を確認してください。

 

ディープ ラーニング アプリケーションのパフォーマンス

SLN321304_en_US__5image(15662)

図3:DSS8440でのV100SおよびV100-PCIe MLPerfの結果

MLPerf トレーニング クローズド ディビジョン 0.6 バージョン 画像分類(ResNet-50)、物体検出(マスクR-CNNおよびSSD)、変換(NMTおよびTransformer)、強化学習(MiniGo)など、幅広いディープラーニング領域をカバーする6つのサブテストがあります。両方のGPUカードの比較結果を図3に示します。V100SのMLPerfスイート全体で約1〜5%のパフォーマンス向上が観察されました。これは、結果ログ ファイルのスループットが1〜5%向上していることと一致しています。GPUクロックレートのリアルタイム出力が監視され、これらすべてのテストでV100S GPUが1〜5%高い速度で実行されていることが確認されたため、V100Sのブースト周波数が高いことによるパフォーマンス上の利点が得られました。

結論と今後の展望

このブログでは、HPL、LAMMPSを使用したHPCアプリケーションのパフォーマンス、MLPerfを使用したディープ ラーニングのパフォーマンスを、同じDSS8440サーバー上のV100SおよびV100-PCIe GPUカードと比較しました。LAMMPSなどのGPU帯域幅によって制限されるアプリケーションでは、新しいV100S GPUを活用でき、シングルGPUとマルチGPUの両方でパフォーマンスが向上します。MLPerf でテストされたディープ ラーニング アプリケーションは、V100S の高いブースト クロックと高い帯域幅からもメリットを得られます。GPUコンピューティング制限HPCベンチマークHPLは、V100-PCIeと同じパフォーマンスを実現します。将来的には、DSS8440上の同じアプリケーションをRTX GPUで実行し、AMDプラットフォームでのV100Sパフォーマンスなど、他のいくつかのテストを検討します。

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.