「V100S GPU搭載DSS8440におけるHPCおよびAIパフォーマンス(英語)」

概要: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, ベンチマーク

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

著者:Frank Han、Rengan Xu、Quy Ta
Dell EMC HPC & AI Innovation Lab、2020年5月

エグゼクティブサマリー

このブログではDSS8440、HPL、LAMMPS、 MLPerf-v0.6 スイート。要約:

  • LAMMPSなどのGPU帯域幅によって制限されるアプリケーションでは、新しいV100S GPUを活用でき、シングルGPUとマルチGPUの両方でパフォーマンスが向上します。
  • MLPerf でテストされたようなディープ ラーニング アプリケーションは、V100S の高いブースト クロックと高い帯域幅の恩恵を受けることができます。
  • HPCベンチマークHPLなどのGPUコンピューティングバウンド アプリケーションは、V100-PCIeと同じパフォーマンスが得られます。

このブログの残りの部分では、このテストの詳細について説明します。  将来的には、RTX GPUを搭載したDSS8440で同じアプリケーション(V100Sの代わりに)が実行され、AMDプラットフォームでのV100Sのパフォーマンスなど、他のテストも実行される予定であることに注意してください。

解決方法

テストベッドの概要

Dell EMC DSS8440サーバー はアクセラレーター向けに最適化されたサーバーで、特にハイパフォーマンス コンピューティングとディープ ラーニングのワークロード向けに設計されています。「 NVIDIA V100S はTesla Voltaシリーズの最新メンバーであり、ダブル幅の32G PCIeベースのGPUカードです。このブログでは、HPL、LAMMPS、およびディープ ラーニング アプリケーションについて、DSS8440で8台のV100Sを評価した調査結果を紹介します。 MLPerf-v0.6 スイート。

テストしたDSS 8440サーバーのハードウェアとソフトウェアの詳細、およびV100SとV100-PCIeの比較を表1と表2に示します。

 

表1:ハードウェアとソフトウェアの詳細

SLN321304_en_US__1image(15660)

表2: V100SとV100-PCIeの仕様の違い
SLN321304_en_US__2image(15661)

 

HPCアプリケーション パフォーマンス

 

 SLN321304_en_US__3image(15658)

図1: DSS8440でのV100SおよびV100-PCIe HPLの結果

図 1 は、HPL のパフォーマンス数値を示しています。HPLは極度のストレス テスト アプリケーションであるため、V100SとV100-PCIeの間に大きな違いはありません。温度の余地はほとんどありません GPUブースト機能そのため、GPUの周波数はベースクロックレートに非常に迅速にフォールバックします。V100SとV100-PCIeのベース クロック レートはほぼ同じであるため、HPLなどのGPUコンピューティングに制約のあるアプリケーションの場合、V100SはV100-PCIeとほぼ同レベルのパフォーマンスを提供します。 

SLN321304_en_US__4image(15659)

図2:DSS8440でのV100SおよびV100-PCIe LAMMPSの結果

図2は、Lennard Jonesデータセットを使用したLAMMPSのタイムステップ/秒の結果です。LAMMPSは、GPU帯域幅制限アプリケーションとして知られている分子動力学コードの一例です。このテストでは、V100SはV100-PCIeよりも27%高いパフォーマンスを発揮します。高速化は、15%高いブースト周波数と26%増加した帯域幅だけでなく、新しいソフトウェアバージョンによっても貢献しています。V100-PCIe番号は、LAMMPS 8Feb2019バージョンの古いKOKKOSパッケージを使用して取得されました。ただし、新しいバージョン24Jan2020では、KOKKOSを使用してGPUでcuFFTを使用するためのサポートが追加されました。詳細については、こちらを参照してください。 LAMMPS 2020年1月24日リリース ノートの詳細を確認してください。

 

ディープ ラーニング アプリケーションのパフォーマンス

SLN321304_en_US__5image(15662)

図3:DSS8440でのV100SおよびV100-PCIe MLPerfの結果

MLPerf トレーニング クローズド ディビジョン 0.6 バージョン 画像分類(ResNet-50)、物体検出(マスクR-CNNおよびSSD)、変換(NMTおよびTransformer)、強化学習(MiniGo)など、幅広いディープラーニング領域をカバーする6つのサブテストがあります。両方のGPUカードの比較結果を図3に示します。V100SのMLPerfスイート全体で約1〜5%のパフォーマンス向上が観察されました。これは、結果ログ ファイルのスループットが1〜5%向上していることと一致しています。GPUクロックレートのリアルタイム出力が監視され、これらすべてのテストでV100S GPUが1〜5%高い速度で実行されていることが確認されたため、V100Sのブースト周波数が高いことによるパフォーマンス上の利点が得られました。

結論と今後の展望

このブログでは、HPL、LAMMPSを使用したHPCアプリケーションのパフォーマンス、MLPerfを使用したディープ ラーニングのパフォーマンスを、同じDSS8440サーバー上のV100SおよびV100-PCIe GPUカードと比較しました。LAMMPSなどのGPU帯域幅によって制限されるアプリケーションでは、新しいV100S GPUを活用でき、シングルGPUとマルチGPUの両方でパフォーマンスが向上します。MLPerf でテストされたディープ ラーニング アプリケーションは、V100S の高いブースト クロックと高い帯域幅からもメリットを得られます。GPUコンピューティング制限HPCベンチマークHPLは、V100-PCIeと同じパフォーマンスを実現します。将来的には、DSS8440上の同じアプリケーションをRTX GPUで実行し、AMDプラットフォームでのV100Sパフォーマンスなど、他のいくつかのテストを検討します。

対象製品

DSS 8440, High Performance Computing Solution Resources
文書のプロパティ
文書番号: 000133353
文書の種類: Solution
最終更新: 16 7月 2025
バージョン:  4
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。