「V100S GPU搭載DSS8440におけるHPCおよびAIパフォーマンス(英語)」
Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, ベンチマーク
Symptoms
Dell EMC HPC & AI Innovation Lab、2020年5月
エグゼクティブサマリー
このブログではDSS8440、HPL、LAMMPS、 MLPerf-v0.6 スイート。要約:
- LAMMPSなどのGPU帯域幅によって制限されるアプリケーションでは、新しいV100S GPUを活用でき、シングルGPUとマルチGPUの両方でパフォーマンスが向上します。
- MLPerf でテストされたようなディープ ラーニング アプリケーションは、V100S の高いブースト クロックと高い帯域幅の恩恵を受けることができます。
- HPCベンチマークHPLなどのGPUコンピューティングバウンド アプリケーションは、V100-PCIeと同じパフォーマンスが得られます。
このブログの残りの部分では、このテストの詳細について説明します。 将来的には、RTX GPUを搭載したDSS8440で同じアプリケーション(V100Sの代わりに)が実行され、AMDプラットフォームでのV100Sのパフォーマンスなど、他のテストも実行される予定であることに注意してください。
Resolution
テストベッドの概要
「 Dell EMC DSS8440サーバー はアクセラレーター向けに最適化されたサーバーで、特にハイパフォーマンス コンピューティングとディープ ラーニングのワークロード向けに設計されています。「 NVIDIA V100S はTesla Voltaシリーズの最新メンバーであり、ダブル幅の32G PCIeベースのGPUカードです。このブログでは、HPL、LAMMPS、およびディープ ラーニング アプリケーションについて、DSS8440で8台のV100Sを評価した調査結果を紹介します。 MLPerf-v0.6 スイート。
テストしたDSS 8440サーバーのハードウェアとソフトウェアの詳細、およびV100SとV100-PCIeの比較を表1と表2に示します。
表1:ハードウェアとソフトウェアの詳細

表2: V100SとV100-PCIeの仕様の違い
HPCアプリケーション パフォーマンス

図1: DSS8440でのV100SおよびV100-PCIe HPLの結果
図 1 は、HPL のパフォーマンス数値を示しています。HPLは極度のストレス テスト アプリケーションであるため、V100SとV100-PCIeの間に大きな違いはありません。温度の余地はほとんどありません GPUブースト機能そのため、GPUの周波数はベースクロックレートに非常に迅速にフォールバックします。V100SとV100-PCIeのベース クロック レートはほぼ同じであるため、HPLなどのGPUコンピューティングに制約のあるアプリケーションの場合、V100SはV100-PCIeとほぼ同レベルのパフォーマンスを提供します。

図2:DSS8440でのV100SおよびV100-PCIe LAMMPSの結果
図2は、Lennard Jonesデータセットを使用したLAMMPSのタイムステップ/秒の結果です。LAMMPSは、GPU帯域幅制限アプリケーションとして知られている分子動力学コードの一例です。このテストでは、V100SはV100-PCIeよりも27%高いパフォーマンスを発揮します。高速化は、15%高いブースト周波数と26%増加した帯域幅だけでなく、新しいソフトウェアバージョンによっても貢献しています。V100-PCIe番号は、LAMMPS 8Feb2019バージョンの古いKOKKOSパッケージを使用して取得されました。ただし、新しいバージョン24Jan2020では、KOKKOSを使用してGPUでcuFFTを使用するためのサポートが追加されました。詳細については、こちらを参照してください。 LAMMPS 2020年1月24日リリース ノートの詳細を確認してください。
ディープ ラーニング アプリケーションのパフォーマンス

図3:DSS8440でのV100SおよびV100-PCIe MLPerfの結果
MLPerf トレーニング クローズド ディビジョン 0.6 バージョン 画像分類(ResNet-50)、物体検出(マスクR-CNNおよびSSD)、変換(NMTおよびTransformer)、強化学習(MiniGo)など、幅広いディープラーニング領域をカバーする6つのサブテストがあります。両方のGPUカードの比較結果を図3に示します。V100SのMLPerfスイート全体で約1〜5%のパフォーマンス向上が観察されました。これは、結果ログ ファイルのスループットが1〜5%向上していることと一致しています。GPUクロックレートのリアルタイム出力が監視され、これらすべてのテストでV100S GPUが1〜5%高い速度で実行されていることが確認されたため、V100Sのブースト周波数が高いことによるパフォーマンス上の利点が得られました。
結論と今後の展望
このブログでは、HPL、LAMMPSを使用したHPCアプリケーションのパフォーマンス、MLPerfを使用したディープ ラーニングのパフォーマンスを、同じDSS8440サーバー上のV100SおよびV100-PCIe GPUカードと比較しました。LAMMPSなどのGPU帯域幅によって制限されるアプリケーションでは、新しいV100S GPUを活用でき、シングルGPUとマルチGPUの両方でパフォーマンスが向上します。MLPerf でテストされたディープ ラーニング アプリケーションは、V100S の高いブースト クロックと高い帯域幅からもメリットを得られます。GPUコンピューティング制限HPCベンチマークHPLは、V100-PCIeと同じパフォーマンスを実現します。将来的には、DSS8440上の同じアプリケーションをRTX GPUで実行し、AMDプラットフォームでのV100Sパフォーマンスなど、他のいくつかのテストを検討します。