Numéro d’article: 000132886

「HPCおよびAIワークロード向けNVIDIA RTX GPU搭載Dell EMC DSS 8440サーバー（英語）」

Résumé: Dell EMC DSS8440 サーバーは、高パフォーマンスコンピューティング、ML (Machine Learning)、深い学習ワークロード用に設計された、2つのソケットである4U サーバーです。この記事では、NVIDIA Volta V100S、NVIDIA Tesla T4 の他のコア Gpu、このシステムの NVIDIA quadro RTX Gpu など、さまざまな Gpu のパフォーマンスを比較しています。 ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlole と Frank 漢字

Dell EMC HPC および AI イノベーション研究所2020年6月5日

DELL EMC DSS8440サーバーは、高パフォーマンスコンピューティング、ML (Machine Learning)、深い学習ワークロード用に設計された、2つのソケットである4u サーバーです。これは、nvidia Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 や Nvidia tesla T4の他、コア Gpu、 nvidia quadro Rtx gpuなど、さまざまな gpu をサポートします。

SLN321776_en_US__4image (18426)

(図 1 Dell EMC DSS840 Server)

このブログでは、さまざまな業界標準のベンチマークツールを使用して、コストパフォーマンスに優れた NVIDIA Quadro RTX 6000 および NVIDIA Quadro RTX 8000 Gpu と、トップ階層のアクセラレータ V100S GPU を比較したパフォーマンスを評価します。これには、シングル対二重のワークロードのテストが含まれます。Quadro シリーズは長期間存在していますが、NVIDIA Turing アーキテクチャを使用する RTX Gpu は、遅延2018で起動されています。表1の仕様では、上位メモリ構成に関して RTX 8000 GPU が RTX 6000 より優れていることが示されています。ただし、RTX 8000 および RTX 6000 Gpu には、V100S GPU と比較して、電力の消費量が高くなります。より大きなメモリ容量を必要とするワークロードの場合は、RTX 8000 を選択する方が適切です。

仕様	RTX 6000	RTX 8000	V100S-32 GB
アーキテクチャ	Turing		Volta
メモリー	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
デフォルトクロックレート (MHz)	1395		1245
GPU の最大クロック速度 (MHz)	1770		1597
CUDAコア	4608		5120
FP32 (TFLOPS 最大)	16.3		16.4
メモリ帯域幅 (GB/秒)	672		1134
電源	295 W		250 W

表. 1 GPU の 仕様

Server	DellEMC, PowerEdge, DSS8440
CPU	Intel Xeon 6248、20 C @ 2.5 GHz ×2
メモリー	24 x 32 GB @ 2933 MT/s (768 GB 合計)
GPU	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
ストレージ	1 x Dell Express Flash NVMe 1 TB 2.5 "U. 2 (P4500)
PSU	4 x 2400 W

表 2 サーバー構成の詳細

BIOS	2.5.4
OS	RHEL 7.6
カーネル	3.10.0-957.el7.x86_64
システムプロファイル	最適化されたパフォーマンス
Cuda ツールキット CUDA ドライバ	10.1 440.33.01

表. 3 システムファームウェアの詳細

アプリケーション	バージョン
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4
LAMMPS	3月 3 2020 openmpi –4.0.3
MLPERF	v 0.6 トレーニング docker 19.03

表. 4 アプリケーション情報

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 は、Sandia 国立研究所と神殿大学の研究者によって管理される Molecular Dynamics アプリケーションです。LAMMPS は、 Kokkos パッケージを使用してコンパイルされ、 NVIDIA gpu で効率的に動作しています。Lennard Jones データセットは、パフォーマンスの比較と時間のステップに使用され、図2に示すように、メトリックになります。

SLN321776_en_US__8image (18427)

(図: 2 Lennard Jones グラフ)

表1にリストされているように、RTX 6000 および RTX 8000 Gpu のコア数は同じで、単精度パフォーマンスと GPU 帯域幅は異なりますが、GPU メモリは異なります。両方の RTX Gpu に同様の構成があるため、パフォーマンスも同じ範囲にあります。このアプリケーションの RTX Gpu のスケールは良好であり、両方の Gpu のパフォーマンスは同一です。

Volta V100S GPU のパフォーマンスは、Quadro RTX Gpu よりも約3倍速くなります。この優れたパフォーマンスの主な要因は、V100S GPU の GPU メモリ帯域幅の増加です。

High Performance Linpack（HPL）

HPL は、コンピューティングパフォーマンスを測定する標準的な HPC ベンチマークです。これは、TOP500 リストによる参照のベンチマークとして使用され、世界中のスーパーのランクを付けます。

次の図は、DSS 8440 サーバーを使用した RTX 6000、RTX 8000、および V100S Gpu のパフォーマンスを示しています。ご覧のように、RTX Gpu のパフォーマンスは V100S GPU よりも大幅に低くなっています。これは、HPL が、主に倍精度浮動小数点演算である matrix LU factorization 実行するために予想されるものです。

SLN321776_en_US__9image (18428)

(図: gpu が異なる2つの Hpl パフォーマンス)

理論的な浮動小数点パフォーマンス、つまり両方の Gpu の Rpeak を比較する場合は、V100S GPU のパフォーマンスが大幅に向上していることを確認します。1つの RPEAK GPU の理論的な Rpeak 値は約500GFlops です。この値は、GPU あたりのパフォーマンスが低下します (Rmax)。Volta V100S GPU の Rpeak 値は 8.2 TFlops で、各カードのパフォーマンスは大幅に向上します。

MLPerf

ML の業界標準のパフォーマンスベンチマークを、MLPerf suite の開発に向けて開発する必要があります。このスイートには、ML ハードウェアおよびソフトウェアのトレーニングと推定パフォーマンスを評価するためのベンチマークが含まれています。このセクションは、Gpu のトレーニングパフォーマンスのみに対応しています。次の表は、Gpu を評価するために使用されるディープラーニングワークロード、データセット、およびターゲットの基準を示しています。

ベンチマーク	データ	品質ターゲット	リファレンス実装モデル
イメージの分類	ImageNet (224x224)	75.9% の上位1精度	Resnet-50 v 1.5
オブジェクト検出 (ライトウェイト)	COCO 2017	23% マップ	SSD-ResNet34
オブジェクト検出 (ヘビーウェイト)	COCO 2017	0.377 ボックス最小 ap 0.339 マスク最小 ap	マスク R-CNN
翻訳 (繰り返し)	WMT 英語-ドイツ語	24.0 BLEU	GNMT
翻訳 (非繰り返し)	WMT 英語-ドイツ語	25.0 BLEU	トランスフォーマー
補強学習	なし	事前トレーニング済みチェックポイント	ミニゴー

表 5: mlperf データセットとターゲットの基準 (ソース:https://mlperf.org/training-overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

次の図は、rtx および V100S gpu 両方のターゲット条件を満たす時間を示しています。

SLN321776_en_US__11image (18441)
(図: Mlperf パフォーマンス)

結果は、表示されたガイドラインに従って、複数の実行を実行した後で、最大値と最小値を破棄し、他の実行を平均化した後で考慮されます。両方の RTX Gpu のパフォーマンスは類似しています。これら両方の RTX Gpu 間の差異のパーセンテージは、MLPerf ガイドラインに従って、許容範囲内で最小限に抑えられます。Volta V100 GPU は最高のパフォーマンスを実現しますが、RTX Gpu もオブジェクト検出のベンチマークを除いて同様に動作します。

公開時に、エラーが発生したため、MLPerf のイメージ分類のベンチマークが RTX Gpu で失敗しました。この問題は今後の cuDNN リリースで修正される予定です。

Résolution

概要

このブログでは、HPC および AI ワークロードの Dell EMC DSS 8440 GPU サーバーと NVIDIA RTX Gpu のパフォーマンスについて説明しました。両方の RTX Gpu のパフォーマンスは類似していますが、より大きなメモリを必要とするアプリケーションには、RTX 8000 GPU が最適な選択肢となります。倍精度のワークロードの場合、または大容量のメモリ帯域幅を必要とするワークロードの場合は、新しい NVIDIA A100 GPU を選択することをお勧めします。

将来は、rtx Gpu に対して、他のシングル precision アプリケーションと、RTX および A100 Gpu での推論調査を行うことを計画しています。

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell