Dell EMC Server DSS 8440 unterstützt von NVIDIA RTX-GPUs für HPC- und AI-Workloads

Zusammenfassung: Der Dell EMC-DSS8440-Server ist ein 2-Sockel-4U-Server, der für Hochleistungs-Computing, Maschinelles Lernen und umfassende Lern Lasten entwickelt wurde. In diesem Artikel werden die Performance der verschiedenen GPUs, wie z. b. NVIDIA Volta V100S und NVIDIA Tesla T4 Tensor Core GPUs, sowie NVIDIA Quadro RTX GPUs in diesem System verglichen. ...

Dieser Artikel gilt für Dieser Artikel gilt nicht für Dieser Artikel ist nicht an ein bestimmtes Produkt gebunden. In diesem Artikel werden nicht alle Produktversionen aufgeführt.

Andere Ressourcen ansehen

Symptome

Deepthi Cherlopalle und Frank Han

Dell EMC HPC und AI Innovation Lab Juni 2020

Der Dell EMC-DSS8440 -Server ist ein 2-Sockel-4U-Server, der für Hochleistungs-Computing, Maschinelles Lernen und umfassende Lern Lasten entwickelt wurde. Es unterstützt verschiedene GPUs, wie z. b. NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 -und NVIDIA Tesla T4 - Tensor-Core-GPUs sowie NVIDIA Quadro RTX GPUs .

SLN321776_en_US__4image (18426)

(Abbildung. 1 Dell EMC DSS840-Server)

In diesem Blog evaluieren wir die Performance des kostengünstigen NVIDIA Quadro RTX 6000 und der NVIDIA Quadro RTX 8000 GPUs im Vergleich zur Top Tier Accelerator V100S GPU mithilfe verschiedener Industriestandard-Benchmarking-Tools. Dies umfasst das Testen von Workloads mit Einzel-vs doppelter Präzision. Während die Quadro-Serie über eine lange Zeit existierte, wurden RTX-GPUs mit NVIDIA Turing-Architektur in spät 2018 gestartet. Die technischen Daten in Tabelle 1 zeigen, dass die RTX 8000-GPU in puncto höhere Speicherkonfiguration der RTX 6000 überlegen ist. Die RTX 8000-und RTX 6000-GPUs haben jedoch einen höheren Energiebedarf als die V100S-GPU. Bei Workloads, bei denen eine höhere Speicherkapazität benötigt wird, ist der RTX 8000 die bessere Wahl.

Spezifikationen	RTX 6000	RTX 8000	V100S – 32 GB
Architektur	Turing		Volta
Speicher	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
Standard Taktrate (MHz)	1395		1245
Maximale Taktrate der GPU (MHz)	1770		1597
CUDA-Kerne	4608		5120
FP32 (TFLOPS Maximum)	16,3		16,4
Speicherbandbreite (Gbit/s)	672		1134
Stromversorgung	295 W		250 W

Tabelle. 1 GPU- Technische Daten

Server	DellEMC,PowerEdge, DSS8440
Prozessor	2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Speicher	24 x 32 GB @ 2933 MT/s (768 GB gesamt)
GPU	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
Speicher	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Netzteile	4 x 2400 W

Tabelle. 2 Server Konfigurationsdetails

BIOS	2.5.4
Betriebssystem	RHEL 7,6
Kernel	3.10.0-957.el7.x86_64
System Profil	Performance-optimiert
CUDA-Toolkit CUDA-Treiber	10,1 440.33.01

Tabelle. 3 Details zur System Firmware

Anwendung	Version
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4
LAMMPS	März 3 2020 openmpi – 4.0.3
MLPERF	v 0.6 Schulung docker 19,03

Tabelle. 4 Anwendungsinformationen

Ursache

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 ist eine Anwendung zur molekularen Dynamik, die von Forschern an den Sandia-nationalen Laboratorien und der Temple University verwaltet wird. LAMMPS wurde zusammen mit dem KOKKOS-Paket zur effizienten Ausführung auf NVIDIA GPUs kompiliert. Lennard Jones-DataSet wurde für den Leistungsvergleich und die Zeitstufen/s als Metrik verwendet, wie in Abbildung 2 dargestellt:

SLN321776_en_US__8image (18427)

(Abbildung. 2 Lennard-Jones-Diagramm)

Wie in Tabelle 1 aufgeführt, haben die RTX 6000-und RTX 8000-GPUs die gleiche Anzahl an Kernen, eine Präzisionsleistung und eine GPU-Bandbreite, aber unterschiedliche GPU-Speicher. Da beide RTX-GPUs eine ähnliche Konfiguration haben, ist die Performance auch im gleichen Bereich. RTX-GPUs sind für diese Anwendung gut skaliert und die Performance der GPUs ist identisch.

Die Performance der Volta V100S-GPU beträgt ca. dreimal schneller als die Quadro RTX-GPUs. Der Schlüsselfaktor für diese höhere Performance ist die größere GPU-Speicherbandbreite der V100S-GPU.

High Performance Linpack (HPL)

HPL ist ein Standard HPC-Benchmark, der die Rechenleistung misst. Er wird als Referenz-Benchmark von der TOP500-Liste verwendet, um Supercomputer weltweit zu klassifizieren.

Die folgende Abbildung zeigt die Performance von RTX 6000, RTX 8000 und V100S GPUs unter Verwendung des DSS 8440-Servers. Wie Sie sehen können, ist die Performance der RTX-GPUs deutlich niedriger als die V100S-GPU. Dies ist zu erwarten, da die HPL eine Matrix-LU-Faktorisierung durchführt, die in erster Linie Gleitkomma Vorgänge mit doppelter Präzision darstellt.

SLN321776_en_US__9image (18428)

(Abbildung. 3 Leistung von HPL mit verschiedenen GPUs)

Wenn wir die theoretische Gleitkommaleistung, also die Rpeak beider GPUs, vergleichen, sehen wir, dass die Performance der V100S GPU deutlich höher ist. Der theoretische Rpeak Wert auf einer einzigen RTX-GPU beträgt ca. 500GFlops. Dieser Wert ergibt weniger Leistung (Rmax) pro GPU. Der Rpeak-Wert für die Volta V100S-GPU ist 8.2 TFLOPS, was zu einer deutlich höheren Performance von jeder Karte führt.

MLPerf

Der Bedarf an branchenüblichen Performance-Benchmarks für ml führte zur Entwicklung der MLPerf Suite. Diese Suite enthält Benchmarks für die Bewertung der Schulung und der ABLEITUNGS Performance von ml-Hardware und-Software. In diesem Abschnitt wird nur die Trainingsleistung von GPUs beschrieben. In der folgenden Tabelle sind die umfangreicheren Lern-Workloads, Datasets und Zielkriterien aufgeführt, die für die Bewertung der GPUs verwendet werden.

Benchmark	DataSet	Qualitätsziel	Referenz Implementierungsmodell
Bildklassifizierung	ImageNet (224x224)	75,9% Top-1 Genauigkeit	RESNET – 50 v 1.5
Objekterkennung (geringes Gewicht)	Coco 2017	23% Karte	SSD-ResNet34
Objekterkennung (schwerwiegend)	Coco 2017	0,377 Box Minimum AP 0,339 Mask Minimum AP	Maske R – CNN
Übersetzung (aktuell)	Wright Deutsch	24,0 Bleu	GNMT
Übersetzung (nicht wiederkehrende)	Wright Deutsch	25,0 Bleu	Transformator
Verstärkungs lernen	N. z.	Vortrainierter Prüfpunkt	Mini go

Tabelle. 5 MLPerf-Datasets und Zielkriterien (Quelle:https://mlperf.org/Training-Overview/#Overview SLN321776_en_US__6iC_External_Link_BD_v1 )

in der folgenden Abbildung ist die Zeit zur Einhaltung der Zielkriterien für die RTX-und V100S-GPUs dargestellt:

SLN321776_en_US__11image (18441)
(Abbildung. 4 MLPERF-Leistung)

Die Ergebnisse werden nach der Ausführung mehrerer Durchläufe, dem verwerfen des höchsten und des niedrigsten Werts und der Mittelung der anderen nach den aufgeführten Richtlinien berücksichtigt. Die Performance der RTX-GPUs ist ähnlich. Der Prozentsatz der Abweichung zwischen den RTX-GPUs ist minimal und innerhalb des Akzeptanz Bereichs gemäß den MLPerf-Richtlinien. Die Volta V100 GPU bietet die beste Performance, die RTX-GPUs sind aber auch gut, außer für die Objekt Erkennungs Benchmark.

Zum Zeitpunkt der Veröffentlichung schlug die Benchmark für die Image Klassifizierung in MLPerf aufgrund eines Falt Fehlers mit RTX-GPUs fehl. Dieses Problem wird voraussichtlich in einer zukünftigen cuDNN-Version behoben.

Lösung

Übersicht

In diesem Blog haben wir die Performance der Dell EMC DSS 8440 GPU-Server und NVIDIA RTX-GPUs für HPC-und AI-Workloads besprochen. Die Performance der beiden RTX-GPUs ist ähnlich. die RTX 8000-GPU wäre jedoch die beste Wahl für Anwendungen, die eine höhere Speichermenge fordern. Für doppelte Präzisions-Workloads oder Workloads, die eine hohe Speicherbandbreite benötigen, sind Volta V100S und die neue NVIDIA A100-GPU die beste Wahl.

In der Zukunft möchten wir eine Performance Studie zu RTX-GPUs mit anderen einfachen Präzisionsanwendungen und eine ABLEITUNGS Studie zu RTX-und A100-GPUs bereitstellen.

Betroffene Produkte

High Performance Computing Solution Resources

Artikelnummer: 000132886

Artikeltyp: Solution

Zuletzt geändert: 25 Feb. 2021

Version: 4

Prüfen Sie, ob Ihr Gerät durch Support Services abgedeckt ist.

Dell EMC Server DSS 8440 unterstützt von NVIDIA RTX-GPUs für HPC- und AI-Workloads

Symptome

Deepthi Cherlopalle und Frank Han

Dell EMC HPC und AI Innovation Lab Juni 2020

Ursache

LAMMPS

High Performance Linpack (HPL)

MLPerf

Lösung

Übersicht

Betroffene Produkte

Artikeleigenschaften

Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen

Support Services

Artikeleigenschaften

Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen

Support Services

Dell EMC Server DSS 8440 unterstützt von NVIDIA RTX-GPUs für HPC- und AI-Workloads

Ausführlicher Artikel

Symptome

Ursache

Lösung

Betroffene Produkte

Symptome

Deepthi Cherlopalle und Frank Han

Dell EMC HPC und AI Innovation Lab Juni 2020

Ursache

LAMMPS

High Performance Linpack (HPL)

MLPerf

Lösung

Übersicht

Betroffene Produkte

Artikeleigenschaften

Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen

Support Services

Artikeleigenschaften

Antworten auf Ihre Fragen erhalten Sie von anderen Dell NutzerInnen

Support Services