Numéro d’article: 000181595

HPC-Anwendungsleistung von C4140 Configuration M

Résumé: Details zur kürzlich von Dell EMC für PowerEdge C4140 hinzugefügten Lösung „Configuration M“.

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Artikel von Frank Han, Rengan Xu und Quy Ta vom Dell EMC HPC and AI Innovation Lab im Januar 2019

Résolution

Zusammenfassung

Kürzlich hat Dell EMC PowerEdge C4140 eine neue „Configuration M“-Lösung hinzugefügt. Nachdem diese neueste Option der C4140-Produktreihe hinzugefügt wurde, werden in diesem Artikel die Ergebnisse der Studie zur Leistungsbewertung von Configuration M gegenüber Configuration K für verschiedene HPC-Anwendungen, einschließlich HPL, GROMACS und NAMD, vorgestellt.

Übersicht

Der PowerEdge C4140 ist ein 1HE-Rackserver mit 2 Sockeln. Er bietet Unterstützung für Intel Skylake Prozessoren, bis zu 24 DIMM-Steckplätze und vier NVIDIA Volta GPU-Karten mit doppelter Breite. In der C4140-Serverserie sind die zwei Konfigurationen, die NVLINK unterstützen, Configuration K und Configuration M. Der Vergleich beider Topologien ist in Abbildung 1 dargestellt. Die zwei Hauptunterschiede zwischen diesen beiden Konfigurationen werden nachfolgend beschrieben:

Höhere PCIe-Bandbreite: In Configuration K sind die CPUs nur über einen PCIe-Link mit vier GPUs verbunden. In Configuration M ist jedoch jede GPU direkt über eine dedizierte PCIe-Verbindung verbunden. Aus diesem Grund gibt es insgesamt vier PCIe-Links zwischen den beiden CPUs mit vier GPUs, die eine höhere PCIe-Bandbreite in Configuration M bereitstellen.
Niedrigere Latenz. Configuration M hat keinen PCIe-Switch zwischen CPU und GPUs. Die direkte Verbindung reduziert die Anzahl der Hops für die Datenübertragung zwischen CPU und GPU, sodass die Roundtrip-Latenz in Configuration M niedriger ist.

In diesem Blogbeitrag zeigen wir Ihnen die Leistung von HPC-Anwendungen in diesen beiden Konfigurationen. wir haben das Benchmarking für HPL, GROMACS und NAMD mit V100-SXM2 16G GPUs durchgeführt. Tabelle 1 listet die Details zu Hardware und Software auf.
SLN315976_en_US__2table

p2pBandwidthLatencyTest

SLN315976_en_US__3latency
Abbildung 2. Karte-zu-Karte-Latenz mit P2P ist in C4140 Configuration K und M deaktiviert

p2pBandwidthLatencyTest ist ein Mikro-Benchmarktest, der im CUDA-SDK enthalten ist. Er misst die Latenz und Bandbreite von Karte zu Karte mit und ohne aktiviertem GPUDirect™ Peer-to-Peer. Der Schwerpunkt in diesem Test liegt auf der Latenz, da dieses Programm die Bandbreite nicht gleichzeitig misst. Die Besprechung der verfügbaren realen Bandbreite für Anwendungen finden Sie unten in der HPL-Sitzung. Die in Abbildung 2 aufgelisteten Zahlen geben den Durchschnitt von 100 Malen der unidirektionalen Karte-zu-Karte-Latenz in Mikrosekunden an. Jedes Mal, wenn der Code ein Byte von einer Karte an eine andere sendet, wird in diesem Diagramm die Nummer für „P2P deaktiviert“ ausgewählt, denn wenn P2P aktiviert ist, werden die Daten stattdessen über NVLINK übertragen. Die PCIe-Latenz von Configuration M liegt um 1,368 µs niedriger als Configuration K aufgrund der unterschiedlichen PCIe-Topologien.

High Performance Linpack (HPL)

(a) Leistung
SLN315976_en_US__52(14)

(b) Durchschnittliche PCIe-Bandbreite für jede V100-GPU
SLN315976_en_US__63(12)

Abbildung 3 (a) zeigt die HPL-Leistung auf der C4140-Plattform mit 1, 2, 4 und 8 V100-SXM2-GPUs. Die Ergebnisse für 1 bis 4 GPUs wurden mit einem einzigen C4140 gemessen, die Leistungsergebnis von 8 GPUs stammen von zwei Servern. In diesem Test wird die verwendete HPL-Version von NVIDIA bereitgestellt und mit den aktuell Versionen von CUDA 10 und openMPI kompiliert. Folgende Aspekte sind in den HPL-Ergebnissen zu erkennen:

1) Ein Node. Bei allen 4 GPUs im Test ist Configuration M um 16 % schneller als Configuration K. Bevor die HPL-Anwendung mit dem Computing beginnt, misst sie die verfügbare PCIe-Bandbreite für Geräte-zu-Host (D2H) und Host-zu-Gerät (H2D) jeder GPU-Karte, wenn alle Karten gleichzeitig Daten übertragen. Diese Informationen liefern nützliche Einblicke in die wahre PCIe-Bandbreite für jede Karte, wenn HPL die N*N-Matrix auf alle GPU-Arbeitsspeicher gleichzeitig kopiert. Wie in Abbildung 3 (b) gezeigt, sind sowohl die D2H- als auch die H2D-Werte von Configuration M deutlich höher und erreichen den theoretischen Durchsatz von PCIe x16. Dies entspricht der Hardwaretopologie, da jede GPU in Configuration M über einen dedizierten PCIe x16-Link zu CPU verfügt. In Configuration K müssen alle vier V100s einen einzigen PCIe x16-Link über den PLX-PCIe-Switch freigeben, sodass nur 2,5 Gbit/s für alle verfügbar sind. Aufgrund der Unterschiede in der Bandbreite hat Configuration M 1,33 Sekunden benötigt, um die 4-teilige 16 GB N*N-Matrix in den globalen Speicher der GPUs zu kopieren, und Configuration K brauchte 5,33 Sekunden. Die gesamte HPL-Anwendung läuft ca. 23 bis 25 Sekunden lang. Da alle V100-SXM2 identisch sind, ist die Rechenzeit identisch. Die Einsparung von 4 Sekunden beim Kopieren von Daten machen Configuration M um 16 % schneller.

2) Mehrere Nodes. Die Ergebnisse von 2 C4140-Nodes mit 8 GPUs zeigen mehr als 15 % HPL-Verbesserungen in zwei Nodes. Das bedeutet, dass Configuration M eine bessere Skalierbarkeit über Nodes als Configuration K hat, aus demselben Grund wie bei dem einzelnen Node mit 4 Karten im obigen Fall.

3) Effizienz. Der Stromverbrauch wurde mit iDRAC gemessen, Abbildung 3 (c) zeigt die Wattleistung in Zeitreihe. Beide Systeme erreichen rund 1850 W als Spitzenwert, aufgrund der höheren GFLOPS-Zahl bietet Configuration M eine höhere Leistung pro Watt sowie hohe HPL-Effizienz.

HPL ist ein Benchmark auf Systemebene und die Ergebnisse werden von Komponenten wie CPU, GPU, Arbeitsspeicher und PCIe-Bandbreite bestimmt. Configuration M verfügt über ein ausgewogenes Design auf zwei CPUs. Aus diesem Grund schneidet sie besser als Configuration K in diesem HPL-Benchmark ab.

GROMACS

GROMACS ist eine Open-Source-Anwendung für Molekulardynamik, die entwickelt wurde, um biochemische Moleküle wie Proteine, Lipide und Nukleinsäuren zu simulieren, die viele komplizierte verbundene Interaktionen haben. Version 2018.3 wird mit dem Wasser 3072-Datensatz getestet, der 3 Millionen Atome enthält.

SLN315976_en_US__71(17)

Abbildung 4: GROMACS-Leistungsergebnisse mit mehreren V100 auf C4140 Configuration K und M

Abbildung 4 zeigt die Leistungsverbesserung von Configuration M gegenüber K. Die Leistung der einzelnen Karten ist in beiden Konfigurationen identisch, da es keinen Unterschied im Datenpfad gibt. Bei 2 und 4 GPUs ist Configuration M um 5 % schneller als K. Beim Test über 2 Nodes erzielt Configuration M eine bis zu 10 % höhere Leistung. Der Hauptgrund dafür ist die höhere Anzahl PCIe-Verbindungen, die mehr Bandbreite bietet und mehr Daten schnell in die GPUs einspeist. GROMACS wird mit GPUs erheblich beschleunigt, aber diese Anwendung verwendet sowohl CPUs als auch GPUs für die parallele Berechnung. Wenn GROMACS also die Top-Anwendung in einem Cluster ist, wird daher eine leistungsfähige CPU empfohlen. Dieses Diagramm zeigt auch die GROMACS-Leistungsskalierung mit weiteren Servern und zusätzlichen GPUs. Während die Anwendungsleistung mit zusätzlichen GPUs und Servern steigt, ist die Leistungssteigerung mit zusätzlichen GPUs kaum linear.

Nanoscale Molecular Dynamics (NAMD)

NAMD ist ein molekulardynamischer Code, der für die Hochleistungssimulation großer biomolekularer Systeme entwickelt wurde. In diesen Tests wurde die Prebuild-Binärdatei nicht verwendet. Stattdessen wurde NAMD mit dem neuesten Quellcode (NAMD_Git-2018-10-31) mit CUDA 10 erstellt. In Abbildung 4 sind die Leistungsergebnisse unter Verwendung des STMV-Datensatzes (1.066.628 Atome, periodisch, PME) dargestellt. Tests mit kleineren Datensätzen wie f1atpase (327.506 Atome, periodisch, PME) und APOA1 (92.224 Atome, periodisch, PME) führten zu ähnlichen Vergleichen zwischen Configuration M und Configuration K, werden jedoch hier aus Platzgründen nicht dargestellt.

SLN315976_en_US__81(16)
Abbildung 5: NAMD-Leistungsergebnisse mit mehreren V100s auf C4140 Configuration K und M

Wie bei GROMACS steigert die vierfache PCIe-Bandbreite die Leistung auch bei NAMD. Abbildung 5 zeigt, dass die Leistung mit dem STMV-Datensatz von Configuration M mit 2 und 4 Karten 16 % bzw. 30 % höher als bei Configuration K ist. Die Leistung bei einer einzelnen Karte ist voraussichtlich dieselbe, da mit nur einer GPU im Test die PCIe-Bandbreite identisch ist.

Schlussfolgerungen und zukünftige Arbeiten

In diesem Blogbeitrag wurde die Performance von HPC-Anwendungen mit HPL, GROMACS und NAMD und zwei verschiedenen NVLINK-Konfigurationen des PowerEdge C4140 verglichen. HPL, GROMACS und NAMD erzielen bei Configuration M eine um mehr als 10 % höhere Leistung als bei Configuration K. Bei allen Tests bietet Configuration M mindestens dieselbe Leistung wie Configuration K, da sie alle Funktionsmerkmale von Configuration K sowie zusätzliche PCIe-Links, aber keine PCIe-Switches enthält. In der Zukunft sind zusätzliche Tests mit weiteren Anwendungen wie z. B. RELION, HOOMD und AMBER geplant sowie Tests mit der GPU V100-32.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources, Poweredge C4140

Dernière date de publication

21 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell