Numéro d’article: 000181595

HPC-programmers ydeevne på C4140, konfiguration M

Résumé: Oplysninger om tilføjelsen af en ny "konfiguration M"-løsning i Dell EMC PowerEdge C4140.

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Artiklen er skrevet af Frank Han, Rengan Xu, Deepthi Cherlopalle og Quy Ta fra Dell EMC HPC og AI Innovation Lab i januar 2019.

Résolution

Uddrag

For nylig har Dell EMC PowerEdge C4140 tilføjet en ny "konfiguration M"-løsning. Da denne seneste mulighed er med i C4140-familien, viser denne artikel resultaterne af den undersøgelse, der evaluerer konfiguration M-ydeevnen sammenlignet med konfiguration K for forskellige HPC-programmer, herunder HPL, GROMACS og NAMD.

Oversigt

PowerEdge C4140 er en 1U-rack-server med 2 sokler. Den omfatter understøttelse af Intel Skylake-processorer, op til 24 DIMM-slots og fire NVIDIA Volta GPU-kort med dobbelt bredde. I C4140-serverfamilien er der to konfigurationer, der understøtter NVLINK, nemlig konfiguration K og konfiguration M. De to topologier er sammenlignet i Figur 1. De to vigtigste forskelle mellem disse to konfigurationer er beskrevet nedenfor:

Højere PCIe-båndbredde: I konfiguration K er CPU'erne forbundet til fire GPU'er med kun et enkelt PCIe-link. I konfiguration M er hver GPU imidlertid tilsluttet CPU'en direkte med et dedikeret PCIe-link. Derfor er der i alt fire PCIe-links mellem de to CPU'er med fire GPU'er, hvilket giver højere PCIe-båndbredde i konfiguration M.
Lavere ventetid. Konfiguration M har ingen PCIe-switch mellem CPU'en og GPU'erne. De direkte forbindelser reducerer antallet af hop for datatransmissionen mellem CPU'en og GPU'en, således at ventetiden på rundturen er lavere i konfiguration M.

Denne blog præsenterer ydeevnen for HPC programmer på disse to konfigurationer. Vi testede HPL, GROMACS og NAMD med V100-SXM2 16G GPU'er. Tabel 1 viser detaljer for hardware og software.
SLN315976_en_US__2table

p2pBandwidthLatencyTest

SLN315976_en_US__3latency
Figur 2: Ventetiden fra kort til kort med P2P deaktiveret med C4140 konfiguration K og M

P2pBandwidthLatencyTest er en mikrobenchmark, der er inkluderet i CUDA-SDK. Den måler kort til kort-ventetiden og båndbredde med og uden GPUDirect™-peer-to-peer aktiveret. Fokus i denne test er på ventetiden, da programmet ikke måler båndbredden samtidig. Diskussionen om tilgængelig, virkelig båndbredde til programmer fremgår i HPL-sessionen nedenfor. De tal, der er anført i Figur 2, er gennemsnittet af 100 gange med ensrettet kort til kort-ventetid i mikrosekunder. Hver gang koden sender en byte fra et kort til et andet, udtages det P2P-deaktiverede tal i dette diagram, og da P2P er aktiveret, overføres dataene via NVLINK i stedet for. PCIe-ventetid for konfiguration M er 1.368 us mindre end konfiguration K pga. forskellige PCIe-topologier.

High Performance Linpack (HPL)

(a) Ydeevne
SLN315976_en_US__52(14)

(b) Gennemsnitlig PCIe-båndbredde for hvert V100 GPU
SLN315976_en_US__63(12)

Figur 3 (a) viser HPL-ydeevnen på C4140-platformen med 1, 2, 4 og 8 V100-SXM2 GPU'er. 1-4 GPU'ers ydelsesresultater er fra en enkelt C4140, de 8-GPU'ers ydelsesresultater gælder for begge de to servere. I denne test leveres den anvendte HPL-version af NVIDIA og er sammensat med den nyeste frigivne CUDA 10 og OpenMPI. Følgende forhold fremgår af HPL-resultaterne:

1) Enkelt node Med alle 4 GPU'er i test er konfiguration M ca. 16 % hurtigere end konfiguration K. Inden HPL-applikationen starter databehandling, måler den den tilgængelige enhed-til-vært- (D2H) og vært-til-enhed- (H2D) PCIe-båndbredde for hvert GPU-kort, når alle kort overfører data samtidigt. Disse oplysninger giver nyttig indsigt i den virkelige PCIe-båndbredde for hvert kort, når HPL kopierer N*N-matrixen til alle GPU-hukommelser på samme tid. Som vist i figur 3 (b) er både D2H- og H2D-numre af konfiguration M meget højere og opnår den teoretiske overførselshastighed på PCIe X16. Dette svarer til dens hardwaretopologi, da hver GPU i konfiguration M har et dedikeret PCIe X16-link til CPU. I konfiguration K skal alle fire V100s dele et enkelt PCIe X16-link via PLX PCIe-switchen, så der kun er 2,5 GB/s tilgængelig til hver af dem. På grund af forskel i båndbredde tog det konfiguration M 1,33 sekunder at kopiere matrixen på 4 stk. 16 GB N*N Matrix til hver enkelt GPU's globale hukommelse, og for konfiguration K tog det 5,33 sekunder. Hele HPL-programmet tager omkring 23 til 25 sekunder. Da alle V100-SXM2 er ens, er beregningstiden den samme, så denne 4 sekunder kortere datakopieringstid gør konfiguration M 16 % hurtigere.

2) Flere noder Resultaterne af 2 C4140-noder med 8 GPU'er udviser en forbedring af HPL i to noder på over 15 %. Det betyder, at konfiguration M har bedre skalerbarhed af noder end konfiguration K af samme årsag som de enkeltnodede 4 kort i ovenstående tilfælde.

3) Ydeevne Strømforbruget blev målt med iDrac. Figur 3 (c) viser effekten i tidsserier. Begge systemer når op på ca. 1850 W ved spidsbelastninger. På grund af højere GFLOPS-nummer giver konfiguration M højere ydeevne pr. watt samt HPL-effektivitet.

HPL er et systemniveaubenchmark, og dets resultater bestemmes af komponenter som CPU, GPU, hukommelse og PCIe-båndbredde. Konfiguration M har et afbalanceret design ved sammenligning af de to CPU'er, så derfor overgår den konfiguration K i dette HPL-benchmark.

GROMACS

GROMACS er et open source, molekylært dynamikprogram, der er designet til at simulere biokemiske molekyler som proteiner, lipider og nukleinsyrer, der har mange komplicerede sammenhængende interaktioner. Version 2018.3 er testet på vand 3072 datasæt, som har 3 mio. atomer.

SLN315976_en_US__71(17)

Figur 4: GROMACS' ydelsesresultater med flere V100 på C4140-konfiguration K og M

Figur 4 viser en ydelsesforbedring af konfiguration M i forhold til konfiguration K. Enkeltkortsydeevnen er den samme for de to konfigurationer, siden der ikke er nogen forskel på datastien. Med 2 og 4 GPU'er er konfiguration M ca. 5 % hurtigere end konfiguration K. Ved test på tværs af 2 noder har konfiguration M op til 10 % bedre ydeevne. Hovedårsagen er det øgede antal PCIe-forbindelser, som giver mere båndbredde og tillader, at mere data hurtigere kan føde GPU'erne. GROMACS er stærkt accelereret med GPU'er, men dette program bruger både CPU'er og GPU'er til parallel beregning. Derfor anbefales en stærk CPU, hvis GROMACS er det øverste program i en klynge. Denne graf viser også GROMACS' ydelsesskalering med flere servere og flere GPU'er. Mens programmets ydeevne øges med flere GPU'er og flere servere, er forøgelsen af ydeevnen med flere GPU'er mindre end lineær.

NAnoscale Molecular Dynamics (NAMD)

NAMD er en kode for molekylær dynamik, der er designet til simuleringer med en høj ydelse af store biomolekylære systemer. I disse test blev det binære build ikke brugt. I stedet blev NAMD oprettet med den nyeste kildekode (NAMD_Git-2018-10-31_Source) på CUDA 10. Figur 4 viser ydelsesresultaterne vha. STMV-datasættet (1.066.628 atomer, periodisk, PME). Test på mindre datasæt som f1atpase (327.506 atomer, periodisk, PME) og apoa1 (92.224 atomer, periodisk, PME) resulterede i lignende sammenligninger mellem konfiguration M og konfiguration K, men er af pladshensyn ikke beskrevet her.

SLN315976_en_US__81(16)
Figur 5: NAMD-ydelsesresultater med flere V100s på C4140-konfiguration K og M

Som for GROMACS forbedrer 4 gange mere PCIe-båndbredde ydeevnen på NAMD. Figur 5 viser, at ydeevnen for konfiguration M med 2 og 4 kort er henholdsvis 16 % og 30 % større end konfiguration K på STMV-datasæt. Ydeevnen for enkeltkort forventes at være den samme, da PCIe-båndbredden er identisk, med kun én GPU i testen.

Konklusioner og fremtidigt arbejde

I denne blog sammenlignes HPC-programmers ydeevne med HPL, GROMACS og NAMD på tværs af to forskellige NVLINK-konfigurationer af PowerEdge C4140. Ydeevnen for henholdsvis HPL, GROMACS og NAMD er ca. 10 % bedre med konfiguration M end med konfiguration K. I alle test har konfiguration M som minimum den samme ydeevne som konfiguration K, da den har alle de gode funktioner som konfiguration K plus flere PCIe-links og ingen PCIe-switche. Der er planlagt yderligere test i fremtiden med flere programmer som RELION, HOOMD og AMBER samt test, der bruger V100 32G GPU.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources, Poweredge C4140

Dernière date de publication

21 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell