Numéro d’article: 000181595

HPC-sovellusten suorituskyky C4140 Configuration M -ratkaisussa

Résumé: Tietoja Dell EMC PowerEdge C4140 -palvelinten uudest Configuration M -ratkaisusta.

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Artikkelin ovat kirjoittaneet Dell EMC HPC:n ja AI Innovation Labin Frank Han, Rengan Xu ja Quy Ta tammikuussa 2019.

Résolution

Tiivistelmä

Dell EMC PowerEdge C4140 -palvelimiin on hiljattain lisätty uusi Configuration M -ratkaisu. Tässä artikkelissa esitellään uusimpaan C4140-tuoteperheen jäseneen liittyvän suorituskykytutkimuksen tulokset. Tutkimuksessa arvioitiin Configuration M:n suorituskykyä Configuration K -ratkaisuun verrattuna erilaisissa HPC-sovelluksissa, kuten HPL, GROMACS ja NAMD.

Yleiskuvaus

PowerEdge C4140 on kaksikantainen 1U-kehikkopalvelin. Se tukee Intel Skylake -suorittimia ja siinä on enintään 24 DIMM-muistipaikkaa sekä neljä tuplaleveää NVIDIA Volta -näytönohjainkorttia. C4140-palvelinperheen NVLINKiä tukevat kaksi kokoonpanoa ovat Configuration K ja Configuration M. Topologioiden vertailu on esitetty kuvassa 1. Kaksi merkittävää eroa näiden kahden kokoonpanon välillä on kuvattu alla:

Suurempi PCIe-kaistanleveys: Configuration K: suorittimet on yhdistetty neljään grafiikkasuorittimeen yhdellä PCIe-linkillä. Configuration M: jokainen suoritin on yhdistetty grafiikkasuorittimeen omalla PCIe-linkillään. Kahdella suorittimella on siis yhteensä neljä PCIe-liitäntää, mikä takaa Configuration M -ratkaisun suuremman PCIe-kaistanleveyden.
Pienempi viive. Configuration M: ei PCIe-kytkintä suorittimen ja grafiikkasuoritinten välillä. Suorat yhteydet vähentävät suorittimen ja grafiikkasuorittimen välisen tiedonsiirron siirräntäväliä, joten Configuration M:n viive on siksi pienempi.

Tässä blogissa esitellään näiden kahden kokoonpanon HPC-sovellusten suorituskykyä. Vertailimme HPL-, GROMACS, ja NAMD-sovelluksia V100-SXM2 16G -grafiikkasuorittimien kanssa. Taulukossa 1 on lueteltu laitteisto- ja ohjelmistotiedot.
SLN315976_en_US__2table

p2pBandwidthLatencyTest

SLN315976_en_US__3latency
Kuva 2: Kortista korttiin -viive, P2P ei käytössä, C4140 Configuration K ja M

P2pBandwidthLatencyTest on CUDA SDK:hon kuuluva pienoistesti. Se mittaa kortista korttiin -viiveen ja kaistanleveyden GPUDirect™ Peer-to-Peer käytössä ja käytöstä poistettuna. Testissä keskitytään viiveeseen, koska ohjelma ei mittaa samanaikaisesti kaistanleveyttä. Sovellusten todellista kaistanleveyttä käsitellään alla olevassa HPL-osiossa. Kuvassa 2 luetellut numerot kuvaavat sataan kertaan mitatun yksisuuntaisen kortista korttiin -viiveen keskiarvoa mikrosekunteina. Aina kun koodi lähettää tavun kortista toiseen, valitaan tämän kaavion P2P ei käytössä -numero, koska jos P2P on käytössä, tiedot siirretään sen sijaan NVLINK-yhteyden kautta. Configuration M:n PCIe-viive on 1,368. Se on Configuration K:tä pienempi PCIe-topologioiden erojen vuoksi.

High Performance Linpack (HPL)

(a) Suorituskyky
SLN315976_en_US__52(14)

(b) Kunkin V100-grafiikkasuorittimen keskimääräinen PCIe-kaistanleveys
SLN315976_en_US__63(12)

Kuvassa 3 (a) näkyy C4140-alustan HPL-suorituskyky yhdellä, kahdella, neljällä ja kahdeksalla V100-SXM2-grafiikkasuorittimella. 1–4 grafiikkasuorittimen tulokset ovat yhdestä C4140:stä, 8 grafiikkasuorittimen tulos on kahdesta palvelimesta. Tässä testissä käytetty HPL-versio on NVIDIAn toimittama, ja se on koottu äskettäin julkaistuilla CUDA 10- ja OpenMPI-versioilla. HPL:n tuloksista voidaan havaita seuraavat seikat:

1) Yksi solmu. Kaikkien neljän grafiikkasuorittimen testissä Configuration M on noin 16 % Configuration K:ta nopeampi. Ennen kuin HPL-sovellus aloittaa laskemisen, se mittaa laitteesta isäntään (D2H) ja isännästä laitteeseen (H2D) käytettävissä olevan PCIe-kaistanleveyden kullekin näytönohjaimelle, kun kaikki kortit siirtävät tietoja samanaikaisesti. Näiden tietojen avulla saadaan hyödyllisiä tietoja kunkin kortin todellisesta PCIe-kaistanleveydestä, kun HPL kopioi N*N Matrixin samanaikaisesti kaikkien grafiikkasuorittimien muistiin. Kuten kuvassa 3 (b) näkyy, Configuration M:n D2H- ja H2D-luvut ovat huomattavasti suurempia ja ne ovat saavuttaneet PCIe x16 -ratkaisun teoreettisen läpiviennin. Tämä vastaa laitteiston topologiaa, koska kussakin Configuration M:n grafiikkasuorittimessa on erillinen PCIe x16 -linkki suorittimeen. Configuration K:ssa kaikkien neljän V100:n on jaettava yksi PCIe x16 -linkki PLX PCIe -kytkimen kautta, jolloin niillä kaikilla on käytettävissään vain 2,5 Gt/s. Kaistanleveyseron vuoksi 16 Gt:n neljäosaisen N*N Matrixin kopioiminen kunkin grafiikkasuorittimen muistiin kesti Configuration M:llä 1,33 sekuntia ja Configuration K:lla 5,33 sekuntia. Koko HPL-sovelluksen suoritus kesti n. 23–25 sekuntia Koska kaikki V100-SXM2-mallit ovat samanlaisia, myös laskenta-aika on identtinen. Neljän sekunnin säästö tiedonsiirtoajassa osoittaa, että Configuration M on 16 % nopeampi.

2) Useita solmuja. Kahden C4140-solmun ja kahdeksan grafiikkasuorittimen tuloksissa on havaittavissa yli 15 prosentin HPL-suorituskyvyn parannus kahdella solmulla. Configuration M:n skaalautuvuus on Configuration K:ta parempi, samasta syystä kuin yllä kuvatun tapauksen yhdellä solmulla ja neljällä kortilla.

3) Tehokkuus. Virrankulutus: mitattiin iDracilla, kuvassa 3 (c) näkyvät ajan mukaiset tehotiedot. Molempien järjestelmien teho oli suurimmillaan noin 1 850 W. Suuremman GFLOPS-luvun vuoksi Configuration M tarjoaa paremman suorituskyvyn wattia kohden sekä paremman HPL-tehokkuuden.

HPL on järjestelmätason testin jonka tulokset määräytyvät suorittimen, grafiikkasuorittimen, muistin ja PCIe-kaistanleveyden kaltaisten komponenttien perusteella. Configuration M:n rakenne on tasapainotettu kahden suorittimen välillä. Siksi se päihittää Configuration K:n HPL-vertailussa.

GROMACS

GROMACS on avoimen lähdekoodin molekyylidynamiikkasovellus, joka on tarkoitettu biokemiallisten molekyylien, kuten proteiinien, lipidien ja nukleiinihappojen monimutkaisten sidosteisten vuorovaikutusten simulointiin. Versiota 2018.3 testattiin Water 3072 -tietojoukolla, johon kuuluu 3 miljoonaa atomia.

SLN315976_en_US__71(17)

Kuva 4: GROMACS-suorituskyky, C4140 ja useita V100-suorittimia, Configuration K ja M

Kuvassa 4 näkyy Configuration M:n ja K:n suorituskykyjen ero. Yhden kortin suorituskyky on sama molemmissa kokoonpanoissa, koska tietopolussa ei ole eroa. Käytettäessä kahta tai neljää grafiikkasuoritinta Configuration M on 5 % nopeampi kuin K. Kun sitä testataan kahden solmun kanssa, Configuration M:n suorituskyky on jopa 10 % parempi. Merkittävin syy tälle on se, että PCIe-liitäntöjä on enemmän, jolloin kaistanleveyttä on enemmän ja tietojen syöttö grafiikkasuorittimiin on nopeampaa. Grafiikkasuoritin vaikuttaa merkittävästi GROMACS-sovellukseen, mutta sovellus käyttää laskentaan samanaikaisesti sekä suoritinta että grafiikkasuorittimia – jos GROMACS on klusterin pääsovellus, tehokasta suoritinta suositellaan. Kaaviossa näkyy GROMACS-suorituskyvyn skaalautuminen useiden palvelinten ja lisägrafiikkasuorittimien myötä. Vaikka sovelluksen suorituskyky kasvaa, kun grafiikkasuorittimia ja palvelimia on enemmän, grafiikkasuoritinkohtainen suorituskyvyn parantuminen ei ole lineaarista.

NAnoscale Molecular Dynamics (NAMD)

NAMD on molekyylidynamiikkakoodi, joka on suunniteltu suurten biomolekyylijärjestelmien tehokkaaseen simulointiin. Näissä testeissä ei käytetty valmista binaaria. Sen sijaan NAMD luotiin uusimmasta lähdekoodista (NAMD_Git-2018-10-31_Source) CUDA 10:n avulla. Kuvassa 4 on esitetty suorituskykytulokset STMV-tietojoukolla (1 066 628 atomia, jaksoittainen, PME). Testit pienemmillä tietojoukoilla, kuten f1atpase (327 506 atomia, jaksoittainen, PME) ja apoa1 (92 224 atomia, jaksoittainen, PME), johtivat samankaltaisiin vertailutuloksiin Configuration M:n ja K:n välillä. Niitä ei tekstin rajaamisen vuoksi esitellä tässä.

SLN315976_en_US__81(16)
Kuva 5: NAMD-suorituskyky, C4140 ja useita V100-suorittimia, Configuration K ja M

Nelinkertainen PCIe-kaistanleveys parantaa GROMACS-sovelluksen lisäksi myös NAMD:n suorituskykyä. Kuvassa 5 näkyy, että Configuration M:n suorituskyky kahdella ja neljällä kortilla on vastaavasti 16 % ja 30 % Configuration K:ta paremmalla tasolla käytettäessä STMV-tietojoukkoa. Yhden kortin suorituskyvyn odotetaan pysyvän samana, koska käytettäessä vain yhtä grafiikkasuoritinta PCIe-kaistanleveys on identtinen.

Johtopäätökset ja jatkosuunnitelmat

Tässä blogikirjoituksessa vertailtiin kahden erilaisen PowerEdge C4140 -palvelimen NVLINK-kokoonpanon HPC-sovellusten suorituskykyä HPL:llä, GROMACSilla ja NAMD:llä. HPL, GROMACS ja NAMD suoriutuvat n. 10 % paremmin Configuration M:llä kuin Configuration K:lla. Kaikissa testeissä Configuration M saavuttaa saman suorituskyvyn kuin Configuration K, koska sillä on kaikki Configuration K:n hyvät ominaisuudet sekä lisäksi useampia PCIe-linkkejä eikä ollenkaan PCIe-kytkimiä. Jatkossa lisätestejä aiotaan tehdä esimerkiksi RELION-, HOOMD- ja AMBER-sovelluksilla sekä V100 32G -grafiikkasuorittimella.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources, Poweredge C4140

Dernière date de publication

21 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell