Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC Ready -ratkaisu HPC PixStor -tallennukseen - kapasiteetin laajennus

Résumé: Dell EMC Ready -ratkaisu HPC PixStor -tallennukseen - kapasiteetin laajennus

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Tekijä: Laitteisto PC and AI Innovation LabInTenTenegos, huhtikuu 2020

Cause

None

Résolution

Sisällysluettelo

  1. Johdanto
    1. Ratkaisuarkkitehtuuri
    2. Ratkaisun komponentit
  2. Suorituskyvyn kuvaus
    1. Peräkkäiset IOzone Performance N -työasemat N-tiedostoihin
    2. Peräkkäisten IOR Performance N -työasemat 1 tiedostoon
    3. Satunnaiset pienet lohkot IOzone Performance N -työasemista N-tiedostoihin
    4. Metatietojen suorituskyky MDtest-komennolla käyttäen tyhjiä tiedostoja
    5. Metatietojen suorituskyky MDtest-komennoilla, joissa käytetään neljää KiB-tiedostoa
  3. Johtopäätökset ja jatkosuunnitelmat


 


Johdanto

Nykypäivän HPC-ympäristöt vaativat entistä enemmän erittäin nopeaa tallennusta, joka vaatii usein myös suuren kapasiteetin ja hajautetun pääsyn useiden vakioprotokollien, kuten NFS:n, SMB:n ja muiden, kautta. Nämä suuren kysynnän HPC-vaatimukset kattavat tyypillisesti rinnakkaistiedostojärjestelmät, jotka tarjoavat samanaikaisen pääsyn yhteen tiedostoon tai tiedostojoukkoon useista solmuista, mikä jakaa tiedot tehokkaasti ja turvallisesti useisiin palvelinten loogisiin levyihin.

 

Ratkaisuarkkitehtuuri

Tämä blogi on jatkoa rinnakkaistiedostojärjestelmälle (PFS) HPC-ympäristöille. Se on DellEMC Ready Solution for HPC PixStor -tallennusratkaisu, jossa käytetään PowerVault ME484 EBOD -järjestelmiä ratkaisun kapasiteetin kasvattamiseen. Kuva 1 esittelee viitearkkitehtuurin, jossa näkyy kapasiteetin laajennus-SAS-lisäykset olemassa oleviin PowerVault ME4084 -tallennuslevysarjoihin.
PixStor-ratkaisu sisältää laajan yleisen rinnakkaistiedostojärjestelmän(PFS-komponenttina Spectrum Scale) sekä monia muita Arcastream-ohjelmistokomponentteja, kuten kehittyneen analytiikan, yksinkertaisen hallinnan ja valvonnan, tehokkaan tiedostohaun ja kehittyneet yhdyskäytäväominaisuudet.


SLN321192_en_US__1image001
Kuva 1: Viitearkkitehtuuri.

 

Ratkaisun komponentit

Ratkaisu on tarkoitus julkaista uusimmilla 2. sukupolven Intel Xeon Scalable Xeon -suorittimilla (eli Cascade Lake -suorittimilla ja joillakin palvelimilla on nopein käytettävissä oleva RAM-muisti (2933 MT/s). Koska nykyisillä laitteilla on käytössä suorituskykytietoja hyödyntäviä ratkaisuja, palvelimet, joissa on 1. sukupolven Intel Xeon Scalable Xeon -suorittimet (a.k.a). Skylake-suorittimia ja joissakin tapauksissa järjestelmää käytettiin hitaampaan RAM-muistiin. Koska ratkaisun pullonkaula sijaitsee DellEMC PowerVault ME40x4 -järjestelmien SAS-ohjaimissa, suorituskyvyn ei pitäisi olla merkittävästi eriytyvä, kun Skylaken suorittimet ja RAM-muisti on korvattu ennakoiduilla Cascade Lake -suorittimilla ja nopeammalla RAM-muistilla. Lisäksi ratkaisu päivitettiin uusimpaan PixStor(5.1.1.4) -versioon, joka tukee RHEL 7.7- ja OFED 4.7 -versioita järjestelmän luonteen vuoksi.

Aiemmin kuvatun tilanteen vuoksi taulukossa 1 on luettelo ratkaisun pääkomponenteista, mutta kun eroavaisuudet otettiin käyttöön, ensimmäisessä kuvaussarakkeessa on käytössä komponentteja, joita käytetään julkaisuhetkellä ja siten asiakkaiden saatavilla. Viimeinen sarake on osat, joita käytetään itse asiassa ratkaisun suorituskyvyn kannalta. Tiedoille (12 Tt:n NLS) ja metatietoille (960Gb SSD) luetellut asemat ovat suorituskykymerkinnässä käytettäviä asemia. Nopeammat asemat voivat tarjota parempia satunnaisia IOP-osoitteita ja parantaa luonti-/poiston metatietotoimintoja.

Kattavaksi katsoen luettelo mahdollisista tietojen kiintolevyistä ja metatietojen SSD-asemista julkaistiin. Luettelo perustuu verkossa käytettävissä olevaan DellEMC PowerVault ME4 -tukitaulukon tukemiin asemiin.

Taulukko 1 Julkaisuhetkellä käytetyt osat ja testisängyssä käytettävät osat

Ratkaisun osa

Julkaisuhetkellä

Testaa sänky

Sisäiset liitännät

Dell Networking S3048-ON Gigabit Ethernet

Tietojen tallennuksen alijärjestelmä

1 x 4 x Dell EMC PowerVault ME4084

1 x 4 x Dell EMC PowerVault ME484 (yksi ME4084:ää kohti)
80–12 Tt:n 3,5":n NL SAS3 -kiintolevyaseman vaihtoehdot
900 Gt:n @15K, 1,2 Tt:n @10K, 1,8 Tt:n @10K, 2,4 Tt:n @10K,
4 Tt:n NLS, 8 Tt:n NLS, 10 Tt:n NLS, 12 Tt:n NLS.
    8 LUNia, lineaarinen 8+2 RAID 6, lohkon koko 512 KiB.
Neljä 1,92 Tt:n SAS3 SSD -asemaa metatietoihin – 2 x RAID 1 (tai 4 globaalia kiintolevyn varalevyä, jos käytetään valinnaista High Demand -metatietomoduulia)

Valinnainen high demand -metatietojen tallennuksen alijärjestelmä

1 x 2 x Dell EMC PowerVault ME4024 (tarvittaessa 4 x ME4024, vain suuri kokoonpano)
24 x 960 Gt:n 2,5 tuuman SSD SAS3 -asemaa (vaihtoehdot 480 Gt, 960 Gt, 1,92 Tt)
12 LOOGIA, lineaarinen RAID 1.

RAID-tallennusohjaimet

12 Gb/s:n SAS

Kapasiteetti määritetyllä tavalla

Raaka: 8 064 Tt (7334 TiB tai 7,16 PiB), alustettu ~6144 Gt (5588 TiB tai 5,46 PiB)

Suoritin

Yhdyskäytävä

2 x Intel Xeon Gold 6230 2.1G, 20C/40T, 10,4 Gt/s, 27,5 Mt:n välimuisti, Turbo, HT (125 W) DDR4-2933

Suuren kysynnän metatiedot

2 x Intel Xeon Gold 6136 @ 3,0 GHz, 12 ydintä

Tallennussolmu

2 x Intel Xeon Gold 6136 @ 3,0 GHz, 12 ydintä

Hallintasolmu

2 x Intel Xeon Gold 5220 2.2G, 18C/36T, 10,4 Gt/s, 24,75 Mt:n välimuisti, Turbo, HT (125 W) DDR4-2666

2 x Intel Xeon Gold 5118 @2,30GHz, 12 ydintä

Muisti

Yhdyskäytävä

12 x 16 GiB 2 933 MT/s RDIMM -moduulia (192 GiB)

Suuren kysynnän metatiedot

24 x 16 GiB 2 666 MT/s RDIMM -moduulia (384 GiB)

Tallennussolmu

24 x 16 GiB 2 666 MT/s RDIMM -moduulia (384 GiB)

Hallintasolmu

12 x 16 Gt:n DIMM-moduulia, 2 666 MT/s (192GiB)

12 x 8 GiB 2 666 MT/s RDIMM-moduulia (96 GiB)

Käyttöjärjestelmä

Red Hat Enterprise Linux 7.6

Red Hat Enterprise Linux 7.7

Kernel-versio

3.10.0–957.12.2.el7.x86_64

3.10.0–1062.9.1.el7.x86_64

PixStor-ohjelmisto

5.1.0.0

5.1.1.4

Spectrum Scale (GPFS) -skaalaus

5.0.3

5.0.4-2

Tehokkaat verkkoyhteydet

Mellanox ConnectX-5 Dual-Port InfiniBand EDR/100 GbE ja 10 GbE

Mellanox ConnectX-5 InfiniBand EDR

Tehokas kytkin

2 x Mellanox SB7800 (HA – vikasietoinen)

1 x Mellanox SB7700

OFED-versio

Mellanox OFED-4.6-1.0.1.0

Mellanox OFED-4.7-3.2.9

Paikalliset levyt (käyttöjärjestelmä ja analysointi/valvonta)

Kaikki palvelimet paitsi hallintasolmu

3 x 480 Gt:n SSD SAS3 (RAID1 + HS) käyttöjärjestelmälle

PERC H730P RAID -ohjain

Hallintasolmu

3 x 480 Gt:n SSD SAS3 (RAID1 + HS) käyttöjärjestelmälle

PERC H740P RAID -ohjain

Kaikki palvelimet paitsi hallintasolmu

2 x 300 Gt 15K SAS3 (RAID 1) käyttöjärjestelmälle

PERC H330 RAID -ohjain

Hallintasolmu

5 x 300 Gt:n 15K SAS3 (RAID 5) käyttöjärjestelmän analysointiin
/valvontaan

PERC H740P RAID -ohjain

Järjestelmänhallinta

iDRAC 9 Enterprise + DellEMC OpenManage

iDRAC 9 Enterprise + DellEMC OpenManage

 

Suorituskyvyn kuvaus

Tämän uuden Ready Solution -ratkaisun luonteeseen käytimme taulukon 1 viimeisessä sarakkeessa mainittua laitteistoa, joka sisältää valinnaisen High Demand Metadata Module -moduulin. Ratkaisun suorituskyvyn arviointiin käytettiin seuraavia vertailutestoja:
  • IOzone N–N peräkkäin
  • IOR N:stä 1:een peräkkäin
  • Satunnainen IOzone
  • MDtest (MDtest)
 Kaikkien edellä mainittujen suorituskykytestien yhteydessä työasemat olivat alla olevassa taulukossa 2 kuvatulla tavalla. Koska testattavissa olevia laskentasolmuja oli vain 16, kun säikeitä tarvittiin enemmän, ne jakautuivat laskentasolmuihin tasaisesti (eli 32 säiettä = 2 säiettä solmua kohden, 64 säiettä = 4 säiettä solmua kohti, 128 säiettä = 8 säiettä solmua kohti, 256 säiettä =16 säiettä solmua kohti, 512 säiettä = 32 säiettä solmua kohti, 1024 säiettä = 64 säiettä solmua kohti). Tarkoituksena oli simuloida suurempaa samanaikaisten työasemien määrää, kun laskentasolmuja on rajallinen. Koska vertailut tukevat suurta määrää säikeitä, käytettiin enimmäisarvoa jopa 1024 (määritetty kuhunkin testiin), mutta samalla vältettiin liiallinen kontekstin vaihtaminen ja muut siihen liittyvät sivuvaikutukset, jotka vaikuttavat suorituskykytuloksiin.

Taulukko 2 Asiakastestiympäristö

Asiakassolmujen määrä

16

Asiakassolmu

C6320

Suorittimet asiakassolmua kohden

2 x Intel(R) Xeon(R) Gold E5-2697v4 18 ydintä, 2,30 GHz

Muistia asiakassolmua kohden

12 x 16GiB 2 400 MT/s RDIMM-moduulia

BIOS

2.8.0

Käyttöjärjestelmän ydin

3.10.0-957.10.1

GPFS-versio

5.0.3

 

Peräkkäiset IOzone Performance N -työasemat N-tiedostoihin

Peräkkäisten N-asiakkaiden ja N-tiedostojen suorituskykyä mitattiin IOzone-versiolla 3.487. Testit vaihtelevat yksittäisestä säikeestä 1024:ään säikeeseen asti, ja kapasiteetin laajennusratkaisun (4 x ME4084s + 4x ME484s) tulokset ovat ristiriidassa suurikokoisen ratkaisun kanssa (4 x ME4084s). Tallennus välimuistiin pieneni määrittämällä GPFS-sivuvarannon asetukseksi 16GiB ja käyttämällä tiedostoja, joiden koko on suurempi kuin kaksi kertaa suurempi. On tärkeää huomata, että GPFS:ssä säädettävä määrittää tietojen välimuistin enimmäismäärän asennetusta ja vapaasta RAM-muistin määrästä riippumatta. Huomioi myös, että aiemmissa DellEMC HPC -ratkaisuissa suurten peräkkäisten siirtojen lohkokoko on 1 MiB, mutta GPFS alustettiin 8 MiB-lohkoon, joten kyseistä arvoa käytetään suorituskykytestauksessa optimaalista suorituskykyä varten. Se saattaa näyttää liian suureksi ja hukkasi selvästi liian paljon tilaa, mutta GPFS käyttää alilohkovarausta tilanteen estämiseen. Nykyisessä kokoonpanossa jokainen lohko oli jaettu 256 alilohkoon, joista kukin oli 32 KiB-alilohkoa.

Seuraavilla komennoilla suoritettiin kirjoitus- ja lukutestausta, jossa säikeet olivat muuttuja, jossa käytettyjen säikeiden määrä (1–1024 lisättiin kahden tehon tehoihin), ja threadlist oli tiedosto, joka varasi jokaisen säikeen eri solmuun käyttämällä Round Robinia niiden jakamiseen yhtenäisesti 16 laskentasolmuun.

./iozone -i0 -c -e -w -r 8M -s 128G -t $Threads -+n -+m ./threadlist
./iozone -i1 -c -e -w -r 8M -s 128G -t $Threads -+n -+m ./threadlist

SLN321192_en_US__2image003
Kuva 2:  Peräkkäisten suorituskykyjen määrä


N–NTulosten perusteella suorituskyky nousee hyvin nopeasti käytettyjen asiakkaiden määrän myötä ja saavuttaa sitten tasangon, joka on vakaa, kunnes IOzonen sallimien säikeiden enimmäismäärä saavutetaan, ja siksi suurten tiedostojen peräkkäisten tiedostojen suorituskyky on vakaa myös 1024:n samanaikaisten työasemien osalta. Huomaa, että sekä luku- että kirjoitusteho hyötyi levyjen määrän kaksinkertaistamisesta. Tallennussolmuissa käytettyjen kahden IB EDR -linkin kaistanleveys rajoitti enimmäislukutehoa kahdeksasta säikeestä alkaen, ja ME4-järjestelmissä saattaa olla ylimääräistä suorituskykyä. Huomaa myös, että kirjoitustehon enimmäistaso oli 16,7–20,4 Gt/s 64 ja 128 säikeellä ja se on lähempänä ME4-levyjärjestelmien enimmäismäärityksiä (22 Gt/s).

Tässä on tärkeää muistaa, että GPFS:n ensisijainen toimintatila on hajautettu ja että ratkaisu on alustettu käyttämään kyseistä tilaa. Tässä tilassa lohkot varataan käytön alusta näennäisen satunnaisesti, mikä jakaa tietoja jokaisen kiintolevyn koko pinnalle. Alkuperäinen suorituskyky on tietenkin pienempi, mutta suorituskyky pysyy melko vakaana riippumatta siitä, kuinka paljon tilaa tiedostojärjestelmässä käytetään. Toisin kuin muissa rinnakkaisissa tiedostojärjestelmissä, joissa käytetään alun perin ulompia väyliä, joihin mahtuu enemmän tietoja (sektoreita) levynkumouksen aikana ja joiden suorituskyky on siten mahdollisimman hyvä kiintolevyjen osalta, mutta kun järjestelmä käyttää enemmän tilaa, käytössä on vähemmän tietoja mullkumisjärjestyksessä, mikä puolestaan vähentää suorituskykyä.

 

Peräkkäisten IOR Performance N -työasemat 1 tiedostoon

Peräkkäisten N-asiakkaiden ja yhden jaetun tiedoston suoritusteho mitattiin IOR-versiolla 3.3.0, jota avustettiin OpenMPI 4.0.1 -versiolla vertailun suorittamisessa 16 laskentasolmussa. Testit vaihtelivat yhdestä säikeestä jopa 512 säikeeseen (koska ytimien määrä ei riitä 1024 säikeeseen), ja tulokset ovat ristiriidassa ratkaisun kanssa ilman kapasiteetin laajennusta.
Tallennus välimuistiin pieneni määrittämällä GPFS-sivuvarannon asetukseksi 16GiB ja käyttämällä tiedostoja, joiden koko on suurempi kuin kaksi kertaa suurempi. Tässä vertailutestissä käytettiin 8 MiB-lohkoa optimaalista suorituskykyä varten. Edellisen suorituskykytestiosion selitys on täydellisempi.

Seuraavilla komennoilla suoritettiin kirjoitus- ja lukutestaustestaus, jossa säikeet olivat muuttuja, jossa käytettyjen säikeiden määrä (1–1024 lisättiin kahden tehon tehoihin), ja my_hosts.$Threads on vastaava tiedosto, joka varasi kunkin säikeen eri solmuihin ja levitti niitä yhtenäisesti 16 laskentasolmuun.

mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -w -s 1 -t 8m -b 128G 

mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --mca btl_openib_allow_ib 1 --mca pml ^ucx --oversubscribe --prefix /mmfs1/perftest/ompi /mmfs1/perftest/lanl_ior/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -r -s 1 -t 8m -b 128G

SLN321192_en_US__3image005

Kuva 3: N–1 Peräkkäisten asemien tulokset

takaavat, että lisäasemien luku- ja kirjoitusteho on hyvä. Suorituskyky nousee jälleen hyvin nopeasti käytettyjen asiakkaiden määrän myötä. Sen jälkeen se saavuttaa tasangon, joka on melko vakaa luku- ja kirjoituskertojen kannalta. Testin aikana käytettyjen säikeiden enimmäismäärään asti. Huomaa, että suurin lukunopeus oli 24,8 Gt/s 16 säikeellä ja pullonkaula oli InfiniBand EDR -liittymä, ja ME4-järjestelmillä oli edelleen ylimääräistä suorituskykyä. Siitä eteenpäin lukemisen suorituskyky laski arvosta noin 23,8 Gt/s:n tasangolle saakka. Huomaa myös, että 19,3:n kirjoitusteho saavutettiin 8 säikeellä ja saavutettiin tasanne.
 

Satunnaiset pienet lohkot IOzone Performance N -työasemista N-tiedostoihin

Satunnaisten N-asiakkaiden ja N-tiedostojen suorituskykyä mitattiin FIO-versiolla 3.7 perinteisen Iozonen sijasta. Kuten edellisessä blogissa mainittiin, tarkoituksena oli hyödyntää suurempaa jonon syvyyttä, jotta voidaan tutkia ME4084-järjestelmien mahdollista enimmäissuorituskykyä (aiemmat ME4-ratkaisujen testit osoittavat, että ME4084-levyjärjestelmät tarvitsevat enemmän IO-painetta, jonka Iozone voi toimittaa satunnaisten IO-rajoitusten saavuttamiseen).

Testit vaih olivat erilaisia yksittäisestä säikeestä jopa 512 säikeeseen, koska työasemaytimistä ei ollut riittävästi 1024 säikeeseen. Kussakin säikeessä käytettiin eri tiedostoa, ja säikeet määritettiin työasemasolmujen round robin -toiminnolla. Tässä vertailutestissä käytettiin neljää KiB-lohkoa, jotka jäljittelivät pieniä lohkoja ja käyttivät jonon 16 syvyyttä. Suurkokoratkaisun ja kapasiteetin laajentamisen tuloksia verrataan.

Tallennus välimuistiin pieneni jälleen määrittämällä GPFS-sivuvarannon asetukseksi 16GiB ja käyttämällä tiedostoja, jotka ovat kaksinkertaisia tähän kokoon nähden. Ensimmäisessä suorituskykytestiosiossa on kattavampi kuvaus siitä, miksi tämä on tehokas GPFS-määrityksessä.

  SLN321192_en_US__4image007
Kuva 4:  N–N Satunnainen suorituskyky

Tulosten perusteella voimme havaita, että kirjoitusteho alkaa 29,1 000 io/s:n arvosta ja nousee tasaisesti jopa 64 säikeeseen, jolloin se näyttää saavuttavan tasangon noin 40 000 io/s:n nopeudella. Lukunopeus taas alkaa 1,4 000 io/s:n tasolla ja parantaa suorituskykyä lähes lineaarisesti käytettyjen asiakkaiden määrän vuoksi (muista, että kunkin datapisteen säikeiden määrä kaksinkertaistuu) ja saavuttaa 25,6 000 IO/s:n enimmäissuorituskyvyn 64 säikeellä, jolloin tasanne näyttää olevan lähellä. Jos säikeitä käytetään enemmän kuin 16 laskentasolmua, resurssipuutosten ja suorituskyvyn vähentäminen vaatii enemmän kuin 16 laskentasolmua, jolloin järjestelmät voisivat itse asiassa ylläpitää suorituskykyä.

 

Metatietojen suorituskyky MDtest-komennolla käyttäen tyhjiä tiedostoja

Metatietojen suoritustehoa mitattiin MDtest-versiolla 3.3.0, jota avustettiin OpenMPI 4.0.1 -versiolla, joka suoritti vertailun 16 laskentasolmussa. Testit vaihtelevat yksittäisestä säikeestä 512:een säikeeseen asti. Vertailuarvoa käytettiin vain tiedostoissa (ei hakemistojen metatiedoissa), ja ratkaisun luonti-, tilasto- ja luku- ja poistomäärien määrä oli ristiriidassa suurikokoisen ratkaisun kanssa.

Ratkaisun arviointiin käytettiin muita DellEMC HPC -tallennusratkaisuja ja aiempia blogituloksia, mutta yhdessä ME4024-järjestelmässä käytettiin valinnaista High Demand Metadata Modulea, vaikka tässä työssä testatuissa suurissa kokoonpanoissa oli kaksi ME4024-kokoonpanoa. Tämä high demand -metatietomoduuli voi tukea enintään neljää ME4024-levyjärjestelmää, ja me4024-levyjärjestelmien määrän kannattaa nostaa neljään, ennen kuin lisätään uusi metatietomoduuli. MUIDEN ME4024-levyjärjestelmien odotetaan parantavan metatietojen suorituskykyä lineaarisesti kunkin lisäjärjestelmän yhteydessä, paitsi ehkä tilastotoimintoja (ja tyhjien tiedostojen lukutoimintoja varten), koska määrä on erittäin suuri. Jossain vaiheessa suorittimista tulee pullonkaula eikä suorituskyky enää kasva lineaarisesti.

Seuraavassa komennossa suoritettiin vertailukohtaa, jossa säikeet olivat muuttuja käytettyjen säikeiden määrällä (1–512 lisää kahden vallalla), ja my_hosts.$Threads on vastaava tiedosto, joka varasi kunkin säikeen eri solmuun käyttämällä Round Robinia niiden yhtenäisenä jakamiseen 16 laskentasolmuun. Random IO -vertailun tavoin säikeiden enimmäismäärä oli rajoitettu 512:een, koska ytimien määrä ei riitä 1024 säikeelle ja kontekstin vaihtaminen vaikuttaisi tuloksiin, mikä ilmoitti, että määrä oli pienempi kuin ratkaisun todellinen suorituskyky.

mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --prefix /mmfs1/perftest/ompi --mca btl_openib_allow_ib 1 /mmfs1/perftest/lanl_ior/bin/mdtest -v -d /mmfs1/perftest/ -i 1 -b $Directories -z 1 -L -I 1024 -y -u -t -F

Koska I/OP-tiedostojen kokonaismäärä, tiedostojen määrä hakemistoa kohden ja säikeiden määrä voivat vaikuttaa suorituskykytuloksiin, tiedostojen kokonaismääräksi päätettiin pitää korjattuna kaksi MiB-tiedostoa (2^21 = 2097152), tiedostojen määrä hakemistoa kohden 1024 ja hakemistojen määrä vaihteli taulukon 3 säikeiden määrän mukaisesti.

Taulukko 3:  Tiedostojen MDtest-jakelu hakemistoissa

Säikeiden määrä

Hakemistojen määrä säikeessä

Tiedostojen kokonaismäärä

1

2048

2,097,152

2

1024

2,097,152

4

512

2,097,152

8

256

2,097,152

16

128

2,097,152

32

64

2,097,152

64

32

2,097,152

128

16

2,097,152

256

8

2,097,152

512

4

2,097,152

1024

2

2,097,152



SLN321192_en_US__5image009

Kuva 5: Metatietojen suorituskyky - tyhjät tiedostot

Huomioi ensin, että valittu skaalaus oli logarithmic ja perusta 10, jotta voidaan verrata toimintoja, joissa on eroja useiden eri tilausten määrässä. Muutoin osa toiminnoista näyttää normaalissa kaaviossa tasaiselta viivalta, joka on lähellä 0:aa. Peruskaavion 2 lokikaavio voisi olla sopivampi, koska säikeiden määrä kasvaa 2 säikeellä, mutta kaavio näyttää hyvin samankaltaiselta ja ihmiset tavallisesti käsittelevät ja muistavat paremmin lukuja 10:n voimien perusteella.
Järjestelmä saa erittäin hyvät tulokset, kun tilasto- ja lukutoiminnot saavuttavat huippuarvonsa 64 säikeellä lähes 11 Mt/s:n ja 4,7 Mt:n op/s:n nopeudella. Poistotoiminnot saavutettiin enintään 170,6 000 op/s:n nopeudella 16 säikeellä, ja toimintojen huippu saavutettiin 32 säikeellä 222,1 000 op/s:llä. Tilasto- ja lukutoiminnot vaihtelevat enemmän, mutta huippuarvon saavuttaminen ei laske tilastoissa alle 3 Mt:n op/s:iin ja lukutoimintojen 2 Mt:n op/s:iin. Luonti ja irrottaminen ovat vakaampia, kun ne ulottuvat tasangolle, ja niiden irrottaminen on yli 140 000 ja luonti 120 000 op/s. Huomioi, että lisäasemat eivät vaikuta useimpien tyhjien tiedostojen metatietotoimintoihin odotetulla tavalla.
 

Metatietojen suorituskyky MDtest-komennoilla, joissa käytetään neljää KiB-tiedostoa

Testi on lähes sama kuin aiempi, mutta tyhjien tiedostojen sijaan käytettiin pieniä 4 KiB-tiedostoja. 
Seuraavassa komennossa suoritettiin vertailukohtaa, jossa säikeet olivat muuttuja käytettyjen säikeiden määrällä (1–512 lisää kahden vallalla), ja my_hosts.$Threads on vastaava tiedosto, joka varasi kunkin säikeen eri solmuun käyttämällä Round Robinia niiden yhtenäisenä jakamiseen 16 laskentasolmuun.

mpirun --allow-run-as-root -np $Threads --hostfile my_hosts.$Threads --prefix /mmfs1/perftest/ompi --mca btl_openib_allow_ib 1 /mmfs1/perftest/lanl_ior/bin/mdtest -v -d /mmfs1/perftest/ -i 1 -b $Directories -z 1 -L -I 1024 -y -u -t -F -w 4K -e 4K

SLN321192_en_US__6image011
Kuva 6:  Metatietojen suorituskyky - pienet tiedostot (4K)

Järjestelmä saa erittäin hyvät tulokset tilasto- ja poistotoiminnoista saavuttaen huippuarvonsa 256 säikeessä 8,2 Mt op/s:n ja 400 000 op/s:n nopeudella. Lukutoiminnot saavutettiin enintään 44,8 000 op/s:n toiminnoilla. Luonti saavuttaa huippunsa 68,1K op/s:n toiminnoilla 512 säikeellä. Tilasto- ja poistotoiminnot vaihtelevat enemmän, mutta huippuarvon saavuttaminen ei laske tilastoissa alle 3 Mt:n op/s:iin ja poistoon 280 000 op/s. Luomis- ja lukutoiminnoissa on vähemmän vaihtelua, ja ne kasvavat jatkuvasti säikeiden määrän kasvaessa. Kuten on nähtävissä, kapasiteetin laajennusten ylimääräiset asemat muuttavat metatietojen suorituskykyä vain hiukan.
Koska nämä numerot koskevat metatietomoduulia, jossa on yksi ME4024, kunkin ME4024-lisäjärjestelmän suorituskyky kasvaa, mutta emme voi olettaa kunkin toiminnon kohdalla lineaarista lisäystä. Jos koko tiedosto ei sovi inodeen kyseiselle tiedostolle, ME4084-mallin datakohteita käytetään 4K-tiedostojen tallentamiseen, mikä rajoittaa suorituskyvyn jonkin verran. Koska inode-koko on 4 KiB ja siihen on edelleen tallentava metatietoja, vain noin 3 KiB:n tiedostot mahtuvat sisälle ja mikä tahansa tiedosto, joka käyttää tietokohteita.
 


Johtopäätökset ja jatkosuunnitelmat

Laajennetulla kapasiteetilla varustettu ratkaisu pystyi parantamaan suorituskykyä satunnaisten käyttöjen ja jopa peräkkäisten käyttöjen osalta. Tämä oli normaalia, koska hajallaan oleva tila toimii satunnaistettuina käyttötilana, ja jos levyjä on enemmän, parannus onnistuu. Taulukon 4 suorituskyky on vakaa, kunnes se on lähes täynnä. Lisäksi ratkaisu skaalautuu kapasiteettiin ja suorituskykyyn lineaarisesti sitä mukaan, kun tallennussolmumoduuleja lisätään, ja valinnaisen suuren kysynnän metatietomoduulin suorituskyky voi kasvaa samalla tavalla. Tämä ratkaisu tarjoaa HPC-asiakkaille erittäin luotettavan rinnakkaistiedostojärjestelmän, jota käytetään monissa 500 ylimmässä HPC-klusterissa. Lisäksi se tarjoaa erinomaiset hakutoiminnot, edistyneen valvonnan ja hallinnan sekä valinnaisten yhdyskäytämien lisäämisen mahdollistamaan tiedostojen jakamisen kaikkialla olevien vakioprotokollien, kuten NFS:n, SMB:n ja muiden, avulla niin moneen työasemaan kuin tarvitaan.

Taulukko 4  Huippusuorituskyky ja pysyvä suorituskyky

 

Huippusuorituskyky

Pysyvä suorituskyky

Kirjoittaa

Read

Kirjoittaa

Read

Suuret peräkkäiset N-työasemat–N-tiedostot

20,4 Gt/s

24,2 Gt/s

20,3 Gt/s

24 Gt/s

Suuret peräkkäiset N-työasemat yhteen jaettuun tiedostoon

19,3 Gt/s

24,8 Gt/s

19,3 Gt/s

23,8 Gt/s

Satunnaiset pienet lohkot N-asiakasohjelmista N-tiedostoihin

40 KIOps

25,6 KIOps

40,0 KIOps

19,3 KIOps

Metatietojen luonti tyhjiksi tiedostoksi

169,4 000 io/s

123,5 000 io/s

Metatietojen tilastoavat tyhjät tiedostot

11 M:n IO:t

3,2 Mt:n IOps

Metatietojen luku- ja tyhjät tiedostot

4,7 M/s

2,4 Mt:n IOps

Metatietojen poisto, tyhjät tiedostot

170,6 000 IOps

156,5 000 IOps

Metatietojen luonti 4 KiB-tiedostoihin

68,1 000 io/s

68,1 000 io/s

Metatietojen stat 4KiB -tiedostot

8,2 Mt:n IO:t

3 Mt:n IO:t

Metatiedot lukevat 4 KiB-tiedostoja

44,8 000 io/s

44,8 000 io/s

Metatietojen poisto 4 KiB-tiedostoista

400 000 io/s

280 000 io/s



Koska ratkaisu on tarkoitus julkaista Cascade Lake -suorittimilla ja nopeammalla RAM-muistilla, suorituskykytarkistukset tehdään, kun lopullinen kokoonpano on valmis. Ja testaa valinnainen High Demand Metadata Module, jossa on vähintään 2 x ME4024s- ja 4KiB-tiedostoa, jotta metatietojen suorituskyky skaalautuu paremmin, kun tietotavoitteet ovat käytössä. Lisäksi yhdyskäytäväsolmujen suorituskyky mitataan ja raportoidaan yhdessä uusien blogien tai valkoisen julkaisun pistetarkistusten tulosten kanssa. Lisää ratkaisukomponentteja aiotaan testata ja julkaista, jotta valmiuksista tulee entistäkin enemmän.

 

Propriétés de l’article


Produit concerné

Dell EMC Ready Solution Resources

Dernière date de publication

26 sept. 2023

Version

5

Type d’article

Solution