Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Dell Ready Solution for HPC Lustre Storage: Oppdatering av Cascade Lake

Summary: Dell Ready Solution for HPC Lustre Storage: Oppdatering av Cascade Lake

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Artikkel skrevet av Jyothi Htcskar fra HPC and AI Innovation Lab i juni 2019

Cause

None

Resolution

Med denne bloggen annonserer vi tilgjengeligheten av Dell Ready Solution for Lustre med Cascade Lake-prosessorer. I denne bloggen presenterer vi de oppdaterte tekniske spesifikasjonene for Lustre-løsningen, de første resultatresultatene av den oppdaterte løsningen og en sammenligning mellom gjeldende resultater og tidligere resultater.  Vi konfigurerte løsningsstabelen med nye oppdateringer som vist i tabell 1 med EDR-sammenkobling, og bekreftet at installasjonen fungerte som forventet og kjørte ytelseskontroller. 

Arkitekturdiagrammet for den store grunnkonfigurasjonen vises nedenfor i figur 1. 
Vær oppmerksom på at server- og lagringsmodellene forblir de samme som tidligere vist. Bare de nye oppdateringene vises i tabell 1. 
SLN317174_en_US__1image (10273)

Figur 1:  Dell Ready Solution for HPC Lustre Storage: Arkitekturdiagram over L-basiskonfigurasjon

Tabell 1:  Oppdaterte tekniske spesifikasjoner for Ready Solution for Lustre og en rask sammenligning med forrige utgivelse

Maskinvare-/programvarekomponent Gjeldende Forrige
Prosessorer i OSS og MDSObject Storage Server (OSS) og Metadata Server (MDS) 2 x Intel Xeon Gold 6230 CPU med 20 kjerner ved 2,10 GHz per OSS/MDS 2 x Intel Xeon™ Gold 6136 med 12 kjerner ved 3,00 GHz
Prosessor i Integrated Manger for Lustre (IML)-server  2 x Intel Xeon Gold 5218 med 16 kjerner ved 2,3 GHz 2 x Intel Xeon Gold 5118 med 12 kjerner ved 2,3 GHz
Minne-DIMM-er i OSS og MDS 12 x 32 GiB 2933 MT/s DDR4 RDIMM-er 24 x 16 GiB 2666 MT/s DDR4 RDIMM-er
Minne-DIMM-er i IML-server 12 x 8 GiB 2666 MT/s DDR4 RDIMM-er 12 x 8 GB 2666 MT/s DDR4 RDIMM-er
BIOS 2.1.8 eller nyere 1.4.5 eller nyere 
OS Kernel 3.10.0-957.1.3 3.10.0-862
Lustre-versjon 2.10.7 2.10.4
IML-versjon 4.0.10.0 4.0.7.0
Mellanox OFED versi 4.5-1.0.1.0 4.4-1












 













Ytelsesresultater

Vi konfigurerte den oppdaterte Ready Solution som oppført i tabell 1, og kjørte ytelseskontroller med IOzone sekvensielle, tilfeldige IOzone- og MDtest-ytelsestester for å bekrefte ytelsen til den oppdaterte løsningen. Testmetoden, inkludert ytelsestestkommandoene for alle testene, var identisk med metoden som ble brukt og beskrevet tidligere.

For alle testene brukte vi klienttestmiljøet som beskrevet i tabell 2 nedenfor
 

Tabell 2:  Klienttestmiljø

 
Antall klientnoder  8
Klientnode C6420
Prosessorer per klientnode 2 x Intel(R) Xeon (R) Gold 6248 med 20 kjerner ved 2,50 GHz
Minne per klientnode 12 x 16 GiB 2933 MT/s RDIMM
BIOS 2.2.6
OS Kernel 3.10.0-957.10.1
Lustre-versjon 2.10.7
Mellanox OFED 4.5-1.0.1.0











 




Sekvensiell IOzone-ytelse 

Vi kjørte sekvensiell IOzone versjon 3.487 ved hjelp av klientene som er oppført i tabell 2. Vi kjørte tester fra én tråd opptil 256 tråder, med flere tråder per klient forbi åtte tråder. I henhold til testmetoden var den aggregerte datastørrelsen for testen 2 TB.  For lavere tråder som er mindre enn 32 tråder, ble det brukt et lustre stripeantall på 32, og for tråder som er større enn 32, ble Lustre stripe count (Lustre stripe count) satt til 1.  Hurtigbufringseffekter ble minimert som beskrevet i forrige blogg.

Justeringsparameterne for Lustre-klienten som brukes for denne testen, er oppført nedenfor 

lctl set_param osc.*.checksums=0
lctl set_param timeout=600
lctl set_param at_min=250
lctl set_param at_max=600
lctl set_param ldlm.namespaces.*.lru_size=2000
lctl set_param osc.*OST*.max_rpcs_in_flight=16
lctl set_param osc.*OST*.max_dirty_mb=1024
lctl set_param osc.*.max_pages_per_rpc=1024
lctl set_param llite.*.max_read_ahead_mb=1024
lctl set_param llite.*.max_read_ahead_per_ file_mb = 1024



SLN317174_en_US__2image (10 649)

Figur 2: Sekvensielle N-N-skriveoperasjoner. En sammenligning av tidligere resultater med gjeldende resultater ved bruk av Cascade Lake Lustre-servere og -klienter

SLN317174_en_US__3image (10650)

Figur 3: Sekvensielle N-N-leseoperasjoner. En sammenligning av tidligere resultater med gjeldende resultater ved bruk av Cascade Lake Lustre-servere og -klienter

Figur 2 og 3 viser IOzone sekvensiell lese- og skriveytelse for den nyeste Cascade Lake-baserte løsningen, og sammenligner disse resultatene med den forrige Skylake-baserte løsningen. Sammenlignet med tidligere resultater ser vi at det er ytelsesforbedring i sekvensielle leseoperasjoner samt skriving med Cascade Lake-baserte klienter og Lustre-servere for lavere tråder under 32 tråder. Vi kan notere oss opptil litt mer enn to ganger ytelsesforbedring i sekvensielle skriveoperasjoner samt leseoperasjoner ved lavere tråder under 32 tråder. Vi mener at dette ytelsesdeltaet kan tilskrives maskinvarereduksjonene for utnyttelser av sidekanaler som er inkludert i Cascade Lake-prosessorer (ref link). Andre faktorer kan imidlertid også være raskere minne i den nye løsningen og de oppdaterte programvareversjonene.  

Det kan også bemerkes at den sekvensielle ytelsen ved høyere tråder fortsatt er svært lik den forrige løsningen. Grunnen til dette er at forbedringene i Cascade Lake-prosessorer ikke bidrar til ekstra ytelse når løsningen fungerer med det fulle potensialet til backend-lagringskontrollerne.



Tilfeldig IOzone-ytelse 

Vi kjørte tilfeldig IOzone, versjon 3.487, ved hjelp av klientene som er oppført i tabell 2. og kjørte ytelseskontroller med 16, 64 og 256 tråder. I likhet med den forrige testmetoden var den aggregerte datastørrelsen 2 TB, og stripestørrelsen ble satt til 4 MB. Hurtigbufringseffekter ble minimert som beskrevet i forrige blogg.

Justeringsparameterne for Lustre-klienten som brukes for denne testen, er oppført nedenfor   

lctl set_param osc.*OST*.max_rpcs_in_flight=256
lctl set_param osc.*.max_pages_per_rpc=1024

SLN317174_en_US__4image (10288)

Figur 4: IOzone Random N-N Reads.A sammenligning av tidligere resultater med gjeldende resultater ved hjelp av Cascade Lake Lustre-servere og -klienter

Figur 4 tegner inn resultatene av de tilfeldige I/O-testene. Når vi sammenligner tidligere og nåværende resultater, ser vi at trenden forblir den samme, og at det observerte ytelsesdeltaet ikke er statistisk svært viktig basert på kjøring for å kjøre variasjoner.



MDtest-ytelse for metadata

MDTest-verktøyversjon 1.9.3 ble brukt til å evaluere systemets metadataytelse. MPI-distribusjonen som ble brukt, var Intel MPI. Testene ble kjørt ved hjelp av DNE med to MDT-er og katalogstriling. Testmetoden, kommandoen som ble brukt og antall filer og kataloger som ble opprettet, var identisk med det som ble forklart i forrige blogg. 

SLN317174_en_US__5image (10293)

Figur 5:   Metadataoperasjoner med MDtest.   En sammenligning av tidligere resultater med gjeldende resultater ved bruk av Cascade Lake Lustre-servere og -klienter

Figur 5 viser resultatene av metadatatestene. Når vi sammenligner de gjeldende resultatene med forrige resultat, ser vi at trenden for alle de tre metadataoperasjonene forblir den samme. Vi kan legge merke til en forbedring på 75,4 % i peak file create operations, 18 % drop in peak file remove operations and negligible performance delta in file stat operations.)   Vi kan muligens attributtere ytelsesdeltaene som er observert i programvare- og maskinvareoppdateringene på løsningsstabelen, som vist i tabell 1.
 

Konklusjon

Vi har bekreftet og validert oppdateringene av Lustre Ready Solution med hensyn til konfigurasjon, installasjon og ytelse. Resultatdataene som er samlet inn, er også inkludert i denne bloggen.

Sammenligning av tidligere resultater med gjeldende resultater med Cascade Lake-baserte Lustre-servere og klienter

1) Sekvensiell IO: Vi ser opptil to ganger bedre ytelsesforbedring med sekvensielle skriveoperasjoner og sekvensielle leseoperasjoner i lavere tråder under 32 tråder. Toppytelsen er lik den forrige Skylake-baserte løsningen. 
2) Tilfeldig IO: Vi kan se en svært lik trend i lese- og skriveytelse med et ytelsesdelta som ikke er statistisk viktig med tanke på å kjøre variasjoner.
3) Ytelsestester for metadata:  Vi ser en forbedring i filopprettingsoperasjoner på opptil 75,4 % på det meste. Filstatistikkoperasjoner holder seg svært nær resultatene som tidligere ble observert med uopprettelig ytelsesdelta. Vi ser om lag 18 % fall i filfjerningsoperasjoner på topp, mens trenden generelt for filfjerningsoperasjoner forblir den samme, og deltaet er ikke tilgjengelig i andre tråder.  

Referanser

1) IOzone benchmark
2) Mdtest-ytelsestest

Article Properties


Affected Product

High Performance Computing Solution Resources

Last Published Date

19 Jan 2024

Version

6

Article Type

Solution