Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Dell Ready Solution til HPC Lustre-lagring: Cascade Lake Refresh

Summary: Dell Ready Solution til HPC Lustre-lagring: Cascade Lake Refresh

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Artikel skrevet af Jlorthi Bhaskar fra HPC og AI Innovation Lab i juni 2019

Cause

Ingen

Resolution

Med denne blog annoncerer vi tilgængeligheden af Dell Ready Solution til Lustre med Cascade Lake-processorer. I denne blog præsenterer vi de opdaterede tekniske specifikationer for Lustre-løsningen, de indledende resultater af den opdaterede løsning og en sammenligning mellem de aktuelle resultater og de tidligere resultater.  Vi konfigurerede løsningsstakken med nye opdateringer som vist i tabel 1 med EDR-sammenkobling, verificerede, at installationen fungerede som forventet, og kørte ydeevnekontroller. 

Arkitekturdiagrammet for den store basiskonfiguration vises nedenfor i Figur 1. 
Bemærk, at server- og lagermodellerne er de samme som dem, der blev præsenteret tidligere. Kun de nye opdateringer vises i Tabel 1. 
SLN317174_en_US__1image(10273)

Figur 1:  Dell Ready Solution til HPC Lustre-lagring: Arkitekturdiagram over L-basiskonfiguration

Tabel 1:  Opdaterede tekniske specifikationer for Ready Solution til Luster og en hurtig sammenligning med den tidligere version

Hardware-/softwarekomponent Aktuel Forrige
Processorer i OSS og MDSObject Storage Server (OSS) og metadataserver (MDS) 2 x Intel Xeon Gold 6230 CPU med 20 kerner ved 2,10 GHz pr. OSS/MDS 2 x Intel Xeon™ Gold 6136 med 12 kerner ved 3,00 GHz
Processor i Integrated Manger for Lustre-server (IML)  2 x Intel Xeon Gold 5218 med 16 kerner ved 2,3 GHz 2 x Intel Xeon Gold 5118 med 12 kerner ved 2,3 GHz
DIMM-hukommelse i OSS og MDS 12 x 32 GiB 2933 MT/s DDR4 RDIMM'er 24 x 16 GiB 2666MT/s DDR4 RDIMM'er
Hukommelses-DIMM'er i IML-server 12 x 8 GiB 2666MT/s DDR4 RDIMM'er 12 x 8 GB 2666MT/s DDR4 RDIMM'er
BIOS 2.1.8 eller nyere 1.4.5 eller nyere 
OS-kerne 3.10.0-957.1.3 3.10.0-862
Luster-version 2.10.7 2.10.4
IML-version 4.0.10.0 4.0.7.0
Mellanox OFED version 4.5-1.0.1.0 4.4-1












 













Ydeevneresultater

Vi konfigurerede den opdaterede Ready Solution som angivet i tabel 1 og kørte ydeevnekontroller med IOzone sekventielle, IOzone tilfældige og MDtest-benchmarks for at verificere ydeevnen for den opdaterede løsning. Testmetoden, herunder benchmark-kommandoerne for alle tests, var identisk med den anvendte metode og beskrevet tidligere.

Til alle test brugte vi klienttestblinen som beskrevet i tabel 2 nedenfor
 

Tabel 2:  Klienttestskinne

 
Antal klientnoder  8
Klientnode C6420
Processorer pr. klientnode 2 x Intel(R) Xeon(R) Gold 6248 med 20 kerner ved 2,50 GHz
Hukommelse pr. klientnode 12 x 16 GiB 2933 MT/s RDIMM-moduler
BIOS 2.2.6
OS-kerne 3.10.0-957.10.1
Luster-version 2.10.7
Mellanox OFED 4.5-1.0.1.0











 




Sekventiel ydeevne for IOzone 

Vi kørte sekventiel IOzone-version 3.487 med de klienter, der er anført i Tabel 2. Vi kørte test fra en enkelt tråd op til 256 tråde, med flere tråde pr. klient forbi 8 tråde. I henhold til testmetoden var den samlede datastørrelse for testen 2 TB.  For nederste trådtællinger, der er mindre end 32 tråde, blev der brugt et Lustre-stripe-tal på 32, og for trådtællinger, der er større end 32, blev Luster-stripetælling indstillet til 1.  Cachelagringseffekter blev minimeret som beskrevet i den tidligere blog.

Luster-klientsidejusteringsparametrene, der bruges til denne test, er angivet nedenfor 

lctl set_param osc.*.checksums=0
lctl set_param timeout=600
lctl set_param at_min=250
lctl set_param at_max=600
lctl set_param ldlm.namespaces.*.lru_size=2000
lctl set_param osc.*OST*.max_rpcs_in_flight=16
lctl set_param osc.*OST*.max_dirty_mb=1024
lctl set_param osc.*.max_pages_per_rpc=1024
lctl set_param llite.*.max_read_ahead_mb=1024
lctl set_param llite.*.max_read_ahead_per_ file_mb=1024



SLN317174_en_US__2image(10649)

Figur 2: Sekventielle N-N-skrivninger. En sammenligning af tidligere resultater med aktuelle resultater vha. Cascade Lake Lustre-servere og -klienter

SLN317174_en_US__3image(10650)

Figur 3: Sekventielle N-N-læsninger. En sammenligning af tidligere resultater med aktuelle resultater vha. Cascade Lake Lustre-servere og -klienter

Figur 2 og 3 viser IOzone sekventiel læse- og skriveydeevne for den nyeste Cascade Lake-baserede løsning og sammenligner disse resultater med den tidligere Skylake-baserede løsning. Når vi sammenligner med tidligere resultater, ser vi, at der er en forbedring af ydeevnen i sekventielle læsninger samt skrivninger med Cascade Lake-baserede klienter og Lustre-servere for de nederste trådtællinger under 32 tråde. Vi kan notere os en forbedring i ydeevnen op til lidt mere end 2 gange i sekventielle skrivninger samt læsninger ved nederste trådtællinger under 32 tråde. Vi mener, at denne ydelses delta kan henføres til hardwareafhjælpninger til sidekanaludnyttelser, der er inkluderet i Cascade Lake-processorer (ref link). Andre bidragende faktorer kan dog også være hurtigere hukommelse i den nye løsning og de opdaterede softwareversioner.  

Det kan også bemærkes, at den sekventielle ydeevne ved højere trådtællinger forbliver meget lig den forrige løsning. Dette skyldes, at forbedringerne i Cascade Lake-processorer ikke bidrager til yderligere opgradering af ydeevnen, når løsningen fungerer optimalt for backend-lagercontrollerne.



Tilfældig IOzone-ydeevne 

Vi kørte tilfældig IOzone, version 3.487, med de klienter, der er anført i Tabel 2. og kørte ydeevnekontroller med 16, 64 og 256 tråde. På samme måde som den forrige testmetode var den samlede datastørrelse 2 TB, og stripe-størrelsen var indstillet til 4 MB. Cachelagringseffekter blev minimeret som beskrevet i den tidligere blog.

Luster-klientsidejusteringsparametrene, der bruges til denne test, er angivet nedenfor   

lctl set_param osc.*OST*.max_rpcs_in_flight=256
lctl set_param osc.*.max_pages_per_rpc=1024

SLN317174_en_US__4image(10288)

Figur 4: IOzone Random N-N Reads.A sammenligning af tidligere resultater med aktuelle resultater vha. Cascade Lake Lustre-servere og klienter

Figur 4 viser resultaterne af de tilfældige I/O-test. Når vi sammenligner tidligere og aktuelle resultater, ser vi, at tendensen forbliver den samme, og den observerede ydelses delta er ikke statistisk signifikant baseret på kørsel for at køre variation.



Metadata MDtest-ydeevne

MDTest-værktøjsversion 1.9.3 blev brugt til at evaluere systemets metadataydeevne. Den anvendte MPI-distribution var Intel MPI. Testene blev kørt med DNE med 2 MDT'er og mappestriber. Testmetoden, den anvendte kommando og antallet af oprettede filer og mapper var identiske med det, der blev forklaret i den forrige blog. 

SLN317174_en_US__5image(10293)

Figur 5:   Metadatahandlinger med MDtest.   En sammenligning af tidligere resultater med aktuelle resultater vha. Cascade Lake Lustre-servere og -klienter

Figur 5 viser resultaterne af metadatatestene. Når de aktuelle resultater sammenlignes med tidligere, ser vi, at tendensen for alle tre metadatahandlinger er den samme. Vi kan bemærke en 75,4 % forbedring i maks. filoprettelseshandlinger, 18 % fald i maks. filfjernelseshandlinger og begrænsede ydeevne delta i filstatistikhandlinger.   Vi kan muligvis tilskrive ydeevne-deltaerne set til software- og hardwareopdateringerne på løsningsstakken som vist i tabel 1.
 

Konklusion

Vi har verificeret og valideret opdateringerne til Lustre Ready-løsningen med hensyn til konfiguration, installation og ydeevne. De indsamlede ydelsesdata er også inkluderet i denne blog.

Sammenligning af tidligere resultater med aktuelle resultater med Cascade Lake-baserede Luster-servere og klienter

1) sekventiel IO: Vi ser en forbedring i ydeevnen op til lidt mere end 2 gange med sekventielle skrivninger og sekventielle læsninger ved nederste trådtællinger under 32 tråde. Optimal ydeevne svarer til den tidligere Skylake-baserede løsning. 
2) Tilfældig IO: Vi kan se en meget lignende tendens inden for læse- og skriveydeevne med en ydelses delta, der ikke statistisk set er betydelig i betragtning af at køre variationen.
3) Metadata-ydeevnetests:  Vi ser en forbedring i filoprettelseshandlinger op til 75,4 % på det maksimale. Filstatistikhandlinger ligger meget tæt på de resultater, der tidligere blev observeret med lav ydelses delta. Vi ser omkring 18 % fald i filfjerneringshandlinger på spidsbelastningen, mens tendensen generelt for filfjerneringshandlinger forbliver den samme og deltalevetid for andre trådtællinger.  

Referencer

1) IOzone benchmark
2) Mdtest-benchmark

Article Properties


Affected Product

High Performance Computing Solution Resources

Last Published Date

19 Jan 2024

Version

6

Article Type

Solution