Řešení Dell Ready pro úložiště HPC Lustre: Obnova Cascade Lake
Summary: Řešení Dell Ready pro úložiště HPC Lustre: Obnova Cascade Lake
Symptoms
Článek napsal Jyothi Jadeskar z oddělení HPC and AI Innovation Lab v červnu 2019.
Cause
Resolution
Schéma architektury pro konfiguraci Large Base je znázorněno níže na obrázku 1.
Upozorňujeme, že modely serverů a úložišť zůstávají stejné jako dříve. V tabulce 1 jsou uvedeny pouze nové aktualizace.
Obrázek 1: Řešení Dell Ready pro úložiště HPC Lustre: Diagram architektury základní konfigurace L
Tabulka 1: Aktualizované technické údaje řešení Ready Solution for Lustre a rychlé srovnání s předchozí verzí
| Hardwarová/softwarová komponenta | Aktuální | Zpět |
|---|---|---|
| Procesory v operačním systému OSS a serveru MDSObject Storage Server (OSS) a metadata (MDS) | 2x procesor Intel Xeon™ Gold 6230 s 20 jádry na frekvenci 2,10 GHz na jeden systém OSS/MDS | 2x procesor Intel Xeon™ Gold 6136 se 12 jádry na frekvenci 3,00 GHz |
| Procesor v serveru Integrated Manager for Lustre (IML) | 2x procesor Intel Xeon Gold 5218 s 16 jádry na frekvenci 2,3 GHz | 2x procesor Intel Xeon Gold 5118 se 12 jádry na frekvenci 2,3 GHz |
| Paměťové moduly DIMM v operačním systému a mds | 12 x 32 GB paměti 2 933 MT/s DDR4 RDIMM | 24 x 16 GB paměti 2 666 MT/s DDR4 RDIMM |
| Paměťové moduly DIMM v serveru IML | 12 x 8 GB paměti 2 666 MT/s DDR4 RDIMM | 12 x 8 GB paměti 2 666 MT/s DDR4 RDIMM |
| BIOS | 2.1.8 nebo novější | 1.4.5 nebo novější |
| Jádro operačního systému | 3.10.0-957.1.3 | 3.10.0-862 |
| Verze Lustre | 2.10.7 | 2.10.4 |
| Verze IML | 4.0.10.0 | 4.0.7.0 |
| Mellanox OFED versi | 4.5-1.0.1.0 | 4.4-1 |
Výsledky výkonu
Nakonfigurovali jsme aktualizované řešení Ready Solution, jak je uvedeno v tabulce 1, a spustili kontroly výkonu se sekvencemi IOzone, náhodnými srovnávacími testy IOzone a MDtest, které ověřily výkon aktualizovaného řešení. Testovací metodologie včetně příkazů srovnávacího testu pro všechny testy byla shodná s použitou a výše popsanou metodou.
Ke všem testům jsme použili testbed klienta, jak je popsáno v tabulce 2 níže.
Tabulka 2: Testbed klienta
| Počet klientských uzlů | 8 |
|---|---|
| Uzel klienta | C6420 |
| Procesory na uzel klienta | 2x procesor Intel(R) Xeon(R) Gold 6248 s 20 jádry na frekvenci 2,50 GHz |
| Paměť na uzel klienta | 12x 16GB moduly RDIMM 2 933 MT/s |
| BIOS | 2.2.6 |
| Jádro operačního systému | 3.10.0-957.10.1 |
| Verze Lustre | 2.10.7 |
| Mellanox OFED | 4.5-1.0.1.0 |
Sekvenční výkon IOzone
Pomocí klientů uvedených v tabulce 2 jsme spustili sekvenční verzi IOzone verze 3.487. Spustili jsme testy z jednoho vlákna až do 256 vláken, s více vlákny na jednoho klienta po 8 vláknech. Agregovaná velikost dat pro test byla podle testovací metody 2 TB. U nižších počtů vláken menších než 32 vláken byl použit počet prokládání Lustre 32 a pro počty vláken větších než 32 byl počet prokládání Lustre nastaven na 1. Efekty ukládání do mezipaměti byly minimalizovány podle popisu v předchozím blogu.
Níže jsou uvedeny parametry ladění na straně klienta Lustre použité pro tento test.
lctl set_param osc.*.checksums=0
lctl set_param timeout=600
lctl set_param at_min=250
lctl set_param at_max=600
lctl set_param ldlm.namespaces.*.lru_size=2000
lctl set_param osc.*OST*.max_rpcs_in_flight=16
lctl set_param osc.*OST*.max_dirty_mb=1024
lctl set_param osc.*.max_pages_per_rpc=1024
lctl set_param llite.*.max_read_ahead_mb=1024
lctl set_param llite.*.max_read_ahead_per_ file_mb = 1024
Obrázek 2: Sekvenční zápis N-N. Srovnání předchozích výsledků s aktuálními výsledky pomocí serverů a klientů
Cascade Lake LustreObrázek 3: Sekvenční čtení N-N. Srovnání předchozích výsledků s aktuálními výsledky pomocí serverů a klientů
Cascade Lake LustreObrázky 2 a 3 představují výkon sekvenčního čtení a zápisu IOzone v nejnovějším řešení založeném na procesorech Cascade Lake a porovnávají tyto výsledky s předchozím řešením založeným na procesoru Skylake. Při porovnání s předchozími výsledky dochází ke zlepšení výkonu v sekvenčních čteních a zápisech s klienty na bázi Cascade Lake a servery Lustre pro nižší počet vláken do 32 vláken. Je možné zaznamenat až dvounásobné zlepšení výkonu v sekvenčních zápisech a také čtení při nižších počtech vláken pod 32 vláken. Věříme, že tento systém delta výkonu lze připsat omezení hardwaru pro zneužití postranním kanálem obsaženým v procesorech Cascade Lake (ref link). Další faktory, které přispívají k příspěvku, však mohou být v novém řešení také rychlejší pamětí a aktualizovanými verzemi softwaru.
Je také možné si uvědomit, že sekvenční výkon při vyšších počtech vláken zůstává velmi podobný předchozímu řešení. Je to proto, že vylepšení procesorů Cascade Lake nepřispívají k navýšení výkonu, jakmile řešení funguje naplno na potenciálu backendových řadičů úložiště.
Náhodný výkon IOzone
Pomocí klientů uvedených v tabulce 2 jsme spustili náhodný software IOzone verze 3.487. a spustil kontroly výkonu s 16, 64 a 256 vlákny. Podobně jako u předchozí testovací metody byla agregovaná velikost dat 2 TB a velikost prokládání byla nastavena na 4 MB. Efekty ukládání do mezipaměti byly minimalizovány podle popisu v předchozím blogu.
Níže jsou uvedeny parametry ladění na straně klienta Lustre použité pro tento test.
lctl set_param osc.*OST*.max_rpcs_in_flight=256
lctl set_param osc.*.max_pages_per_rpc=1024
Obrázek 4: IOzone Random N-N Reads. Srovnání předchozích výsledků s aktuálními výsledky pomocí serverů a klientů
Cascade Lake LustreObrázek 4 znázorňuje výsledky náhodných testů I/O. Při porovnání předchozích a aktuálních výsledků vidíme, že trend zůstává stejný a pozorovaný výkon delta není statisticky významný na základě odchylky při spuštění.
Výkon testu MDtest metadat
K vyhodnocení výkonu metadat systému byl použit nástroj MDTest verze 1.9.3. Použitá distribuce MPI byla Intel MPI. Testy byly spuštěny pomocí dne se 2 funkcemi MDT a prokládáním adresáře. Metodologie testování, použitý příkaz a počet vytvořených souborů a adresářů se shodovaly s tím, co bylo vysvětleno v předchozím blogu.
Obrázek 5: Operace metadat s nástrojem MDtest. Srovnání předchozích výsledků s aktuálními výsledky pomocí serverů a klientů
Cascade Lake LustreObrázek 5 obsahuje výsledky testů metadat. Při porovnání aktuálních výsledků s předchozími výsledky vidíme, že trend u všech tří operací metadat zůstává stejný. Můžeme si všimnout 75,4% zlepšení operací špičkového vytváření souborů, 18% operací odstraňování souborů ve špičce a nepatrného výkonu delta v operacích statistiky souborů. Jak je uvedeno v tabulce 1, je možné přiřadit delta výkonu aktualizací softwaru a hardwaru ve stohu řešení.
Závěr
S ohledem na konfiguraci, instalaci a výkon jsme ověřili a ověřili aktualizace řešení Lustre Ready Solution. Tento blog obsahuje také shromážděná data o výkonu.
Porovnání předchozích výsledků s aktuálními výsledky se servery a klienty Lustre a klienty
na bázi Cascade Lake 1) Sekvenční IO: S sekvenčním zápisem a sekvenčním čtením při nižších počtech vláken do 32 vláken vidíme až dvakrát lepší výkon. Špičkový výkon je i nadále podobný předchozímu řešení založenému na procesorech Skylake.
2) Náhodné IO: Vidíme velmi podobný trend ve výkonu čtení a zápisu s rozdílem výkonu, který není statisticky významný, vzhledem k tomu, že spuštění je variaci.
3) Testy výkonu metadat: Došlo ke zlepšení operací vytváření souborů až o 75,4 %. Operace statistiky souborů zůstávají velmi blízko výsledkům, které byly dříve pozorovány se zanedbatelným výkonem delta. Vidíme, že přibližně 18 % operací odstranění souborů je ve špičce, zatímco obecný trend operací odstraňování souborů zůstává u ostatních počtů vláken stejný a zanedbáváelný delta.
Reference
1) Srovnávací testIOzone 2) Srovnávací test Mdtest