跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表
  • 使用“Company Administration”(公司管理),管理Dell EMC站点、产品和产品级联系人。

Úložná řešení Dell EMC HPC NFS – Konfigurace pro vysokou dostupnost (NSS7.4 – HA)

摘要: Tento blog popisuje úložné řešení Dell EMC HPC NFS verze 7.4 (NSS7.4-HA), které využívá škálovatelné procesory Intel Xeon druhé generace s kódovým označením „Cascade Lake“.

本文可能已自动翻译。如果您对其质量有任何反馈,请使用此页面底部的表单告知我们。

文章内容


症状

Článek napsali Nirmala Sundararajan a Mario Gallegos z oddělení Dell EMC HPC and AI Innovation Lab v červnu 2019.

原因

解决方案


Přehled řešení

Tento blog popisuje úložné řešení Dell EMC HPC NFS verze 7.4 (NSS7.4-HA), které využívá škálovatelné procesory Intel Xeon druhé generace s kódovým označením „Cascade Lake“.  Tyto vylepšené procesory Xeon jsou vybaveny až 28 jádry, až 38,5 MB mezipaměti poslední úrovně a šesti paměťovými kanály 2933 MT/s na socket.  Klíčové funkce kaskádových Lake procesorů jsou integrovaná rizika hardwaru proti útokům na bočních kanálech, podpora procesorů Intel DL (VNNI) a podpory pro zvýšení rychlosti a rychlosti paměti.

Funkce Cascade Lake a její předchůdce Skylake zahrnují funkci nazvanou ADDDC (adaptive Double dRAM device Correction). Funkce ADDDC je nasazena za běhu tak, aby dynamicky analyzovala nevyhovující zařízení DRAM a přitom stále poskytovala funkci Single Device Data Correction (SDDC), kód opravy chyb (ECC) paměti, což prodlouží životnost modulů DIMM. Tato funkce je aktivována pouze pro zařízení s pamětí DRAM x4 a u systémů s pamětí DRAM x8 se nijak neprojeví. Vzhledem k tomu, že nejnovější řešení NSS-HA verze 7.4 používá pouze 16 GB paměti, což je organizace x8, je možnost ADDDC zašedlá v systému BIOS a nelze ji aktivovat. Pokud však používáte paměť s pamětí 32 GB, která je X4, ADDDC bude k dispozici jako možnost Tunable a je doporučeno ji nastavit tak, aby nezpůsobila výkon prostřednictvím funkcí služby RAS.

Doporučujeme konfigurovat servery NFS pomocí profilu HPC, jak je popsáno v části "Popis systému BIOS pro procesory Intel Cascade Lake", což zahrnuje optimalizaci systému BIOS pro nastavení modulu dílčího NUMA clusteru, logického procesoru disabled a systémového profilu nastaveného na hodnotu Performance (výkon). Pokud upgradujete existující systém, ujistěte se nejprve, že je systém BIOS aktualizován na verzi, která podporuje procesory Cascade Lake, a teprve poté proveďte upgrade na procesory Cascade Lake. Technický tým HPC v oddělení HPC and AI Innovation Lab provedl řadu srovnávacích testů se servery NSS vybavenými procesory Cascade Lake a výsledky srovnal s těmi, které dříve získal z řešení NSS7.3-HA, které využívalo nejnovější verzi serverů PowerEdge vybavených předchozí generací „Skylake-SP“ procesorů řady Xeon. Výsledky srovnávacích testů a porovnání jsou uvedeny v tomto blogu.

Řešení úložiště NFS dodané společností Dell EMC je optimalizováno a vyladěno pro dosažení optimálního výkonu.  Při nastavování řešení NSS7.4-HA je třeba zmínit následující nejdůležitější body:
  1. Minimální podporovaný operační systém pro použití procesoru Cascade Lake je Red Hat Enterprise Linux 7.6. U verze jádra 3.10.0-957.el7 se však sdílení NFS zablokuje úlohou, například kworker, která vytíží procesor na 100 %. Hlavní příčinou problému je to, že se vrstva TCP nesynchronizuje se stavem přenosu vrstev sunrpc. Tento problém byl vyřešen v balíčku jádra 3.10.0-957.5.1.el7 nebo novějších. Základní operační systém používaný pro toto řešení je RHEL7.6 a použitá verze jádra je kernel-3.10.0-957.5.1.el7. Další informace naleznete na adrese https://access.redhat.com/solutions/3742871.
  2. U řešení NSS7.4-HA nelze spustit zdroj nfsserver, pokud nejsou nainstalovány následující balíčky, protože se nespustí služba nfs-idmapd. Podrobnosti najdete na adrese https://access.redhat.com/solutions/3746891.
    • resource-agents-4.1.1-12.el7_6.4
    • resource-agents-aliyun-4.1.1-12.el7_6.4
    • resource-agents-gcp-4.1.1-12.el7_6.4 nebo novější.
  3. Informace o vydání systému RHEL7.6 upozorňují na skutečnost, že chyba ve vrstvě I/O nástroje LVM způsobuje poškození dat v prvních 128 kB přiřaditelného prostoru fyzického svazku.  Problém byl vyřešen v balíčku lvm2-2.02.180-10.el7_6.2 a novějších.  Ujistěte se tedy, že je balíček lvm2 aktualizován na nejnovější verzi. Pokud nelze aktualizovat balíček lvm2, náhradním řešením je nepoužívat příkazy LVM, které mění metadata skupiny svazků, jako např. lvcreate nebo lvextend, když jsou logické svazky ve skupině svazků využívány.



Architektura NSS7.4-HA

Obrázek 1 znázorňuje konstrukci jednotky NSS7.4-HA. Kromě nezbytných aktualizací softwaru a firmwaru sdílejí zařízení NSS7.4-HA a NSS7.3-HA stejnou konfiguraci clusteru s vysokou dostupností a konfiguraci úložiště. Dvojice serverů NFS v konfiguraci vysoké dostupnosti aktivní-pasivní je připojena k zařízení PowerVault ME4084. Na každém serveru NFS jsou dvě karty SAS. Každá karta má kabel SAS ke každému řadiči ve sdíleném úložišti, takže selhání jedné karty SAS nebo kabelu SAS nemá vliv na dostupnost dat. (Podrobnější informace o konfiguraci naleznete v dokumentu whitepaper NSS7.3-HA.) Architektura NSS7.4-HA
SLN317325_en_US__1001
 

 

Porovnání komponent řešení NSS7.4-HA vs. NSS7.3-HA

I když řešení Dell NSS-HA obdržela od první verze řešení NSS-HA mnoho upgradů hardwaru a softwaru s cílem nabízet vyšší dostupnost, vyšší výkon a větší úložnou kapacitu, návrh architektury a pokyny pro nasazení řady řešení NSS-HA zůstávají beze změny. Tato nejnovější verze a dřívější verze, NSS7.3-HA, sdílejí stejný backendový systém úložiště, kterým je Power Vault ME4084. Následující tabulka poskytuje srovnání komponent nejnovějšího řešení NSS7.4-HA a dřívějšího řešení NSS7.3-HA.

 
Tabulka 1: Tabulka 1: Porovnání komponent řešení NSS7.4-HA vs. NSS7.3-HA 
Řešení Verze NSS7.4-HA (červen 2019) Verze NSS7.3-HA (říjen 2018)
Model serveru NFS 2x Dell EMC PowerEdge R740
Interní konektivita Gigabitový Ethernet pomocí přepínače Dell Networking S3048-ON
Subsystém úložiště Dell EMC PowerVault ME4084
84-3,5 "nl disky SAS, až 12TB.
Podporuje až 1008TB (RAW)
8 logických jednotek LUN, lineární 8 + 2 RAID 6, velikost bloku 128KiB.
4 globální náhradní disky HDD.
Připojení úložiště Připojení SAS s rychlostí 12 Gb/s.
Procesor 2x Intel Xeon Gold 6240 s frekvencí 2,6 GHz, 18 jader na procesor 2x Intel Xeon Gold 6136 s frekvencí 3,0 GHz, 12 jader na procesor
Paměť 12x 16GB moduly RDIMM 2 933 MT/s 12x 16GB moduly RDIMM 2 666 MT/s
Operační systém Red Hat Enterprise Linux 7.6 Red Hat Enterprise Linux 7.5
Verze jádra 3.10.0-957.5.1.el7.x86_64 3.10.0-862.el7.x86_64
Škálovatelný souborový systém Red Hat (XFS) v4.5.0-18 v4.5.0-15
Externí síťové připojení Mellanox ConnectX-5 InfiniBand EDR/100 GbE a 10 GbE Mellanox ConnectX-5 InfiniBand EDR a 10 GbE.
Pro blog NSS 7.3-haje použit Mellanox ConnectX – 4 IB EDR/100 gbes.
Verze systému OFED Mellanox OFED 4.5-1.0.1.0 Mellanox OFED 4.4-1.0.0


Ve zbývající části blogu budou uvedeny informace o výkonu testbedu a I/O řešení NSS7.4-HA. Pro srovnání výkonu mezi řešením NSS7.4-HA a předchozí verzí jsou uvedena také odpovídající čísla výkonnosti řešení NSS7.3-HA.

 



Konfigurace testbedu

Zde je popsán testbed, který byl použit k vyhodnocení výkonu a funkčnosti řešení NSS7.4-HA. Všimněte si, že procesory použité pro testování výkonu se liší od procesorů vybraných pro řešení, protože procesory Xeon Gold 6240 nebyly včas přijaty pro tento úkon. V plánu je opakovat některá testování, jakmile budou k dispozici procesory 6240, a podle potřeby tuto zprávu upravit.
 
Tabulka 2: NSS 7.4 – konfigurace hardwaru HA 
Konfigurace serveru
Model serveru NFS Dell PowerEdge R740
Procesor 2x procesor Intel Xeon Gold 6244 s frekvencí 3,6 GHz, každý s 8 jádry
Paměť 12x 16GB moduly RDIMM 2 933 MT/s
Místní disky a řadič RAID PERC H730P s pěti 300GB pevnými disky SAS s 15 000 ot./min. Dva disky jsou konfigurovány v poli RAID1 pro operační systém, dva disky jsou konfigurovány jako RAID0 pro odkládací prostor a pátý disk je náhradní jednotka pro skupinu disků RAID1.
Karta Mellanox EDR (slot 8) Karta Mellanox ConnectX-5 EDR
Karta Ethernet 1GbE (slot pro dceřinou kartu) Síťová dceřiná karta Broadcom 5720 QP 1 Gigabit Ethernet. Nebo Intel(R) Gigabit 4P I350-t rNDC
Řadič externího úložiště (slot 1 a slot 2) Dva adaptéry Dell 12Gb/s SAS HBA
Správa systému iDRAC9 Enterprise
Konfigurace úložiště
Skříň úložiště 1x skříň Dell PowerVault ME4084
Řadiče RAID Duplexní řadiče RAID ve skříni Dell ME4084
Pevné disky 84 – 10TB disky NL SAS 7 200 ot./min., celkem 84 x 10TB disk
Další komponenty
Privátní gigabitový Ethernetový přepínač Dell Networking S3048-ON
Jednotka PDU Dva spínané zdroje pro montáž do racku APC, model AP7921B


Tabulka 3: NSS 7.4 – verze softwaru serveru HA 
Komponenta Popis
Operační systém Red Hat Enterprise Linux (RHEL) 7.6 x86_64 errata
Verze jádra 3.10.0-957.5.1.el7.x86_64
Sada clusterů Red Hat Cluster Suite ze systému RHEL 7.6
Systém souborů Škálovatelný souborový systém Red Hat (XFS) 4.5.0-18.
Nástroj pro správu systému Dell OpenManage Server Administrator 9.3.0-3407_A00
  

Tabulka 4: NSS 7.4 – Konfigurace klienta HA 
Komponenta Popis
Servery 32 výpočetních uzlů Dell EMC PowerEdge C6420
CPU 2x procesor Intel Xeon Gold 6148 s frekvencí 2,4 GHz, 20 jader na procesor
Paměť 12x 16GB moduly RDIMM 2 666 MT/s
Operační systém Red Hat Enterprise Linux Server verze 7.6
Verze jádra 3.10.0-957.el7.x86_64
 Interconnect Mellanox InfiniBand EDR
Verze systému OFED 4.3-1.0.1.0
Firmware ConnectX-4 12.17.2052
 


Přehled výkonu I/O řešení NSS7.4-HA

V této části jsou uvedeny výsledky testů výkonu I/O pro aktuální řešení NSS7.4. Všechny testy výkonnosti byly provedeny ve scénáři bez poruchy, aby bylo možné změřit maximální kapacitu řešení. Testy se zaměřovaly na tři typy vzorů I/O: Velké sekvenční čtení a zápis, malé náhodné čtení a zápis a tři operace metadat (vytváření souborů, statistika a odstraňování). Podobně jako v předchozí verzi NSS 7.3, používá řešení termínové plánování 256 a/výstup a démony systému souborů NFS.

V konfiguraci 840TB (RAW Storage Size) byla provedena srovnávací služba IPoIB Network konektivita přes EDR. Pro generování zatížení srovnávacích testů byl použit výpočetní cluster s 32 uzly. Každý test byl spuštěn přes řadu klientů, aby bylo možné otestovat škálovatelnost řešení.

V této studii byly použity srovnávací testy IOzone a mdtest. Test IOzone byl použit pro sekvenční a náhodné testy. Pro sekvenční testy byla použita velikost požadavku 1024 KiB. Celkové množství přenesených dat byly 2 TB, aby bylo zajištěno, že mezipaměť serveru NFS byla saturována. Náhodné testy používaly velikost požadavku 4 KiB a každý klient si přečetl a zapsal 4GiB soubor. Testy metadat byly provedeny pomocí srovnávacího testu mdtest s knihovnou OpenMPI a zahrnují operace vytváření, statistiky a odstraňování souborů. (Úplné příkazy používané v testech najdete v Dodatku A v dokumentu whitepaper NSS7.3-HA.)

 

Sekvenční zápis IPoIB a čtení N-N

K vyhodnocení srovnávacího testu sekvenčního čtení a zápisu byl použit nástroj IOzone verze 3.487 v režimu sekvenčního čtení a zápisu. Tyto testy byly provedeny s několika počty vláken, počínaje jedním vláknem, které narůstaly o mocniny 2 až po 64 vláken. Při každém počtu vláken byl vygenerován stejný počet souborů, protože tento test funguje na jeden soubor na vlákno nebo na případ N-N. Byla vybrána agregovaná velikost souboru z 2 TB, která je rovnoměrně rozdělena mezi počet vláken v rámci dané zkoušky.

Obrázek 2 představuje srovnání vstupně-výstupního výkonu NSS 7.4 v/v s verzí NSS 7.3-HA. Z obrázku vyplývá, že nejnovější verze NSS7.4 a předchozí NSS7.3 mají podobný výkon ve špičce, s maximální rychlostí čtení ~ 7 GB/s a maximální rychlostí zápisu ~ 5 GB/s. U některých počtů vláken však v porovnání s řešením NSS7.3-HA bylo naměřeno snížení výkonu zápisu o 15–20 %. Nyní zjišťujeme příčinu tohoto rozdílu ve výkonu. Výkon čtení zaregistroval nárůst o téměř 45 % u 1 a 2 vláken a zvýšení o 18 % u 8 vláken. U počtů vláken vyšších než 8 je rychlost čtení podobná jako u řešení NSS7.3-HA. Zvýšení rychlosti čtení při nižším počtu vláken je pravděpodobně způsobeno hardwarovými opatřeními v procesorech Cascade Lake proti útokům postranním kanálem. Velký sekvenční výkon I/O IPoIB

SLN317325_en_US__2image002 (3)


 

Náhodný zápis IPoIB a čtení N-N

Pro vyhodnocení výkonnosti náhodného IO byl použit nástroj IOzone verze 3.487 v náhodném režimu. Testy byly provedeny na vláknech od 1 do 64, po mocninách 2. Velikost záznamu byla 4 kB. Každý klient si přečetl nebo zapsal 4GiB soubor pro simulaci malých náhodných datových přístupů.  Vzhledem k tomu, že cluster obsahuje pouze uzly 32, byl k datovému bodu 64 v rámci klientů 32, kteří používají 2 vlákny, získán.

Obrázek 3 znázorňuje porovnání náhodného zápisu a NSS bodu 7.4, a to I/O ve srovnání s hodnotou NSS 7.3-HA. Z obrázku vyplývá, že zařízení NSS7.4 má obdobný výkon náhodného zápisu jako NSS7.3-HA, ~ 7300 IOPS.  U řešení NSS7.4-HA je u nižšího počtu 1 a 2 vláken výkon zápisu přibližně o 14 % nižší než u předchozí verze řešení, což se nyní prověřuje.  Výkon náhodného čtení se u řešení NSS7.4 plynule zvyšuje a dosahuje špičkového výkonu 16607 IOPS při 64 vláknech. V předchozí verzi (NSS7.3-HA) bylo dosaženo špičkového výkonu 28811 IOPS při 32 vláknech, což je o 42 % více než špičkový výkon náhodného čtení u řešení NSS7.4-HA. Náhodný výkon I/O IPoIB

SLN317325_en_US__303 (1)

 

Operace s metadaty IPoIB

Pro vyhodnocení výkonu metadat systému byl použit nástroj MDTest verze 1.9.3. Použitá distribuce MPI byla OpenMPI verze 1.10.7.  Testy metadat byly provedeny vytvořením 960 000 souborů pro počet vláken až do 32 a následným zvýšením počtu souborů, aby se otestovala škálovatelnost řešení, jak je uvedeno v tabulce 5. Testování metadat: Distribuce souborů a adresářů v rámci vláken 
Počet vláken Počet souborů v adresáři Počet adresářů ve vlákně Celkový počet souborů
1 3 000 320 960 000
2 3 000 160 960 000
4 3 000 80 960 000
8 3 000 40 960 000
16 3 000 20 960 000
32. 3 000 10 960 000
64 3 000 8 1 536 000
128 3 000 4 1 436 000
256 3 000 4 3 072 000
512 3 000 4 6 144 000


Obrázky 4, 5 a 6 zobrazují výsledky operací vytváření, resp. statistiky a odstraňování souborů. Vzhledem k tomu, že výpočetní cluster HPC má 32 výpočetních uzlů, každý klient v grafech níže provedl maximálně jedno vlákno na uzel až do počtu 32. Pro 64, 128, 256 a 512 klientů provádí každý uzel 2, 4, 8 nebo 16 simultánních operací.
Při vytváření souborů dochází ke 20% zlepšení výkonu až na 16 vláken a od 32 vláken dále je výkon obou verzí téměř totožný. 
Ujednání v rámci NSS 7.4 zaregistrované 10% zlepšení výkonu pro nižší počet vláken (1, 2, 8 a 16) a > 30% snížení výkonu při vyšších vláknech (od 64 vláken až po 512 vláken).
V důsledku toho došlo k odstranění operací o 14% výkonu až 64 klientů a snížení počtu vláken v rozmezí 128 256 a 512 na > 20%.

 
Obrázek 4: IPoIB File Create Performance
SLN317325_en_US__404 (1)


Obrázek 5: IPoIBá dataudávající výkon
SLN317325_en_US__505 (1)


Obrázek 6: IPoIB fie odstranění výkonu
SLN317325_en_US__606 (1)


 

Závěr

V následující tabulce je uveden přehled rozdílů ve výkonnosti mezi nejnovějším řešením NSS7.4 a NSS7.3.  Tabulka 5: Porovnání výkonu verzí NSS7.4 a NSS7.3 HA
Úložiště Dell EMC HPC NFS NSS7.4-HA NSS7.4 – HA NSS7.3-HA
Sekv. Vrcholná zapisování: snížení o 1,4% 4 834 MB/s 4 906 MB/s
Sekv. Maximální zatížení 1 MB: snížení o 0,7% 7 024 MB/s 7 073 MB/s
4KB zapisování do náhodného zápisu: snížení o 0,7% 7 290 IOPS 7 341 IOPS
4KB pro čtení náhodných čísel: snížení o 42% 16 607 IOPS 28 811 IOPS
Vytvořit provozní/druhou špičku: snížení o 1,1% 54 197 Op/s 54 795 Op/s
Provozní špička/sekunda: snížení o 35% 522 231 Op/s 808 317 Op/s
Demontujte provoz/druhou špičku: snížení o 35% 47 345 Op/s 73 320 Op/s


Z výše uvedených výsledků můžeme konstatovat, že aktuální řešení NSS7.4-HA poskytuje srovnatelný výkon s předchozím řešením NSS7.3-HA. Plánujeme spustit srovnávací testy na procesorech Xeon Gold 6240 s 18 jádry na procesor, abychom zjistili, zda snížení výkonu pro náhodné čtení a snížení výkonu při vyšším počtu vláken v operacích statistiky a odstraňování souborů souvisí s menším počtem jader v procesorech Xeon Gold 6244 (8 jader na procesor), které byly použity k porovnání výkonu řešení NSS7.4-HA.



Reference

Podrobné informace o řešeních NSS-HA naleznete v našich dokumentech whitepaper

 

文章属性


受影响的产品

High Performance Computing Solution Resources

上次发布日期

28 2月 2021

版本

4

文章类型

Solution