Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Řešení Dell EMC Ready pro vysokokapacitní úložiště HPC BeeGFS

Summary: Řešení Dell EMC Ready Solutions for HPC BeeGFS High Capacity Storage jsou plně podporovaná vysoce propustnostní úložné řešení pro systém souborů. Tato architektura zdůraznila výkon a řešení popsané zde představuje řešení úložného prostoru s velkou kapacitou. Tato dvě řešení pro BeeGFS se liší v souladu s cíly návrhu a případy použití. Vysoce výkonné řešení je navrženo jako pomocné úložné řešení, což je fázování pro přechodné datové sady, které obvykle nejsou delší než doba životnosti úlohy. Řešení High Capacity (vysokokapacitní) používá 4x Dell EMC PowerVault ME4084 s celkovým objemem 336 disků a poskytuje nezpracované kapacity 4 PB, jsou-li vybaveny disky SAS 12 TB. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Tento článek byl napsán v laboratoři Nirmala Sundararajan, HPC a AI, duben 2020

Cause


Obsah:

  1. Úvod
  2. Referenční architektura řešení
  3. Konfigurace hardwaru a softwaru
  4. Podrobnosti o konfiguraci řešení
  5. Vyhodnocení výkonu
  6. Závěr a budoucí práce

 

Úvod

Řešení Dell EMC Ready Solutions for HPC BeeGFS High Capacity Storage jsou plně podporovaná vysoce propustnostní úložné řešení pro systém souborů. Tento blog popisuje architekturu řešení, způsob, jakým je vyladěn pro výkon HPC, a předkládá výkon I/O pomocí IOZone sekvenčních i náhodných srovnávacích testů. Řešení úložiště BeeGFS s vysoce výkonným systémem postavené na zařízeních NVMe bylo popsáno v tomto blogu v průběhu 2019. listopadu. Tato architektura zdůraznila výkon a řešení popsané zde představuje řešení úložného prostoru s velkou kapacitou.  Tato dvě řešení pro BeeGFS se liší v souladu s cíly návrhu a případy použití.  Vysoce výkonné řešení je navrženo jako pomocné úložné řešení, což je fázování pro přechodné datové sady, které obvykle nejsou delší než doba životnosti úlohy. Řešení High Capacity (vysokokapacitní) používá 4x Dell EMC PowerVault ME4084 s celkovým objemem 336 disků a poskytuje nezpracované kapacity 4 PB, jsou-li vybaveny disky SAS 12 TB. 


Zpět na začátek


Resolution

Referenční architektura řešení

Řešení Dell EMC Ready Solution for HPC BeeGFS High Capacity obsahuje server pro správu, dvojici serverů metadat, dvojici serverů úložišť a souvisejících diskových polí. Řešení poskytuje úložiště, které využívá jediný obor názvů, ke kterému se snadno přistupuje pomocí výpočetních uzlů clusteru. Na následujícím obrázku je znázorněna referenční architektura řešení s těmito primárními součástmi:

  • Server pro správu
  • Dvojice serverů metadat s PowerVault ME4024 jako úložiště back-end
  • Pár úložišť Storage Server s diskem PowerVault ME4084 jako úložiště back-end

Obrázek 1 znázorňuje referenční architekturu řešení.

SLN320833_en_US__1image001

Obrázek 1: Řešení Dell EMC Ready Solution pro úložiště

HPC BeeGFS Na obrázku 1 je server správy, na kterém běží démon sledování BeeGFS, PowerEdge R640.   Dva servery metadat (MDS) jsou servery PowerEdge R740 v konfiguraci služby Active-Active High Availability.  Pár spojení ve službě MDS je připojen k poli 2U, PowerVault ME4024 s odkazy SAS 12 GB/s. Diskové pole ME4024 hostuje cíle metadat (MDTs). Další pár serverů PowerEdge R740, také v aktivní konfiguraci s možností zajištění vysoce dostupnosti, se používá jako Storage Servers (SS).  Tento pár SS je připojen ke čtyřem plně vyplněné diskové pole PowerVault ME4084 s využitím linek SAS 12 GB/s. Pole ME4084 podporují výběr 4 TB, 8 TB, 10 TB nebo 12 TB NL s disky pevných disků SAS 7,2 K ot./min. (pevné disky a hostiteli cílových úložišť (STs) pro systém souborů BeeGFS. Toto řešení používá Mellanox InfiniBand HDR100 pro datovou síť. Klienti a servery jsou připojeni k čelnímu krytu Mellanox 1U QM8790, který podporuje až 80 portů HDR100 pomocí kabelů rozdělovače HDR.


Zpět na začátek


 

Konfigurace hardwaru a softwaru

 

V následující tabulce jsou popsány hardwarové speficiations a verze softwaru ověřené pro dané řešení.

Server pro správu 1x Dell EMC PowerEdge R640
Servery metadat (MDS) 2x Dell EMC PowerEdge R740
Servery Storage Server (SS) 2x Dell EMC PowerEdge R740
Procesor Server pro správu: 2 x procesory Intel Xeon Gold 5218, 2,3 GHz, 16 jader
MDS a SS: 2x Intel Xeon Gold 6230, 60, 2,10 GHz, 20 jader
Paměť Server pro správu: 12 × 8 GB/s DDR4 2 666 MT/s DIMMs – 96GB
MDS a SS: 12 portů 32 GB DDR4 2 933 MT/s DIMM – 384GB
InfiniBand HCA (slot 8) 1x Mellanox ConnectX-6 Single port HDR100 Adapter na konektor a SS.
Externí řadiče úložiště 2x Dell 12Gbps SAS HBA (na každé službě MDS)
4x Dell 12GBPS SAS HBA (na každé SS)
Skříň pro úložiště dat 4.4x Diskové skříně PowerVault ME4084 Dell EMC plně vyplněné s celkovým počtem 336 disků
2,69 PB surové úložné kapacity, pokud jsou vybaveny disky 8TB SAS v 4x ME4084
Skříň úložišť metadat 1x Dell EMC PowerVault ME4024, plně vyplněný s 24 disky
Řadiče RAID Duplexní řadiče pole RAID v skříních ME4084 a ME4024
Pevné disky 84-8TB 7200 ot./min SAS3 Drives per ME4084 skříni
24-960GB SAS3 disků SSD na ME4024 skříň
Operační systém CentOS Linux Release 8.1.1911 (základní)
Verze jádra 4.18.0-147.5.1. el8 _1. x86_64
Mellanox OFED verze 4.7 – 3.2.9.0
Grafana 6.6.2-1
InfluxDB 1.7.10-1
BeeGFS FILE SYSTEM 7,2 beta2

Tabulka 1: Konfigurace testbedu

Poznámka: Pro účely popisu výkonnosti byl použit BeeGFS verze 7,2 beta2.


Zpět na začátek


 

Podrobnosti o konfiguraci řešení

 

Architektura BeeGFS se skládá ze čtyř hlavních služeb:

  1. Služby správy
  2. Služby metadat
  3. Služba úložiště
  4. Klientská služba

K dispozici je také volitelná služba sledování BeeGFS.

Výjimkou je služba klienta, která je modulem jádra, Správa, metadata a služby úložiště jsou procesy uživatelských prostorů. Je možné spustit libovolnou kombinaci BeeGFSch služeb (klientských a serverových komponent) společně se stejnými počítači. Je rovněž možné spustit více instancí jakékoli služby BeeGFS v jednom počítači. V konfiguraci Dell EMC High Capacity BeeGFS se na serveru správy spouští monitorovací služba, více instancí služby metadat se spouští na serverech metadat a na jedné instanci služby Storage se spouští na serverech úložišť. Na serverech metadat je nainstalována služba správy.  

Monitorovací služba

Služba sledování BeeGFS (BeeGFS-Mon. Service) shromažďuje statistiky společnosti BeeGFS a poskytuje je uživateli pomocí databáze časové řady InfluxDB.   V případě vizualizace dat beegfs-Mon-grafana obsahuje předdefinované grafana řídicí panely, které lze použít v krabici. Obrázek 2 obsahuje obecný přehled BeeGFS clusteru, který ukazuje počet úložných služeb a metadat v nastavení (v řídicím panelu). Obsahuje také seznam dalších dostupných zobrazení řídicího panelu a poskytuje přehled cílových úložišť.

SLN320833_en_US__2image002 (1)

Obrázek 2 Grafana tabule – přehled BeeGFS


Zpět na začátek


 

Služby metadat

Diskové pole ME4024 použité pro úložiště metadat je plně naplněno 24rychlostní 960GB disků SSD. Tyto disky jsou konfigurovány ve 12 portůch lineárních skupinách RAID1 diskù dvou jednotek, jak ukazuje obrázek 3. Každá skupina RAID1 je cílem metadat.

SLN320833_en_US__3image003

Obrázek 3. plně naplněná pole ME4024 s 12 MDTs

Každá služba metadat v rámci BeeGFS zpracovává pouze jeden MDT. Vzhledem k tomu, že existuje 12 MDTs, musí existovat 12 instancí služby metadat. Oba servery metadat zaprovozují šest instancí služby metadat. Cíle metadat jsou formátovány pomocí souborového systému ext4 (systémy souborů ext4 jsou dobře prováděny s malými a malými souborovými operacemi.). Kromě toho BeeGFS ukládá informace v rozšířených atributech a přímo na inodes systému souborů a optimalizuje tak výkon, přičemž obě pracují dobře se systémem souborů ext4.

Zpět nahoru


 

Služby správy

Služba Správa beegfs je nastavena na obou serverech metadat. Beegfs modulované úložiště je inicializováno v adresáři se systémem správy metadat 1, jak je uvedeno níže:

/opt/beegfs/sbin/beegfs-Setup-mgmtd-p/beegfs/metaA-numa0-1/mgmtd-S beegfs – pro správu

Služba správy je spuštěna na serveru meta.
 

Zpět na začátek


 

Služba úložiště

V tomto řešení BeeGFS s velkou kapacitou se úložiště dat nachází napříč čtyřmi paměťovými poli PowerVault ME4084. Ve všech maticích jsou vytvářeny lineární diskové skupiny RAID-6 s 10 disky (8 + 2). Pro každou skupinu disků se vytvoří jediný svazek s využitím veškerého prostoru. Výsledkem bude 8 diskových skupin/svazků na pole. Každé pole má 84 disky a vytváření skupin disků s 8 x RAID-6 opustí 4 disky, které lze konfigurovat jako globální náhradní díly v jednotlivých diskových svazcích.

S výše popsaným rozložením je celkový objem 32 x RAID-6 v rámci základní konfigurace znázorněný na obrázku 1. ME4084. Všechny tyto svazky RAID-6 jsou nakonfigurovány jako cíl úložiště (ST) pro systém souborů BeeGFS, což bude mít za následek celkem 32 STs v rámci systému souborů.

Každé pole ME4084 má 84 disky s jednotkami číslovanými 0-41 v horním zásuvce a s číslem 42-84 v dolním zásuvce.  Na obrázku 5, každý soubor 10 jednotek označený 1 a 8 představuje 8xRAID6 skupinu. Jeden svazek je vytvářen z každé skupiny RAID6. Disky označené "S" představují globální náhradníky. Obrázek 5 znázorňuje přední pohled na pole po konfiguraci 8 svazků a 4 globálních náhradních dílů.

SLN320833_en_US__4image004

Obrázek 4 rozložení diskového skupiny RAID 6 (8 + 2) na jedné ME4084 


Zpět na začátek


 

Klientská služba

Modul BeeGFS Client je zaveden na všech hostitelích, kteří potřebují přístup k systému souborů BeeGFS. Když je zaveden modul BeeGFS a je spuštěna Služba BeeGFS-Client , služba namontuje systémy souborů definované v souboru/etc/BeeGFS/beegfs-Mounts. conf namísto obvyklých přístupů založených na /etc/fstab.  Díky tomuto přístupu se beegfs-Client spouští jako jakákoli jiná služba Linux prostřednictvím spouštěcího skriptu služby a slouží k automatickému rekompilaci modulu klienta beegfs po aktualizacích systému..


Zpět na začátek


 

Vyhodnocení výkonu

 

V této části jsou uvedeny výkonnostní charakteristiky řešení Dell EMC Ready Solutions pro úložiště HPC BeeGFS High Capacity s využitím sekvenčních a náhodných srovnávacích testů IOzone.  Chcete-li získat další informace o výkonu pomocí IOR a MDtest a podrobnosti o konfiguraci vyšší dostupnosti, hledejte dokument White Paper, který bude publikován později.

Výkon úložiště byl vyhodnocen pomocí IOzone srovnávacího testu (v 3.487). Byla naměřena průběžná propustnost čtení a zápisu a náhodný čtení a zápis. V tabulce 2 je uveden popis konfigurace serverů R840 PowerEdge, které se používají jako klienti BeeGFS pro tyto studie výkonu.

Klienty 8x Dell EMC PowerEdge R840
Procesor 4 x Intel (R) Xeon (R) Platinum 8260 CPU @ 2,40 GHz, 24 jader
Paměť 24 x 16 GB DDR4 2 933 MT/s DIMM – 384GB
Operační systém Red Hat Enterprise Linux Server verze 7.4 (Maipo)
Verze jádra 3.10.0-957.el7.x86_64
Interconnect 1x Mellanox ConnectX – 6 Single port HDR100 Adapter
Verze systému OFED 4.7 – 3.2.9.0

Konfigurace klienta tabulky 2

Servery a klienti jsou připojeni přes HDR100 síť a podrobnosti o síti uvedené v tabulce 3 níže:  

Přepínač InfiniBand QM8790 Mellanox "dolního doby záhlaví HDR-IU with 80x 100 100Gb/s s porty (pomocí rozdělovacích kabelů)
Přepínač pro správu Dell Networking S3048-ON SFP Switch-1U s 48x 1GbE, 4 porty SFP + 10GbE

Tabulka 3: Sítí
 

Zpět na začátek

 


 

Sekvenční čtení a zápis N-N

Sekvenční čtení a zápisy byly měřeny pomocí sekvenčního režimu čtení a zápisu v IOzone. Tyto testy byly provedeny s několika počty vláken, počínaje jedním vláknem, které narůstaly o mocniny 2 až po 64 vláken. Při každém počtu vláken byl vygenerován stejný počet souborů, protože tento test funguje na jeden soubor na vlákno nebo na případ N-N. Procesy byly distribuovány v průběhu 8 fyzických klientských uzlů v podobě kruhového dotazování tak, že požadavky byly stejně distribuované s vyrovnáváním zatížení.

V případě počtu vláken, které se nacházejí v rozmezí 16 a výše, byl vybrán souhrnný soubor 8TB a minimalizuje tak vliv ukládání do mezipaměti ze serverů a z klientů BeeGFS. V případě níže uvedených počtu vláken je velikost souboru 768 GB na vlákno (tj. 1,5 TB pro 2 podprocesy, 3 TB pro 4 podprocesy a 6 TB pro 8 vláken). V rámci jakéhokoli daného testu byl použit objem celkové velikosti souboru rovnoměrně rozdělený z počtu vláken. Pro všechny běhy byla použita velikost záznamu 1MiB. Příkaz, který se používá pro sekvenční testy N-N, je uveden níže:

Sekvenční zápisy a přečtení: IOzone-i $test-c-e-w-r 1m-s $Size-t $Thread-+ n-+ m/path/to/threadlist


Mezipaměti operačního systému byly také vypuštěny na servery mezi iteracemi, stejně jako mezi testy zápisu a čtení, a to spustíte příkazem:

# Sync & & echo 3 >/proc/sys/VM/drop_caches


Systém souborů byl odpojen a znovu připojen k počítači mezi iteracemi a mezi testy zápisu a čtení, které vyprázdní mezipaměť.

 

SLN320833_en_US__5image005

Obrázek 5: Výkon sekvenčního čtení N-N

Na obrázku 5 je dosažena maximální propustnost 23,70 GB/s v 256 vláknech a maximální snížení hodnoty 22,07 GB/s dosahuje na 512 vláknech. Výkon při zápisu jednoho vlákna je 623 MB/s a přečteno je 717 MB/s. Výkon se zmenší téměř lineárně až 32 vlákny. Po tomto zobrazení se dozvíme, že čte a zapisuje sytost na sebe. To nám přináší pochopení, že celkový trvalý výkon této konfigurace pro čtení je ≈ 23GB/s a že pro zápisy je ≈ 22GB/s s špičkami, jak je uvedeno výše. Čtení jsou velmi blízko nebo mírně vyšší než zapisování, nezávisle na počtu použitých vláken.


Zpět na začátek


 

Random čte a zapisuje N-N

IOzone byl použit v náhodném režimu k vyhodnocení výkonu náhodného IO.  Testy byly provedeny na počtu vláken od 16 do 512 vláken.  Přímá vstupně-výstupní možnost (-I) byla použita ke spuštění IOzone tak, aby všechny operace vycházely s vyrovnávací pamětí a přešel přímo na disk. Byl použit počet BeeGFS s prokládaným 1 a velikostí bloku v MB. Velikost žádosti byla nastavena na 4KiB. Výkon byl měřen v rámci vstupně-výstupních operací za sekundu (IOPS). Do mezipamětí operačního systému dojde mezi spuštěním na serverech BeeGFS. Systém souborů byl na klientech odpojen a znovu připojen k počítači mezi opakováními testu. Příkaz, který se používá k náhodným testům čtení a zápisu, je následující:

IOzone-i 2-w-c-O-I-r 4K-s $Size-t $Thread-+ n-+ m/path/to/threadlist

SLN320833_en_US__6image006

Obrázek 6– náhodný výkon (n-n )

Obrázek 6 ukazuje, že rychlost zápisu dosáhne 31K IOPS a zůstává stabilní z 32 vláken až po 512 vláken. Naproti tomu se rychlost čtení zvyšuje s nárůstem počtu vstupně-výstupních požadavků s maximálním výkonem okolo 47K IOPS v 512 vláknech, což je maximální počet vláken testovaných v rámci řešení. ME4 vyžaduje vyšší hloubku fronty, aby bylo dosaženo maximálního výkonu čtení a graf ukazuje, že při spuštění souběžných vláken 1024 můžeme dosáhnout vyššího výkonu. Avšak během testů, které byly spuštěny pouze s 8 klienty, nemáme k dispozici dostatek jader ke spuštění počtu vláken 1024.


Zpět nahoru


 

Použité parametry ladění

Při provádění výkonnostního popisu řešení byly zavedeny následující parametry ladění.

Výchozí počet prokládaných svazků pro BeeGFS je 4. Velikost bloku a počet cílů na soubor (počet Stipe) je však možné konfigurovat pro jednotlivé adresáře nebo soubory zvlášť. U všech těchto testů byl nastaven formát BeeGFS prokládání podle hodnoty 1 MB a počet prokládaných svazků byl nastaven následovně:

$beegfs-CTL--getentryinfo--Mount =/mnt/beegfs//mnt/beegfs/benchmark/--verbose
Typ položky: položka
EntryID: 1-5E72FAD3-1
ParentID: kořenový
uzel metadat: metau-numa0-1 [ID: 1]
Podrobnosti o prokládaném vzorku:
+ Typ: RAID0
+ ChunkSize: 1m
+ Počet cílových úložných prostor: požadované: 1
+ Fond úložišť: 1 (výchozí)
inode cesta algoritmu hash: 61/4C/1-5E72FAD3-1

Průhledné velké stránky byly deaktivovány a následující nastavení virtuální paměti, které je nakonfigurováno na serverech metadat a Storage:

  • vm.dirty_background_ratio = 5
  • vm.dirty_ratio = 20
  • vm.min_free_kbytes = 262144
  • vm.vfs_cache_pressure = 50

Následující možnosti ladění byly použity pro zařízení blokování úložiště na serverech úložišť.

  • Termín plánovače IO: konečný termín
  • Počet požadavků schedulable: 2048:
  • Maximální objem dat Readme: 4096

Kromě výše uvedených BeeGFS byly použity následující specifické možnosti ladění:
 
beegfs – meta. conf

connMaxInternodeNum = 64
tuneNumWorkers = 12

tuneUsePerUserMsgQueues = true # volitelný
tuneTargetChooser = RoundRobin (srovnávací)

beegfs-Storage. conf

connMaxInternodeNum = 64
tuneNumWorkers = 12
tuneUsePerTargetWorkers = true
tuneUsePerUserMsgQueues = true # volitelný
tuneBindToNumaZone = 0
tuneFileReadAheadSize = 2 MB

beegfs – Client. conf

connMaxInternodeNum = 24
connBufSize = 720896


Zpět na začátek


 

Závěr a budoucí práce

 

Tento blog oznamuje uvolnění úložného řešení Dell EMC BeeGFS s velkou kapacitou a zvýrazňuje jeho výkonnostní charakteristiky. Toto řešení poskytuje špičkový výkon 23,7 GB/s pro čtení a 22,1 GB/s pro zápisy pomocí sekvenčních srovnávacích testů IOzone. Také se zobrazuje vrchol pseudonáhodných zapisování v 31.3 K IOPS a náhodným čtením v 47.5 K.

V rámci následujících kroků se chystáme zhodnotit výkonnost a vlákna N vláken na jediný soubor (N až 1) IOR výkon tohoto řešení. Dokument White Paper, který popisuje metadata a IOR výkonnost řešení s dodatečnými podrobnostmi o aspektech návrhu pro toto řešení s velkou kapacitou, se očekává, že bude zveřejněn po dokončení ověření a procesu hodnocení.


Zpět na začátek


Article Properties


Affected Product

High Performance Computing Solution Resources

Last Published Date

27 Apr 2021

Version

5

Article Type

Solution