Zu den Hauptinhalten
  • Bestellungen schnell und einfach aufgeben
  • Bestellungen anzeigen und den Versandstatus verfolgen
  • Profitieren Sie von exklusiven Prämien und Rabatten für Mitglieder
  • Erstellen Sie eine Liste Ihrer Produkte, auf die Sie jederzeit zugreifen können.
  • Verwalten Sie mit der Unternehmensverwaltung Ihre Dell EMC Seiten, Produkte und produktspezifischen Kontakte.

Řešení Dell EMC Ready pro vysokovýkonnostní úložiště HPC BeeGFS

Zusammenfassung: PowerEdge R740xd, PowerEdge R640, PowerSwitch S3048-ON, Mellanox SB7890, BeeGFS v7.1.3, HPC and AI Innovation Lab, HPC, řešení vysoce výkonného úložiště BeeGFS, IOzone, rychlost sekvenčního čtení a zápisu, rychlost náhodného čtení a zápisu ...

Dieser Artikel wurde möglicherweise automatisch übersetzt. Wenn Sie eine Rückmeldung bezüglich dessen Qualität geben möchten, teilen Sie uns diese über das Formular unten auf dieser Seite mit.

Artikelinhalt


Symptome

Článek napsal(a) Nirmala Sundararajan z oddělení Dell EMC HPC and AI Innovation Lab v listopadu 2019.

Ursache

Řešení Dell EMC Ready pro vysokovýkonnostní úložiště HPC BeeGFS

Lösung

Obsah

  1. Úvod
  2. Referenční architektura řešení
  3. Konfigurace hardwaru a softwaru
  4. Podrobnosti o konfiguraci řešení
  5. R740xd – 24 disků NVMe, podrobnosti o mapování procesoru
  6. Charakteristika výkonu
  7. Závěr a budoucí práce
     

Úvod

Tým HPC společnosti Dell EMC s hrdostí oznamuje vydání řešení Dell EMC Ready pro úložiště HPC BeeGFS, které představuje nejnovější přírůstek do portfolia úložišť HPC. Toto řešení využívá servery R740xd, každý s 24 disky Intel P4600 1,6 TB NVMe, Mixed Use Express Flash a dvěma adaptéry Mellanox ConnectX-5 InfiniBand EDR. V této konfiguraci s 24 disky NVMe se 12 disků NVMe SSD připojuje k přepínači PCIe a každý přepínač je připojen k jednomu procesoru prostřednictvím rozšiřující karty PCIe x16. Kromě toho je každé rozhraní IB připojeno k jednomu procesoru. Taková vyvážená konfigurace, ve které je každý procesor připojen k jednomu adaptéru InfiniBand a spravuje 12 disků NVMe SSD, poskytuje maximální výkon, jelikož zajišťuje, aby procesory byly při zpracování požadavků I/O na disky NVMe i z nich stejně zatíženy.

Cílem řešení je vysoký výkon operací I/O, protože bylo navrženo jako vysokorychlostní úložiště dočasných dat.  Jádrem řešení jsou vysokorychlostní disky NVMe SSD, které nabízejí velmi vysokou šířku pásma a nízkou latenci díky odstranění plánovače a omezení výkonu ve frontě z vrstvy bloku. Systém souborů BeeGFS také podporuje vysokou propustnost agregovaného I/O.

Referenční architektura řešení

Obrázek 1 znázorňuje referenční architekturu řešení. Server pro správu je připojen pouze prostřednictvím ethernetového připojení k serverům metadat a úložným serverům. Každý server metadat a úložný server má dvě spojení InfiniBand a je připojen k soukromé síti prostřednictvím ethernetu. Klienti mají jedno spojení InfiniBand a jsou připojeni k soukromému rozhraní prostřednictvím ethernetu.
Řešení Dell EMC Ready pro úložiště HPC BeeGFS – referenční architektura
Obrázek 1:  Řešení Dell EMC Ready pro úložiště HPC BeeGFS – referenční architektura

Konfigurace hardwaru a softwaru

Tabulka 1 a 2 popisují specifikace hardwaru serveru pro správu a serveru metadat / úložného serveru. Tabulka 3 popisuje verze softwaru používané pro řešení.

 

Tabulka 1: Konfigurace serveru PowerEdge R640 (server pro správu)
Server Dell EMC PowerEdge R640
Procesor 2x Intel Xeon Gold 5218, 2,3 GHz, 16 jader
Paměť 12x 8GB moduly DIMM DDR4, 2 666 MT/s – 96 GB
Místní disky 6x 300GB 2,5" pevné disky SAS, 15 000 ot/min
Řadič RAID Integrovaný řadič RAID PERC H740P
Mimopásmová správa iDRAC9 Enterprise s nástrojem Lifecycle Controller
Napájecí zdroje Dva 1100W napájecí zdroje
Verze systému BIOS 2.2.11
Operační systém CentOS™ 7.6
Verze jádra 3.10.0-957.27.2.el7.x86_64

 

Tabulka 2: Konfigurace serveru PowerEdge R740xd (servery metadat a úložné servery)
Server Dell EMC PowerEdge R740xd
Procesor 2x Intel Xeon Platinum 8268, 2,9 GHz, 24 jader
Paměť 12x 32GB moduly DIMM DDR4, 2 933 MT/s – 384 GB
Karta BOSS 2x 240GB disk SSD M.2 SATA v konfiguraci RAID 1 pro operační systém
Místní disky 24x Dell Express Flash NVMe P4600 1,6 TB 2,5" U.2
Karta Mellanox EDR 2x karta Mellanox ConnectX-5 EDR (sloty 1 a 8)
Mimopásmová správa iDRAC9 Enterprise s nástrojem Lifecycle Controller
Napájecí zdroje Dva 2000W napájecí zdroje

 

Tabulka 3: Konfigurace softwaru (servery metadat a úložné servery)
BIOS 2.2.11
CPLD 1.1.3
Operační systém CentOS™ 7.6
Verze jádra 3.10.0-957.el7.x86_64
iDRAC 3.34.34.34
Nástroj pro správu systému OpenManage Server Administrator 9.3.0-3407_A00
Mellanox OFED 4.5-1.0.1.0
Disky NVMe SSD QDV1DP13
*Intel® Data Center Tool  3.0.19
BeeGFS 7.1.3
Grafana 6.3.2
InfluxDB 1.7.7
Benchmark IOzone 3.487
*Pro správu a aktualizaci firmwaru disků Intel P4600 NVMe SSD

Podrobnosti o konfiguraci řešení

Architektura BeeGFS se skládá ze čtyř hlavních služeb:
  • Služba správy
  • Služba metadat
  • Služba úložiště
  • Služba klienta
Kromě služby klienta, která je modulem jádra, představují služby správy, metadat a úložiště procesy v uživatelském prostoru. Obrázek 2 znázorňuje, jak je referenční architektura řešení Dell EMC Ready Solutions pro úložiště HPC BeeGFS mapovaná na obecnou architekturu systému souborů BeeGFS.
Systém souborů BeeGFS na serveru PowerEdge R740xd s disky NVMe SSD
Obrázek 2:  Systém souborů BeeGFS na serveru PowerEdge R740xd s disky NVMe SSD

Služba správy

Každý systém souborů nebo obor názvů BeeGFS má pouze jednu službu správy. Jako první je třeba nastavit službu správy, protože při konfiguraci všech ostatních služeb musí být zaregistrovány u služby správy.  Jako server pro správu se používá server PowerEdge R640. Kromě hostování služby správy (beegfs-mgmtd.service) hostuje také službu monitorování (beegfs-mon.service), která shromažďuje ze systému statistiky a poskytuje je uživateli pomocí databáze časových řad InfluxDB. K vizualizaci dat poskytuje služba beegfs-mon předem definované panely Grafana, které lze používat hned při prvním použití. Server pro správu má 6 pevných disků s kapacitou 300 GB nakonfigurovaných v poli RAID 10 pro operační systém a databázi InfluxDB.

Služba metadat

Služba metadat je horizontálně škálovaná služba, což znamená, že v systému souborů BeeGFS může být použito mnoho služeb metadat. Každá služba metadat má však pro ukládání metadat přesně jeden cíl.  V cíli metadat vytvoří úložiště BeeGFS jeden soubor metadat na každý soubor vytvořený uživatelem. Metadata BeeGFS jsou distribuována v jednotlivých adresářích. Služba metadat poskytuje klientům informace o prokládání dat a nepřistupuje k datům mezi otevřením/zavřením souboru.

Pro úložiště metadat se používá server PowerEdge R740xd s 24 disky Intel P4600 NVMe 1,6 TB. Vzhledem k tomu, že požadavky na kapacitu úložiště pro metadata BeeGFS jsou velmi malé, namísto použití vyhrazeného serveru metadat se k hostování cílů metadat (MetaData Targets – MDT) použilo pouze 12 disků v zóně NUMA 0, zatímco zbývajících 12 disků bylo použito na cíle úložiště (Storage Targets – ST) v hostitelské zóně NUMA.

Obrázek 3 znázorňuje server metadat. 12 disků ohraničených žlutým obdélníkem představuje MDT v zóně NUMA 0, zatímco 12 disků ohraničených zeleným obdélníkem představuje ST v zóně NUMA 1. Tato konfigurace se nejen vyhýbá problémům se zónami NUMA, ale také zajišťuje dostatek úložiště metadat pro usnadnění škálování kapacity a výkonu podle potřeby.

Server metadat

Obrázek 3:  Server metadat

Obrázek 4 znázorňuje konfiguraci pole RAID serveru metadat. Jde na něm vidět, jak disky v serveru metadat v zóně NUMA 0 hostují cíle MDT a disky v zóně NUMA 1 hostují data úložiště, zatímco servery úložiště hostují cíle ST v obou zónách NUMA.

Konfigurace jednotek na serveru metadat

Obrázek 4:  Konfigurace disků v serveru metadat

12 disků používaných pro metadata je nakonfigurovaných jako 6 skupin disků RAID 1 se 2 disky, z nichž každá slouží jako MDT. Je spuštěno 6 služeb metadat, z nichž každá zpracovává jeden cíl MDT. Zbývajících 12 disků úložiště je nakonfigurovaných ve 3 skupinách disků RAID 0 po 4 discích. V zóně NUMA 1 jsou spuštěny 3 služby úložiště, jedna služba pro každý cíl ST. Takže server, který spoluhostuje cíle metadat a úložiště, má 6 cílů MDT a 3 cíle ST. Má také spuštěno 6 služeb metadat a 3 služby úložiště. Každý cíl MDT je systém souborů ext4 založený na konfiguraci RAID 1. Cíle ST jsou založeny na systémech souborů XFS nakonfigurovaných v poli RAID 0.
 

Služba úložiště

Stejně jako službu metadat lze i službu úložiště škálovat. V systému souborů BeeGFS může být mnoho instancí služby úložiště. Na rozdíl od služby metadat však může být v každé službě úložiště několik cílů úložiště.  Služba úložiště ukládá obsah prokládaných uživatelských souborů, označovaných také jako soubory datového bloku.

Obrázek 5 zobrazuje 5 serverů PowerEdge R740xd používaných jako úložné servery.
Servery vyhrazených úložišť
Obrázek 5:  Vyhrazené úložné servery

Každý úložný server je nakonfigurován se 6 skupinami RAID 0 po 4 discích, na jednom serveru tedy hostuje 6 cílů ST (3 na zónu NUMA), jak je znázorněno na obrázku 6 níže:
Konfigurace disků na serverech úložišť
Obrázek 6:  Konfigurace disků v úložných serverech

Celkem základní referenční architektura konfigurace hostuje 6 cílů MDT a 33 cílů ST. 5 vyhrazených úložných serverů poskytuje celkovou kapacitu 211 TB a využitelnou kapacitu 190 TiB. Odhadovaná využitelná kapacita v TiB = počet disků × kapacita jednoho disku v TB × 0,99 (režie systému souborů) × (10^12/2^40). Jedná se o ideální řešení úložiště dočasných dat středního rozsahu s dostatečnou kapacitou úložiště metadat, které usnadní přidání dalších úložných serverů při nárůstu požadavků na kapacitu.

S ohledem na následující faktory byla pro cíle úložiště vybrána konfigurace RAID 0 namísto konfigurace RAID 10.
  1. Výkon zápisu byl měřen pomocí příkazu dd a vytvořením 10GiB souboru s velikostí bloku 1MiB a přímými operacemi I/O pro data. U zařízení RAID 0 činil průměr na každé zařízení přibližně 5,1 GB/s, zatímco u zařízení RAID 10 byl průměr na každé zařízení 3,4 GB/s.
  2. Srovnávací testy StorageBench ukázaly, že maximální propustnost byla 5,5 GB/s pro konfiguraci RAID 0, zatímco u konfigurace RAID 10 činila 3,4 GB/s. Tyto výsledky se podobají výstupům příkazů dd.
  3. Pole RAID 10 poskytuje 50% využití kapacity disku a podobné 50% snížení výkonu zápisu. Používání pole RAID 10 je nákladný způsob, jak dosáhnout redundance úložiště.
  4. Disky NVMe jsou nákladné a nabízejí rychlosti, které se nejlépe využijí v konfiguraci RAID 0.
 

Služba klienta

Modul klienta BeeGFS je nutné načíst na všechny hostitele, kteří potřebují přístup k systému souborů BeeGFS. Klient beefgs-client po načtení připojí systémy souborů definované v souboru /etc/beegfs/beegfs-mounts.conf namísto obvyklého přístupu založeného na souboru /etc/fstab.  Zavedením tohoto přístupu spustíte klienta beegfs jako jakoukoli jinou linuxovou službu prostřednictvím skriptu spuštění služby. Umožňuje také automatickou rekompilaci modulu klienta BeeGFS po aktualizacích systému. 

Po načtení modulu klienta se připojí systémy souborů definované v souboru beegfs-mounts.conf. Na stejném klientovi lze připojit několik instancí beegfs, jak je znázorněno níže:

$ cat /etc/beegfs/beegfs-mounts.conf
/mnt/beegfs-medium /etc/beegfs/beegfs-client-medium.conf
/mnt/beegfs-small /etc/beegfs/beegfs-client-small.conf

Výše uvedený příklad ukazuje dva různé systémy souborů připojené ke stejnému klientovi. Pro účely tohoto testování jsme jako klienty použili 32 uzlů C6420.

R740xd – 24 disků NVMe, podrobnosti o mapování procesoru


V konfiguraci 24xNVMe serveru PowerEdge R740xd jsou dvě propojovací karty NVMe x16, které předávají data přepínači PCIe na backplane, který data rozdělí a předává na disky (disky jsou x4), jak je znázorněno na obrázku 7 níže:

R740xd, 24x NVMe Podrobnosti o mapování procesoru
Obrázek 7:  Podrobnosti o mapování procesoru v serveru R740xd s 24x disky NVMe

V rámci NUMA (Non-Uniform Memory Access) je systémová paměť rozdělena do zón nazývaných uzly, které jsou přiděleny procesorům nebo socketům. Přístup k místní paměti procesoru je rychlejší než přístup k paměti připojené ke vzdáleným procesorům v systému. Aplikace s vlákny obvykle pracuje nejlépe, když vlákna přistupují k paměti na stejném uzlu NUMA. Dopad chyb NUMA na výkon je významný, obvykle minimálně 10%. Za účelem zlepšení výkonu jsou služby nakonfigurovány pro používání specifických zón NUMA, aby nedocházelo ke zbytečnému křížení socketů UPI, čímž se snižuje latence. Každá zóna NUMA má na starost 12 disků a používá jedno ze dvou rozhraní InfiniBand EDR na serverech. Tohoto rozdělení NUMA je dosaženo ruční konfigurací vyvažování NUMA, kdy jsou vytvořeny vlastní soubory jednotek systemd a je nakonfigurována služba multihoming. Z tohoto důvodu je automatické vyvažování NUMA deaktivováno, jak je znázorněno níže:

# cat /proc/sys/kernel/numa_balancing
0

Obrázek 8 znázorňuje testbed, kde je zvýrazněno připojení InfiniBand k zóně NUMA.  Každý server má dvě připojení IP a provoz prostřednictvím zóny NUMA 0 je řízen rozhraním IB0, zatímco provoz prostřednictvím zóny NUMA 1 je řízen rozhraním IB1.
Konfigurace testbedu
Obrázek 8:  Konfigurace testbedu
 

Charakteristika výkonu

Tato část představuje hodnocení výkonu, které pomáhá charakterizovat řešení Dell EMC Ready pro vysokovýkonnostní úložiště HPC BeeGFS. Další podrobnosti a aktualizace naleznete v dokumentu whitepaper, který bude zveřejněn později. Výkon systému byl vyhodnocen pomocí benchmarku IOzone. Řešení je testováno pro propustnost sekvenčního čtení a zápisu a IOPS náhodného čtení a zápisu. Tabulka 4 popisuje konfiguraci serverů C6420, které byly použity jako klienti BeeGFS pro studie výkonu uvedené na tomto blogu.
 
Tabulka 4: Konfigurace klienta
Klienti 32 výpočetních uzlů Dell EMC PowerEdge C6420
BIOS 2.2.9
Procesor 2x procesor Intel Xeon Gold 6148 s frekvencí 2,4 GHz, 20 jader na procesor
Paměť  12x 16GB moduly DIMM DDR4, 2 666 MT/s – 192 GB
Karta BOSS 2x 120GB spouštěcí disk M.2 v konfiguraci RAID 1 pro operační systém
Operační systém Red Hat Enterprise Linux Server verze 7.6
Verze jádra 3.10.0-957.el7.x86_64
Interconnect 1x karta Mellanox ConnectX-4 EDR
Verze systému OFED 4.5-1.0.1.0

Sekvenční zápis a čtení N-N

K vyhodnocení srovnávacího testu sekvenčního čtení a zápisu byl použit benchmark IOzone v režimu sekvenčního čtení a zápisu. Tyto testy byly provedeny s několika počty vláken, počínaje jedním vláknem, které narůstaly o mocniny 2 až po 1 024 vláken. Při každém počtu vláken byl vygenerován stejný počet souborů, protože tento test funguje na jeden soubor na vlákno nebo na případ N-N (N klientů na N soubor). Procesy byly distribuovány napříč 32 fyzickými uzly klienta v kruhovém dotazování nebo cyklickým způsobem tak, aby byly požadavky rovnoměrně distribuovány a zatížení bylo vyvažováno. Byla vybrána souhrnná velikost souboru 8 TB, která byla rovnoměrně rozdělena mezi počet vláken v rámci daného testu. Byl zvolen dostatečně velký soubor, aby se minimalizoval dopad ukládání do cache ze serverů i z klientů BeeGFS. Test IOzone byl spuštěn v kombinovaném režimu zápisu a poté čtení (-i 0, -i 1), aby bylo možné koordinovat hranice mezi operacemi. Pro toto testování a výsledky jsme při každém spuštění používali velikost záznamu 1 MiB. Níže jsou uvedeny příkazy použité pro sekvenční testy N-N:

Sekvenční zápisy a čtení: iozone -i 0 -i 1 -c -e -w -r 1m -I -s $Size -t $Thread -+n -+m /path/to/threadlist

Cache operačního systému byly také zahozeny nebo vymazány v klientských uzlech mezi iteracemi a mezi testy zápisu a čtení spuštěním příkazu:

# sync & echo 3 > /proc/sys/vm/drop_caches

Výchozí počet prokládání u úložiště Beegfs je 4. Velikost bloku a počet cílů na jeden soubor však lze konfigurovat pro jednotlivé adresáře. Pro všechny tyto testy byla velikost prokládání BeeGFS 2 MB a počet prokládání byl 3, protože máme 3 cíle na 1 zónu NUMA, jak je znázorněno níže:

$ beegfs-ctl --getentryinfo --mount=/mnt/beegfs /mnt/beegfs/benchmark --verbose
EntryID: 0-5D9BA1BC-1
ParentID: root
Metadata node: node001-numa0-4 [ID: 4]
Stripe pattern details:
+ Type: RAID0
+ Chunksize: 2M
+ Number of storage targets: desired: 3

+ Storage Pool: 1 (Default)
Inode hash path: 7/5E/0-5D9BA1BC-1

Transparentní obrovské stránky byly zakázány a na serverech metadat a úložných serverech byly použity následující možnosti ladění:

  • vm.dirty_background_ratio = 5 
  • vm.dirty_ratio = 20 
  • vm.min_free_kbytes = 262144 
  • vm.vfs_cache_pressure = 50
  • vm.zone_reclaim_mode = 2 
  • kernel.numa_balancing = 0

Kromě výše uvedených možností byly použity následující možnosti ladění BeeGFS: 

  • Parametr tuneTargetChooser byl v konfiguračním souboru metadat nastaven na hodnotu „roundrobin“. 
  • Parametr tuneNumWorkers byl nastaven na 24 pro metadata a 32 pro úložiště. 
  • Parametr connMaxInternodeNum byl nastaven na 32 pro metadata, 12 pro úložiště a 24 pro klienty.

Sekvenční čtení 8Tb souboru IOzone
Obrázek 9:  Sekvenční čtení 8Tb souboru IOzone


Na obrázku 9 je vidět, že maximální výkon čtení je 132 GB/s při 1 024 vláknech a maximální rychlost zápisu je 121 GB/s při 256 vláknech. Každá jednotka může poskytovat špičkový výkon čtení 3,2 GB/s a špičkový výkon zápisu 1,3 GB/s, což umožňuje teoretickou špičku 422 GB/s pro čtení a 172 GB/s pro zápis. Zde je však omezujícím faktorem síť. V nastavení je celkem 11 spojení InfiniBand EDR pro úložné servery. Každé spojení může poskytovat teoretický špičkový výkon 12,4 GB/s, což umožní teoretický špičkový výkon 136,4 GB/s. Dosažený špičkový výkon čtení a zápisu je 97 %, resp. 89 % teoretického špičkového výkonu.

Výkon jednoho vlákna při zápisu je přibližně 3 GB/s a při čtení přibližně 3 GB/s. Výkon zápisu se lineárním způsobem škáluje, maximum je 256 vláken a poté se začne snižovat. Při nižším počtu vláken je výkon čtení a zápisu stejný. Až do 8 vláken máme 8 klientů, kteří zapisují 8 souborů přes 24 cílů, což znamená, že ne všechny cíle úložiště jsou plně využívány. V systému máme 33 cílů úložiště, a proto je k plnému využití všech serverů potřeba alespoň 11 vláken. Výkon čtení registruje stabilní lineární nárůst se zvýšením počtu souběžných vláken a pozorujeme téměř podobný výkon na 512 a 1 024 vláknech.

Můžeme si také všimnout, že výkon čtení je nižší než v případě zápisu pro počet vláken od 16 do 128, poté se začne výkon čtení škálovat. Důvodem je to, že operace čtení PCIe je „nepřiřazená“ operace, která vyžaduje jak požadavek, tak dokončení, operace zápisu PCIe nevyžaduje po spuštění další proces. Po předání paketu transakční vrstvy spojové vrstvě se operace dokončí. Operace zápisu je „přiřazená“ operace, která se skládá pouze z požadavku.

Propustnost čtení je obvykle nižší než propustnost zápisu, protože čtení vyžaduje 2 transakce namísto 1 zápisu pro stejné množství dat. Rozhraní PCI Express používá pro čtení model rozdělené transakce. Transakce čtení obsahuje následující kroky:

  • Žadatel odešle požadavek na čtení paměti (MRR).
  • Zpracovatel odešle potvrzení požadavku MRR.
  • Zpracovatel vrátí dokončení s daty.

Propustnost čtení závisí na prodlevě mezi dobou vydání požadavku na čtení a dobou, po kterou trvá vrácení dat. Když však aplikace vydá dostatečné množství požadavků na čtení, které tuto prodlevu vyváží, propustnost bude maximalizována. To je důvod, proč při zvýšení počtu požadavků naměříme vyšší propustnost, i když je výkon čtení nižší než výkon zápisu v rámci 16 až 128 vláken.  Nižší propustnost je naměřena, když žadatel čeká na dokončení jednoho požadavku před odesláním dalších požadavků. Vyšší propustnost je zaznamenána, když je vydáno více požadavků, aby se snížilo zpoždění po návratu prvních dat.


Náhodný zápis a čtení N-N

Pro vyhodnocení výkonnosti náhodného IO byl použit nástroj IOzone v náhodném režimu. Testy byly provedeny na vláknech od 4 do 1 024. Ke spuštění nástroje IOzone byla použita možnost Direct IO (-I), takže všechny operace obejdou vyrovnávací paměť cache a přejdou přímo na disk. Byla použity 3 prokládání BeeGFS a velikost bloku 2 MB. V nástroji IOzone se používá velikost požadavku 4 KiB. Výkon se měří v operacích I/O za sekundu (IOPS). Mezi jednotlivými spuštěními byla zahozena cache operačního systému na serverech BeeGFS i klientech BeeGFS. Příkaz použitý ke spuštění náhodných zápisů a čtení je uveden níže:

Náhodné čtení a zápis: iozone -i 2 -w -c -O -I -r 4K -s $Size -t $Thread -+n -+m /path/to/threadlist


Výkon náhodného čtení a zápisu pomocí IOzone s agregovanou velikostí souboru 8 TB
Obrázek 10:  Výkon náhodného čtení a zápisu při použití nástroje IOzone s agregovanou velikostí souboru 8 TB

Maximální rychlost náhodného zápisu je přibližně 3,6 milionu IOPS při 512 vláknech a maximální rychlost náhodného čtení je přibližně 3,5 milionu IOPS při 1 024 vláknech, jak je znázorněno na obrázku 10. Výkon zápisu i čtení vykazuje vyšší výkon, pokud je k dispozici vyšší počet požadavků IO. Důvodem je to, že standard NVMe podporuje frontu až 64 000 operací I/O a až 64 000 příkazů na jednu frontu. Takto velký fond front NVMe poskytuje vyšší úrovně paralelismu I/O, a proto počet IOPS překračuje 3 miliony.


Závěr a budoucí práce

Tento blog představuje uvedení vysoce výkonného úložného řešení Dell EMC BeeGFS a poukazuje na jeho výkon. Řešení nabízí špičkový výkon sekvenčního čtení 132 GB/s a zápisu 121 Gb/s a maximální rychlost náhodného zápisu přibližně 3,6 milionu IOPS a rychlost náhodného čtení přibližně 3,5 milionu IOPS.

Tento blog je první částí úložného řešení BeeGFS, které bylo navrženo se zaměřením na pomocné místo s vysokým výkonem. Počkejte si na druhou část blogu, která popisuje, jak lze řešení škálovat zvýšením počtu serverů za účelem navýšení výkonu a kapacity. Třetí část blogu pojednává o dalších funkcích řešení BeeGFS a poukazuje na použití vestavěného srovnávacího testu cílů úložiště BeeGFS s názvem „StorageBench“.

V rámci dalších kroků vydáme dokument whitepaper s výkonem metadat a výkonem IOR N vláken na 1 soubor a s dalšími podrobnostmi o provedení, ladění a konfiguraci.


Reference

[1] Dokumentace k úložišti BeeGFS:  https://www.beegfs.io/wiki/
[2] Jak připojit dvě rozhraní ke stejné podsíti:  https://access.redhat.com/solutions/30564

Artikeleigenschaften


Betroffenes Produkt

PowerSwitch S3048-ON, Mellanox SB7800 Series, PowerEdge R640, PowerEdge R740XD

Letztes Veröffentlichungsdatum

25 März 2024

Version

7

Artikeltyp

Solution