PowerEdge: Škálovatelnost řešení Dell Ready pro úložiště HPC BeeGFS
Summary: Jak škálovat výkonné úložné řešení Dell BeeGFS z hlediska kapacity, výkonu nebo obojího.
Instructions
Obsah
- Úvod
- Základní konfigurace
- Výpočet využitelného místa BeeGFS
- Škálovatelné konfigurace
- Charakteristika výkonu
- Závěr a budoucí práce
Úvod
Tento blog pojednává o škálovatelnosti řešení Dell Ready Solutions pro úložiště HPC BeeGFS, která byla nedávno oznámena. Architektura BeeGFS se skládá ze čtyř hlavních služeb: služby správy, služby metadat, služby úložiště a klientské služby. Na stejném serveru je možné provozovat libovolnou kombinaci těchto čtyř hlavních služeb (včetně všech služeb), protože role a hardware nejsou v případě architektury BeeGFS úzce integrovány. V hyperkonvergovaném řešení běží všechny čtyři služby na stejném serveru. Tato konfigurace se nedoporučuje pro prostředí kritická pro výkon, protože klientské aplikace obvykle spotřebovávají prostředky, které mohou mít vliv na výkon služeb úložiště. Řešení Dell využívá vyhrazené úložné servery a dvojúčelový server pro metadata a úložiště, aby poskytovalo vysoce výkonné, škálovatelné úložné řešení. Systém je možné škálovat přidáním dalších úložných serverů do stávajícího systému. V tomto blogu představujeme konfigurace s různým počtem úložných serverů a výkon, který lze u těchto konfigurací očekávat.
Základní konfigurace
Úložné řešení BeeGFS, které je navrženo tak, aby poskytovalo vysoce výkonný systém odkládacích souborů, používá následující hardwarové komponenty:
- Server pro správu
- R640, dva procesory Intel Xeon Gold 5218, 2,3 GHz, 16 jader, 96 GB (12x 8GB modul RDIMM 2 666 MT/s), 6x 300GB disk SAS, 15 000 ot./min, H740P
- Servery metadat a úložišť
- R740xd, 2x procesor Intel Xeon Platinum 8268 při 2,90 GHz, 24 jader, 384 GB (12x 32GB modul RDIMM 2 933 MT/s)
- Karta BOSS s 2x 240GB diskem SSD M.2 SATA v konfiguraci RAID 1 pro operační systém
- 24x Intel 1,6 TB, NVMe, disk Express Flash pro smíšené použití, 2,5" disky SFF, softwarové pole RAID
Server pro správu spouští monitorovací službu BeeGFS. Server metadat používá 12 jednotek v zóně NUMA 0 k hostování cílů metadat (MDT), zatímco zbývajících 12 jednotek v zóně NUMA 1 hostuje cíle úložiště (ST). Vyhrazený server metadat se nepoužívá, protože požadavky na kapacitu úložiště pro metadata BeeGFS jsou malé. Cíle a služby metadat a úložiště jsou izolované na samostatných uzlech NUMA, aby se vytvořilo značné oddělení úloh. Servery úložiště použité v konfiguraci mají tři služby úložiště spuštěné na zónu NUMA, celkem šest na server. Další podrobnosti najdete v oznámení na blogu. Obrázek 1 znázorňuje dvě základní konfigurace, které byly testovány a ověřeny v oddělení Dell EMC HPC and AI Innovation Lab.

Obrázek 1: Základní konfigurace
Malá konfigurace se skládá ze tří serverů R740xd. Má 15 cílů úložiště. Střední konfigurace má 6 serverů R740xd a 33 cílů úložišť. Uživatel může začít s konfigurací „Small“ nebo „Medium“ a podle potřeby může přidávat servery úložiště nebo metadat, aby se zvýšil úložný prostor a celkový výkon, resp. počet souborů a výkon metadat. Tabulka 1 obsahuje data o výkonu pro základní konfigurace, které byly důkladně testovány a ověřeny v oddělení Dell HPC and AI Innovation Lab.
| Základní konfigurace | Small | Střední | |
|---|---|---|---|
| Celkem U (MDS+SS) | 6U | 12U | |
| Počet dedikovaných úložných serverů | 2 | 5 | |
| Počet disků NVMe pro ukládání dat | 60 | 132 | |
| Odhadované využitelné místo | 1,6 TB | 86 TiB | 190 TiB |
| 3,2 TB | 173 TiB | 380 TiB | |
| 6,4 TB | 346 TiB | 761 TiB | |
| Sekvenční čtení ve špičce | 60,1 GB/s | 132,4 GB/s | |
| Sekvenční zápisy ve špičce | 57,7 GB/s | 120,7 GB/s | |
| Náhodné čtení | 1,80 milionu IOPS | 3,54 milionu IOPS | |
| Náhodný zápis | 1,84 milionu IOPS | 3,59 milionu IOPS | |
Tabulka 1: Podrobnosti o kapacitě a výkonu základních konfigurací
Výpočet využitelného místa BeeGFS
Odhadované využitelné místo se vypočítá v TiB (protože většina nástrojů zobrazuje využitelné místo v binárních jednotkách) pomocí následujícího vzorce:
BeeGFS Usable Space in TiB= (0.99* # of Drives* size in TB * (10^12/2^40)
Ve výše uvedeném vzorci je 0,99 faktor získaný konzervativním předpokladem, že existuje 1% režie ze systému souborů. Pro zjištění počtu disků pro úložiště je zahrnuto také 12 disků z MDS. Důvodem je to, že ve službě MDS se 12 disků v zóně NUMA 0 používá pro metadata a 12 disků v zóně NUMA 1 pro úložiště. Posledním faktorem ve vzorci 10^12/2^40 je převod využitelného prostoru z TB na TiB.
Škálovatelné konfigurace
Vysoce výkonné úložné řešení BeeGFS je navrženo tak, aby bylo flexibilní a bylo možné snadno a bezproblémově škálovat výkon a/nebo kapacitu přidáním dalších serverů, jak je znázorněno níže:
Obrázek 2: Příklady škálované konfigurace
Část metadat zásobníku zůstává stejná pro všechny výše uvedené konfigurace popsané v tomto blogu. Je to proto, že požadavky na úložnou kapacitu pro metadata BeeGFS jsou obvykle 0,5 % až 1 % celkové kapacity úložiště. Ve skutečnosti však záleží na počtu adresářů a souborů v systému souborů. Obecně platí, že uživatel může přidat další server metadat, když procento kapacity metadat do úložiště klesne pod 1 %. Tabulka 2 obsahuje data o výkonu pro různé flexibilní konfigurace úložného řešení BeeGFS.
| Configuration | Small | Small +1 | Small +2 | Střední | Medium +1 | |
|---|---|---|---|---|---|---|
| Celkem U (MDS+SS) | 6U | 8U | 10U | 12U | 14U | |
| Počet dedikovaných úložných serverů | 2 | 3 | 4 | 5 | 6 | |
| Počet disků NVMe pro ukládání dat | 60 | 84 | 108 | 132 | 156 | |
| Odhadované využitelné místo | 1,6 TB | 86 TiB | 121 TiB | 156 TiB | 190 TiB | 225 TiB |
| 3,2 TB | 173 TiB | 242 TiB | 311 TiB | 380 TiB | 449 TiB | |
| 6,4 TB | 346 TiB | 484 TiB | 622 TiB | 761 TiB | 898 TiB | |
| Sekvenční čtení ve špičce | 60,1 GB/s | 83,3 GB/s | 105,2 GB/s | 132,4 GB/s | 152,9 GB/s | |
| Sekvenční zápisy ve špičce | 57,7 GB/s | 80,3 GB/s | 99,8 GB/s | 120,7 GB/s | 139,9 GB/s | |
Tabulka 2: Podrobnosti o kapacitě a výkonu škálovaných konfigurací
Charakteristika výkonu
Výkon různých konfigurací byl testován vytvořením fondů úložišť. Malá konfigurace má 15 cílů úložiště a každý další server úložiště přidává dalších 6 cílů úložiště. Pro účely testování výkonu různých konfigurací byly vytvořeny fondy úložišť z 15 až 39 cílů úložiště (přírůstky po šesti pro konfigurace Small, Small+1, Small+2, Medium, Medium+1). Pro každý z těchto fondů byly spuštěny tři iterace srovnávacího testu IOzone, každá s jedním až 1 024 vlákny (v mocninách dvou přírůstků). Použitá metodika testování je stejná jako ta, která je popsána v oznámení na blogu. Obrázky 3 a 4 znázorňují výkon zápisu a čtení škálovatelných konfigurací, přičemž špičkový výkon každé z konfigurací je zvýrazněn pro přehlednou referenci:

Obrázek 3: Výkon zápisu škálovatelných konfigurací.
Obrázek 4: Výkon čtení škálovatelných konfigurací.
Poznámka:
Zmíněný fond úložiště byl vytvořen pouze za explicitním účelem charakterizovat výkon různých konfigurací. Při vyhodnocování výkonu konfigurace média, které je podrobně popsáno v oznámení na blogu, bylo všech 33 cílů pouze ve výchozím fondu. Výstup v níže uvedeném příkazu beegfs-ctl --liststoragepools ukazuje přiřazení cílů úložiště:
# beegfs-ctl --liststoragepools Pool ID Pool Description Targets Buddy Groups ======= ================== ============================ ============================ 1 Default 1,2,3,4,5,6,7,8,9,10,11,12, 13,14,15,16,17,18,19,20,21, 22,23,24,25,26,27,28,29,30, 31,32,33
Závěr a budoucí práce
Tento blog pojednává o škálovatelnosti řešení Dell Ready Solutions pro úložiště HPC BeeGFS a vyzdvihuje výkon pro propustnost sekvenčního čtení a zápisu pro různé konfigurace. Počkejte si na třetí část této série blogů, která se bude zabývat dalšími funkcemi BeeGFS a především použitím „StorageBench“, vestavěného srovnávacího testu cílů úložiště BeeGFS. V rámci dalších kroků později zveřejníme dokument whitepaper s výkonem metadat, hodnocením výkonu IOR N-1 a dalšími podrobnostmi o úvahách ohledně návrhu, ladění a konfigurace.
Reference
[1] Řešení Dell Ready Solutions pro úložiště HPC BeeGFS: https://www.dell.com/support/article/sln319381/
[2] Dokumentace BeeGFS: https://www.beegfs.io/wiki/
[3] Jak připojit dvě rozhraní ke stejné podsíti: https://access.redhat.com/solutions/30564
[4] Referenční návrh PCI Express Direct Memory Access s externí pamětí: https://www.intel.com/content/www/us/en/programmable/documentation/nik1412547570040.html#nik1412547565760