「PowerEdge:「HPC BeeGFSストレージ向けDell Readyソリューションの拡張性」
Summary: Dell BeeGFSハイパフォーマンス ストレージ ソリューションを容量、パフォーマンス、またはその両方において拡張する方法。
Instructions
目次
概要
このブログでは、最近発表された HPC BeeGFSストレージ向けDell Ready Solutionsの拡張性について説明します。BeeGFSアーキテクチャは、管理サービス、メタデータ サービス、ストレージ サービス、クライアント サービスの4つの主要なサービスで構成されています。BeeGFSの場合、ロールとハードウェアが緊密に統合されていないため、これら4つの主要なサービスのすべてを含む任意の組み合わせを同じサーバー上で実行することが可能です。「ハイパー コンバージド ソリューション」では、4つのサービスすべてが同じサーバー上で実行されます。クライアント アプリケーションは通常、ストレージ サービスのパフォーマンスに影響を与える可能性のあるリソースを消費するため、この構成はパフォーマンスが重要な環境には推奨されません。Dellのソリューションでは、専用のストレージ サーバーと、二重目的のメタデータおよびストレージ サーバーを使用して、ハイパフォーマンスで拡張性に優れたストレージ ソリューションを提供しています。既存のシステムにストレージ サーバーを追加することで、システムを拡張することができます。このブログでは、さまざまな数のストレージ サーバーを使用した構成と、これらの構成で期待できるパフォーマンスについて説明します。
基本構成
BeeGFSストレージ ソリューションは、ハイパフォーマンスのスクラッチ ファイル システムを提供するように設計されており、次のハードウェア コンポーネントを使用します。
- Management Server
- R640、インテルXeon Gold 5218デュアル2.3GHz、16コア、96GB(8GB RDIMM×12、2666 MT/s)、15k RPM 300GB SAS×6、H740P
- メタデータ サーバーとストレージ サーバー
- R740xdは、2つのインテル Xeon Platinum 8268 CPUを搭載し、2.90GHzのクロック速度で動作し、24コア、384GBのメモリー(32GB 2933 MT/s RDIMM×12)を備えています。
- OS用BOSSカード(240GB M.2 SATA SSD×2、RAID 1構成)
- インテル1.6TB NVMe Mixed-Use Express Flash 2.5インチSFFドライブ×24、ソフトウェアRAID
管理サーバーがBeeGFS監視サービスを実行します。メタデータ サーバーは、NUMA 0ゾーンの12台のドライブを使用してMetadata Targets (MDT)をホストし、残りの12台のドライブはNUMA 1ゾーンでStorage Targets (ST)をホストします。BeeGFSメタデータのストレージ容量要件が小さいため、専用のメタデータ サーバーは使用されません。メタデータおよびストレージ ターゲットとサービスは、別々のNUMAノード上に分離されており、ワークロードが十分に分離されるようになっています。この構成で使用されるストレージ サーバーには、NUMAゾーンごとに3つのストレージ サービスが実行されており、サーバーごとに合計6つのストレージ サービスが実行されています。詳細については、発表ブログを参照してください。図1は、Dell EMC HPC and AI Innovation Labでテストおよび検証された2つの基本構成を示しています。

図1: 基本構成
小規模構成は3台のR740xdサーバーで構成されています。15個のストレージ ターゲットがあります。中規模構成には6台のR740xdサーバーと33個のストレージ ターゲットがあります。ユーザーは、「小規模」構成または「中規模」構成から開始でき、必要に応じてストレージまたはメタデータ サーバーを追加して、ストレージ容量と全体的なパフォーマンス、またはファイル数とメタデータ パフォーマンスをそれぞれ向上させることができます。表1は、Dell HPC and AI Innovation Labで徹底的にテストおよび検証された基本構成のパフォーマンス データを示しています。
| 基本構成 | Small | 中 | |
|---|---|---|---|
| 合計U (MDS+SS) | 6U | 12U | |
| 専用ストレージ・サーバーの数 | 2 | 5 | |
| データストレージ用NVMeドライブの数 | 60 | 132 | |
| 推定使用可能領域 | 1.6 TB | 86 TiB | 190 TiB |
| 3.2 TB | 173 TiB | 380 TiB | |
| 6.4 TB | 346 TiB | 761 TiB | |
| ピーク シーケンシャル読み取り | 60.1 GB/s | 132.4 GB/s | |
| ピーク シーケンシャル書き込み | 57.7 GB/s | 120.7 GB/s | |
| ランダム読み取り | 180万IOPS | 354万IOPS | |
| ランダム書き込み | 184万IOPS | 359万IOPS | |
表1:基本構成の容量とパフォーマンスの詳細
BeeGFSの使用可能領域の計算
推定使用可能領域は、TiB単位で計算されます(ほとんどのツールでは使用可能領域が2進数単位で表示されるため)。その計算式は以下のとおりです。
BeeGFS Usable Space in TiB= (0.99* # of Drives* size in TB * (10^12/2^40)
上記の式において、0.99は、ファイル システムから1%のオーバーヘッドがあると控えめに見積もった場合の係数です。ストレージ用のドライブ数を算出する際には、MDSの12台のドライブも含まれます。これは、MDSではNUMAゾーン0の12台のドライブがメタデータ用に、NUMAゾーン1の12台のドライブがストレージ用に使用されるためです。計算式の最後の係数10^12/2^40は、使用可能領域をTBからTiBに変換するためのものです。
拡張性のある構成
BeeGFSハイパフォーマンス ストレージ ソリューションは柔軟性を重視して設計されており、次のようにサーバーを追加することで、パフォーマンスや容量を簡単かつシームレスに拡張できます。
図2:拡張構成の例
スタックのメタデータ部分は、このブログで説明されている上記のすべての構成で同じままです。これは、BeeGFSメタデータのストレージ容量要件が通常、合計ストレージ容量の0.5%~1%であるためです。ただし、実際はファイル システム内のディレクトリーとファイルの数に依存します。一般的に、ストレージへのメタデータ容量の割合が1%未満になった場合、ユーザーはメタデータ サーバーを追加できます。表2は、BeeGFSストレージ ソリューションのさまざまな柔軟な構成のパフォーマンス データを示しています。
| Configuration | Small | Small +1 | Small +2 | 中 | Medium +1 | |
|---|---|---|---|---|---|---|
| 合計U (MDS+SS) | 6U | 8U | 10U | 12U | 14U | |
| 専用ストレージ・サーバーの数 | 2 | 3 | 4 | 5 | 6 | |
| データストレージ用NVMeドライブの数 | 60 | 84 | 108 | 132 | 156 | |
| 推定使用可能領域 | 1.6 TB | 86 TiB | 121 TiB | 156 TiB | 190 TiB | 225 TiB |
| 3.2 TB | 173 TiB | 242 TiB | 311 TiB | 380 TiB | 449 TiB | |
| 6.4 TB | 346 TiB | 484 TiB | 622 TiB | 761 TiB | 898 TiB | |
| ピーク シーケンシャル読み取り | 60.1 GB/s | 83.3 GB/s | 105.2 GB/s | 132.4 GB/s | 152.9 GB/s | |
| ピーク シーケンシャル書き込み | 57.7 GB/s | 80.3 GB/s | 99.8 GB/s | 120.7 GB/s | 139.9 GB/s | |
表2:拡張構成の容量とパフォーマンスの詳細
パフォーマンス特性
ストレージ プールを作成することで、さまざまな構成のパフォーマンスがテストされました。この小規模構成では、15のストレージ ターゲットがあり、追加のストレージ サーバーごとに6つのストレージ ターゲットが追加されます。したがって、各構成のパフォーマンスをテストする目的で、ストレージ ターゲット15台から39台までの範囲でストレージ プールが作成されました(small、small+1、small+2、medium、medium+1は6台単位で増加)。これらの各ストレージ プールについて、IOzoneベンチマークを3回繰り返し実行しました。それぞれの実行では、スレッド数を1から1024まで(2の累乗単位)で設定しました。採用されたテスト方法は、発表ブログに記載されているものと同じです。図3と図4は、拡張性のある構成の書き込みと読み取りのパフォーマンスをそれぞれ示しており、各構成のピーク パフォーマンスは参考のためにハイライト表示されています。
図3: 拡張性のある構成の書き込みパフォーマンス。
図4: 拡張性のある構成の読み取りパフォーマンス。
注:
参照されているストレージ プールは、さまざまな構成のパフォーマンスを明確に評価する目的でのみ作成されたものです。発表ブログで詳述されているmedium構成のパフォーマンス評価を行った際には、33台のターゲットはすべて「デフォルト プール」にのみ含まれていました。以下に示す beegfs-ctl --liststoragepools コマンドは、ストレージ ターゲットの割り当てを示しています。
# beegfs-ctl --liststoragepools Pool ID Pool Description Targets Buddy Groups ======= ================== ============================ ============================ 1 Default 1,2,3,4,5,6,7,8,9,10,11,12, 13,14,15,16,17,18,19,20,21, 22,23,24,25,26,27,28,29,30, 31,32,33
結論および今後の計画
このブログでは、HPC BeeGFSストレージ向けDell Ready Solutionsの拡張性について説明し、さまざまな構成でのシーケンシャルな読み取り/書き込みスループットのパフォーマンスに焦点を当てました。このブログ シリーズのパート3では、BeeGFSの追加機能について説明し、BeeGFSの組み込みストレージ ターゲット ベンチマークである「StorageBench」の使用について説明します。次のステップの一環として、メタデータのパフォーマンス、IORN-1のパフォーマンス評価、設計上の考慮事項、チューニング、構成に関する追加の詳細を含むホワイト ペーパーを今後公開する予定です。
リファレンス
「HPC BeeGFS高性能ストレージ向けDell EMC Readyソリューション」 https://www.dell.com/support/article/sln319381/
[2] BeeGFSドキュメント: https://www.beegfs.io/wiki/
[3] 『How to connect two network interfaces on the same subnet?』: https://access.redhat.com/solutions/30564
[4] 『PCI Express DMA Reference Design Using External Memory』:https://www.intel.com/content/www/us/en/programmable/documentation/nik1412547570040.html#nik1412547565760