PowerEdge:適用於 HPC BeeGFS 儲存的 Dell Ready Solutions 擴充能力
Summary: 如何在容量和/或效能方面,擴充 Dell BeeGFS 高效能儲存解決方案。
Instructions
目錄
簡介
這篇部落格中探討了近期發表的適用於 HPC BeeGFS 儲存的 Dell Ready Solutions 擴充能力。BeeGFS 架構是由四個主要服務組成,分別是:管理服務、中繼資料服務、儲存服務和用戶端服務。您可以在同一伺服器上執行這四個主要服務的任意組合,也可以一次執行所有服務,因為在 BeeGFS 的情況下,角色和硬體並非緊密整合。在「超融合式解決方案」中,全部四項服務都在同一伺服器上執行。對於效能關鍵環境,則不建議採用此組態,因為用戶端應用程式通常會消耗資源,這可能影響儲存服務的效能。Dell 解決方案是使用專用儲存伺服器和雙用途中繼資料與儲存伺服器,以提供高效能、可擴充的儲存解決方案。您可以透過在現有系統中新增額外的儲存伺服器來擴充系統。在這篇部落格中,我們將介紹具有不同儲存伺服器數量的組態,以及這些組態預期發揮的效能。
基本組態
BeeGFS 儲存解決方案專為提供高效能暫存檔案系統而設計,其使用下列硬體元件:
- Management Server
- R640,雙 Intel Xeon Gold 5218 2.3GHz,16 核心,96 GB (12x 8GB 2666 MT/s RDIMM),6 x 15k RPM 300 GB SAS,H740P
- 中繼資料和儲存伺服器
- R740xd,2x Intel Xeon Platinum 8268 CPU @ 2.90 GHz,24 核心,384 GB (12x 32 GB 2933 MT/s RDIMM)
- BOSS 介面卡,搭配 2x 240 GB M.2 SATA SSD,採用 RAID 1,用於作業系統
- 24x,Intel 1.6 TB,NVMe,混合式用途 Express Flash,2.5 SFF 磁碟機,軟體 RAID
管理伺服器執行 BeeGFS 監控服務。中繼資料伺服器使用 NUMA 0 區域上的 12 個磁碟機來代管中繼資料目標 (MDT),而 NUMA 1 區域上其餘 12 個磁碟機則代管儲存目標 (ST)。由於 BeeGFS 中繼資料的儲存容量需求較小,因此未使用專用中繼資料伺服器。中繼資料目標與儲存目標及服務是隔離在個別的 NUMA 節點上,因此能大規模地隔離工作負載。組態中使用的儲存伺服器會在每個 NUMA 區域執行三個儲存服務,每個伺服器共六個。如需更多詳細資訊,請參閱公告部落格。圖 1 顯示兩種基本組態,均已在 Dell EMC HPC 和 AI 創新實驗室中測試並驗證。

圖 1:基本組態
小型組態包含三個 R740xd 伺服器。它有 15 個儲存目標。中型組態有 6 個 R740xd 伺服器,有 33 個儲存目標。使用者可從「小型」組態或「中型」組態開始,並可視需要新增儲存裝置或中繼資料伺服器,以分別增加儲存空間和整體效能,或檔案數量和中繼資料效能。表 1 顯示基本組態的效能資料,這些組態已在 Dell HPC 和 AI 創新實驗室進行廣泛測試和驗證。
| 基本組態 | Small | 中 | |
|---|---|---|---|
| U 總數 (MDS+SS) | 6U | 12U | |
| 專用儲存伺服器數量 | 2 | 5 | |
| 適用於資料儲存的 NVMe 磁碟機數量 | 60 | 132 | |
| 估計可用空間 | 1.6 TB | 86 TiB | 190 TiB |
| 3.2 TB | 173 TiB | 380 TiB | |
| 6.4 TB | 346 TiB | 761 TiB | |
| 尖峰循序讀取 | 60.1 GB/s | 132.4 GB/s | |
| 尖峰循序寫入 | 57.7 GB/s | 120.7 GB/s | |
| 隨機讀取 | 180 萬 IOPS | 354 萬 IOPS | |
| 隨機寫入 | 184 萬 IOPS | 359 萬 IOPS | |
表 1:基本組態的容量和效能詳細資料
BeeGFS 可用空間計算
估計可用空間是使用以下公式計算而出,以 TiB 為單位 (因為大多數工具是以二進位單位顯示可用空間):
BeeGFS Usable Space in TiB= (0.99* # of Drives* size in TB * (10^12/2^40)
在上面公式中,透過保守假設檔案系統有 1% 的額外負擔,得出了 0.99 這個因數。為了得出用於儲存的磁碟機數量,其中也納入 MDS 的 12 個磁碟機。這是因為在 MDS 中,NUMA 0 區域中的 12 個磁碟機是供中繼資料使用,而 NUMA 1 區域中的 12 個磁碟機是供儲存使用。公式 10^12/2^40 中的最後一個因數,是將可用空間從 TB 換算成 TiB。
可擴充組態
BeeGFS 高效能儲存解決方案的設計十分彈性,可透過新增額外伺服器,輕鬆且順暢地擴充效能及/或容量,如下所示:
圖 2:擴充後的組態範例
對於這篇部落格中描述的所有上述組態,堆疊的中繼資料部分保持不變。這是因為 BeeGFS 中繼資料的儲存容量需求,通常佔總儲存容量的 0.5% 至 1%。但實際上,這取決於檔案系統中的目錄和檔案數量。一般原則是,當中繼資料容量在儲存空間中的百分比低於 1% 時,使用者便可新增額外的中繼資料伺服器。表 2 顯示 BeeGFS 儲存解決方案不同彈性組態的效能資料。
| 組態 | 小型 | 小型 +1 | 小型 +2 | 中型 | 中型 +1 | |
|---|---|---|---|---|---|---|
| U 總數 (MDS+SS) | 6U | 8U | 10U | 12U | 14U | |
| 專用儲存伺服器數量 | 2 | 3 | 4 | 5 | 6 | |
| 適用於資料儲存的 NVMe 磁碟機數量 | 60 | 84 | 108 | 132 | 156 | |
| 估計可用空間 | 1.6 TB | 86 TiB | 121 TiB | 156 TiB | 190 TiB | 225 TiB |
| 3.2 TB | 173 TiB | 242 TiB | 311 TiB | 380 TiB | 449 TiB | |
| 6.4 TB | 346 TiB | 484 TiB | 622 TiB | 761 TiB | 898 TiB | |
| 尖峰循序讀取 | 60.1 GB/s | 83.3 GB/s | 105.2 GB/s | 132.4 GB/s | 152.9 GB/s | |
| 尖峰循序寫入 | 57.7 GB/s | 80.3 GB/s | 99.8 GB/s | 120.7 GB/s | 139.9 GB/s | |
表 2:擴充後組態的容量和效能詳細資料
效能特性
各種組態的效能是透過建立儲存集區來進行測試。小型組態有 15 個儲存目標,每增加 1 個儲存伺服器就會再增加 6 個儲存目標。因此,為了測試各種組態的效能,我們建立了 15 到 39 個儲存目標的儲存集區 (小型、小型+1、小型+2、中型、中型+1 以 6 為增量單位)。針對每個集區執行 3 次 IOzone 效能指標迭代,每次 1 個到 1024 個執行緒 (以 2 的倍數遞增)。採用的測試方法與公告部落格中描述的方法相同。圖 3 和 4 分別顯示可擴充組態的寫入和讀取效能,並強調顯示每種組態的尖峰效能,以供快速參考:
圖 3: 可擴充組態的寫入效能。
圖 4: 可擴充組態的讀取效能。
注意:
所提及的儲存集區僅針對明確用途建立,且該用途為描繪不同組態的效能特徵。進行公告部落格中詳述的中型組態效能評估時,全部 33 個目標都只位於「預設集區」中。下列 beegfs-ctl --liststoragepools 命令的輸出會顯示儲存目標的指派:
# beegfs-ctl --liststoragepools Pool ID Pool Description Targets Buddy Groups ======= ================== ============================ ============================ 1 Default 1,2,3,4,5,6,7,8,9,10,11,12, 13,14,15,16,17,18,19,20,21, 22,23,24,25,26,27,28,29,30, 31,32,33
結論和未來工作
這篇部落格探討了「適用於 HPC BeeGFS 儲存的 Dell Ready Solutions」擴充能力,並重點介紹各種組態的循序讀取和寫入輸送量效能。請持續關注本部落格系列的第 3 部分,其中將討論 BeeGFS 的其他功能,並重點說明 BeeGFS 內建儲存目標效能指標「StorageBench」的運用。在後續步驟中,我們隨後會發表一份白皮書,其中包含中繼資料效能、IOR N-1 效能評估,以及有關設計考量、調整和組態的其他詳細資料。
參考資料
[1] 適用於 HPC BeeGFS 儲存的 Dell Ready Solutions: https://www.dell.com/support/article/sln319381/
[2] BeeGFS 說明文件: https://www.beegfs.io/wiki/
[3] 如何在同一個子網路上連接兩個介面: https://access.redhat.com/solutions/30564
[4] 使用外部記憶體的 PCI Express 直接記憶體存取參考設計:https://www.intel.com/content/www/us/en/programmable/documentation/nik1412547570040.html#nik1412547565760