PowerEdge:适用于 HPC BeeGFS 存储的戴尔就绪型解决方案的可扩展性
Summary: 如何对 Dell BeeGFS 高性能存储解决方案进行容量和/或性能扩展。
Instructions
目录
简介
此博客讨论了最近发布的适用于 HPC BeeGFS 存储的戴尔就绪型解决方案的可扩展性。BeeGFS 体系结构包括四种主要服务:管理服务、元数据服务、存储服务和客户端服务。在 BeeGFS 体系结构中,由于角色和硬件并非结合的,因此可以在同一服务器上运行这四种主要服务的任意组合,也可以全部一起运行。在“超融合解决方案”中,所有四项服务都在同一台服务器上运行。性能关键型环境不建议使用此配置,因为客户端应用程序通常会消耗资源,这可能会影响存储服务的性能。该 Dell 解决方案采用专用存储服务器和双用途元数据与存储服务器来提供高性能、可扩展的存储解决方案。通过向现有系统添加额外的存储服务器可以扩展系统。在本博文中,我们将介绍具有不同数量的存储服务器的配置,以及这些配置可以达到的预期性能。
基本配置
BeeGFS 存储解决方案旨在提供高性能暂存文件系统,请使用以下硬件组件:
- Management Server
- R640,搭载双英特尔至强 Gold 5218 处理器,主频 2.3GHz,拥有 16 个核心,内存容量为 96GB(12 根 8GB 2666 MT/s RDIMM 内存条),配备 6 块 15k RPM 的 300GB SAS 硬盘,使用 H740P 控制器。
- 元数据和存储服务器
- R740xd,搭载 2 个英特尔至强 Platinum 8268 CPU,主频 2.90 GHz,24 核,384 GB(12 根 32 GB 2933 MT/s RDIMM 内存条)
- BOSS 卡,RAID 1 中的 2 块 240 GB M.2 SATA SSD 硬盘,用于操作系统
- 24 个,英特尔 1.6 TB,NVMe,混合使用 Express Flash,2.5 SFF 驱动器,软件 RAID
管理服务器运行 BeeGFS 监视服务。该元数据服务器使用 NUMA 0 区域的 12 个驱动器来托管元数据目标 (MDTs),而 NUMA 1 区域的其余 12 个驱动器则托管存储目标 (ST)。未使用专用元数据服务器,因为 BeeGFS 元数据的存储容量要求较小。元数据和存储目标及服务被隔离在独立的 NUMA 节点上,以实现显著的工作负载分离。配置中使用的存储服务器具有每个 NUMA 分区运行的三个存储服务,每个服务器总共六个。有关更多详细信息,请参阅公告博客。图 1 显示了已在 Dell EMC HPC 和 AI 创新实验室 中测试并验证的两种基本配置。

图 1:基本配置
小型配置包括三个 R740xd 服务器。它有 15 个存储目标。中型配置具有 6 个 R740xd 服务器和 33 个存储目标。用户可以从“小型”配置或“中型”配置开始,并且可以根据需要添加存储或元数据服务器,以分别增加存储空间和整体性能或文件数量和元数据性能。请参考表 1,其中列出了在戴尔 HPC 和 AI 创新实验室中经过广泛测试和验证的基础配置的性能数据。
| 基本配置 | 小 | 中 | |
|---|---|---|---|
| U 总数 (MDS+SS) | 6U | 12U | |
| 专用存储服务器数量 | 2 | 5 | |
| 用于数据存储的 NVMe 驱动器数量 | 60 | 132 | |
| 估计的可用空间 | 1.6 TB | 86 TiB | 190 TiB |
| 3.2 TB | 173 TiB | 380 TiB | |
| 6.4 TB | 346 TiB | 761 TiB | |
| 顺序读取峰值 | 60.1 GB/s | 132.4 GB/s | |
| 顺序写入峰值 | 57.7 GB/s | 120.7 GB/s | |
| 随机读取 | 180 万 IOPS | 354 万 IOPS | |
| 随机写入 | 184 万 IOPS | 359 万 IOPS | |
表 1:基本配置的容量和性能详细信息
BeeGFS 可用空间计算
使用以下公式以 TiB 为单位计算估计的可用空间(因为大多数工具以二进制单位显示可用空间):
BeeGFS Usable Space in TiB= (0.99* # of Drives* size in TB * (10^12/2^40)
在上述公式中,0.99 这个系数是通过保守地假设文件系统存在 1% 的开销而得出的。在计算用于存储的驱动器数量时,还包括来自 MDS 的 12 个驱动器。这是因为,在 MDS 中,NUMA 区域 0 中的 12 个驱动器用于元数据,而 NUMA 区域 1 中的 12 个驱动器用于存储。公式 10^12/2^40 中的最后一个系数用于将可用空间从 TB 转换为 TiB。
可扩展配置
BeeGFS 高性能存储解决方案旨在灵活,用户可以通过添加更多服务器轻松无缝地扩展性能和/或容量,如下所示:
图 2:扩展配置示例
对于本博客中描述的所有上述配置,堆栈的元数据部分保持不变。这是因为 BeeGFS 元数据的存储容量要求通常占总存储容量的 0.5% 到 1%。它实际上取决于文件系统中的目录和文件数量。一般来说,当元数据容量占存储的百分比低于 1% 时,用户可以添加额外的元数据服务器。本表展示了 BeeGFS 存储解决方案在不同灵活配置下的性能数据。
| 配置 | 小 | 小 +1 | 小 +2 | 中 | 中 +1 | |
|---|---|---|---|---|---|---|
| U 总数 (MDS+SS) | 6U | 8U | 10U | 12U | 14U | |
| 专用存储服务器数量 | 2 | 3 | 4 | 5 | 6 | |
| 用于数据存储的 NVMe 驱动器数量 | 60 | 84 | 108 | 132 | 156 | |
| 估计的可用空间 | 1.6 TB | 86 TiB | 121 TiB | 156 TiB | 190 TiB | 225 TiB |
| 3.2 TB | 173 TiB | 242 TiB | 311 TiB | 380 TiB | 449 TiB | |
| 6.4 TB | 346 TiB | 484 TiB | 622 TiB | 761 TiB | 898 TiB | |
| 顺序读取峰值 | 60.1 GB/s | 83.3 GB/s | 105.2 GB/s | 132.4 GB/s | 152.9 GB/s | |
| 顺序写入峰值 | 57.7 GB/s | 80.3 GB/s | 99.8 GB/s | 120.7 GB/s | 139.9 GB/s | |
表 2:扩展配置的容量和性能详细信息
性能特征分析
通过创建存储池来测试各种配置的性能。小型配置具有 15 个存储目标,每个额外的存储服务器会添加额外的六个存储目标。为了测试各种配置的性能,我们创建了包含 15 到 39 个存储目标的存储池(以六为增量,涵盖小、小 +1、小 +2、中、中+1 等配置)。对于其中每个池,运行了三轮 IOzone 基准测试,每轮测试从 1 个线程开始,以 2 的幂次递增,直至 1024 个线程。采用的测试方法与公告博客中描述的相同。图 3 和图 4 分别显示了可扩展配置的写入和读取性能,突出显示了每个配置的峰值性能以供随时参考:
图 3: 可扩展配置的写入性能。
图 4: 可扩展配置的读取性能。
提醒:
所提及的存储池,创建它们的唯一且明确的目的是表征不同配置的性能。对公告博客中详述的介质配置进行性能评估时,所有 33 个目标都仅在“默认池”中。以下是 beegfs-ctl --liststoragepools 命令的输出,显示了存储目标的分配情况:
# beegfs-ctl --liststoragepools Pool ID Pool Description Targets Buddy Groups ======= ================== ============================ ============================ 1 Default 1,2,3,4,5,6,7,8,9,10,11,12, 13,14,15,16,17,18,19,20,21, 22,23,24,25,26,27,28,29,30, 31,32,33
结论和未来的工作
本博文讨论了 Dell Ready Solutions for HPC BeeGFS Storage 的可扩展性,并重点介绍了各种配置的顺序读取和写入吞吐量性能。敬请关注本博文系列的第 3 部分,该部分将讨论 BeeGFS 的其他功能,并重点介绍如何使用 BeeGFS 的内置存储目标基准测试工具“StorageBench”。接下来,我们将在稍后发布一份白皮书,其中会介绍元数据性能、IOR N-1 性能评估以及有关设计注意事项、调整和配置的更多详细信息。
参考材料
[1] 适用于 HPC BeeGFS 存储的戴尔就绪型解决方案: https://www.dell.com/support/article/sln319381/
[2] BeeGFS 文档: https://www.beegfs.io/wiki/
[3] 如何连接同一子网上的两个端口: https://access.redhat.com/solutions/30564
[4] 使用外部内存的 PCI Express 直接内存访问参考设计:https://www.intel.com/content/www/us/en/programmable/documentation/nik1412547570040.html#nik1412547565760