适用于 HPC 生命科学的 Dell EMC 就绪型解决方案:使用 Cascade Lake CPU 和 Lustre ME4 刷新的 BWA-GATK 管道吞吐量测试
Summary: 归档为文章基于不再在线托管的 HPC 文档,无法编辑文章以达到知识库文章的预期 适用于 HPC 生命科学的 Dell EMC Ready 解决方案:使用 Cascade Lake CPU 和 Lustre ME4 刷新的 BWA-GATK 管道吞吐量测试
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
适用于 HPC 生命科学的 Dell EMC 就绪型解决方案的 64 计算节点配置每天可处理 194 个基因组(覆盖深度的 50 倍)。
概览
变异检出 是我们从序列数据中识别变异的过程。该过程有助于确定在单个基因组或转录组的给定位置是否存在单核苷酸多态性 (SNP)、插入和缺失(插入缺失)和/或结构变异 (SV)。识别基因组变异的主要目标是与人类疾病联系起来。虽然并非所有人类疾病都与遗传变异有关,但变异检出可以为研究由遗传变异引起的特定疾病的遗传学家提供有价值的指导。BWA-GATK是下一代测序(NGS)计算工具之一,旨在从人类NGS数据中识别种系和体细胞突变。有一些变异识别工具,我们知道没有一种工具可以完美执行 (1)。不过,我们选择了最受欢迎的工具之一 GATK 作为基准测试工具,以证明适用于 HPC 生命科学的 Dell EMC 就绪型解决方案在处理复杂和大规模 NGS 工作负载方面的表现。
本博客旨在提供有关采用适用于 HPC Lustre 存储的 Dell EMC 就绪型解决方案(ME4 系列更新)的适用于 BWA-GATK 管道基准测试的英特尔®至强® Gold 6248 处理器的宝贵性能信息(2)。使用超线程时,至强® Gold 6248 CPU 具有 20 个物理核心或 40 个逻辑核心。表 1 汇总了测试群集配置。
| Dell EMC PowerEdge C6420 | |
|---|---|
| CPU | 2 个至强® Gold 6248,20 个核心,2.5 GHz (Cascade Lake) |
| RAM | 12 个 16 GB,2933 MTps |
| OS | RHEL 7.6 |
| 互连 | 英特尔® Omni-Path |
| BIOS 系统配置文件 | 性能已优化 |
| Logical Processor | 禁用 |
| 虚拟化技术 | 禁用 |
| BWA | 0.7.15-r1140 |
| Samtools | 1.6 |
| GATK | 3.6-0-g89b7209 |
测试的计算节点通过英特尔® Omni-Path 连接到适用于 HPC Lustre 存储的 Dell EMC 就绪型解决方案。表 2 中列出了存储的总体配置。
表 2 解决方案硬件和软件规格
| 适用于 Lustre 存储的 Dell EMC 就绪型解决方案 | |
|---|---|
| 节点数量 | 1 个 Dell EMC PowerEdge R640 作为 Integrated Manager for Lustre (IML) 2 个 Dell EMC PowerEdge R740 作为元数据服务器 (MDS) 2 个 Dell EMC PowerEdge R740 作为对象存储服务器 (OSS) |
| 处理器 | IML 服务器:双 Intel Xeon Gold 5118 @ 2.3 GHz MDS 和 OSS 服务器:2 个英特尔至强 Gold 6136 @ 3.00 GHz |
| 内存 | IML 服务器:12 x 8 GB 2,666 MT/s DDR4 RDIMM MDS 和 OSS 服务器:24 个 16 GiB 2,666 MT/s DDR4 RDIMM |
| 外部存储 控制器 |
2 个戴尔 12 Gb/s SAS HBA(在每个 MDS 上) 4 个戴尔 12 Gb/s SAS HBA(在每个 OSS 上) |
| 对象存储 机柜 |
4 个 ME4084,总共 336 个 8 TB NL 7.2K rpm SAS 硬盘 |
| 元数据存储 机柜 |
1 个 ME4024,具有 24 个 960GB SAS SSD。支持高达 46.8 亿索引节点 |
| RAID 控制器 | ME4084 和 ME4024 机柜中的双工 SAS RAID 控制器 |
| 操作系统 | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
| BIOS 版本 | 1.4.5 |
| 英特尔 Omni-Path IFS 版本 |
10.8.0.0 |
| Lustre 文件系统 版本 |
2.10.4 |
| IML 版本 | 4.0.7.0 |
测试数据选自Illumina的Platinum Genomes之一。ERR194161使用Illumina提交的Illumina HiSeq 2000进行处理,可从EMBL-EBI获得。此人的 DNA 标识符为 NA12878。来自链接网站的数据描述显示,该样本的覆盖深度为 >30 倍。
性能评估
单样本多节点性能
在图 1 中,总结了具有 50x 全基因组测序 (WGS) 数据的各种样本数量和计算节点的运行时间。此处执行的测试旨在展示服务器级别的性能,而不是比较单个组件。图1中的数据点基于样本总数来计算,每个计算节点(图中的X轴)一个样本,并发处理。BWA-GATK管道信息的详细信息可从布罗德研究所网站(3)获得。用于测试的最大计算节点数为 64x C6420。带 Lustre ME4 的 C6420 表现出比 Lustre MD3 更好的扩展行为。
图 1 Lustre MD3 和 Lustre ME4 之间的性能比较
多样本多节点性能
运行NGS流水线的典型方式是在计算节点上运行多个样本,并使用多个计算节点来最大化NGS数据过程的通量。用于测试的计算节点数是 C6420 计算节点中的 64,每个节点的样本数为 5 个样本。同时处理多达 320 个样本,以估计每天的最大基因组数,而不会出现作业失败。如图 2 所示,当同时处理 5 个样本时,单个 C6420 计算节点每天可以处理 3.24 个 50x 人类全基因组。对于每个样本,将分配 7 个内核和 30 GB 内存。
图 2 使用多达 64 个 C6420s 和 Lustre ME4
进行的吞吐量测试在 40 小时内,可使用 64 个 C6420 计算节点处理 320 个 50x 全人类基因组。 换言之,测试配置的性能汇总为 每天 194 个全 人类基因组,覆盖深度为 50 倍。
结论
随着WGS的数据量不断增长。WGS 的当前平均大小为 50 倍。这比 4 年前我们开始对 BWA-GATK 管道进行基准测试时的典型 WGS 大 5 倍。不断增长的数据不会对存储端容量造成压力,因为管道中的大多数应用程序还受到 CPU 时钟速率的限制。因此,随着数据大小的增长,管道运行的时间会更长,而不是生成更多的写入。但是,由于需要并行处理的数据较多,在此过程中生成的临时文件数量较多,而同时打开的临时文件数量增加会超出 Linux作系统中的打开文件限制。其中一个应用程序因达到打开文件数的限制而以静默方式无法完成。一个简单的解决方案是将限制 >增加到 150K。
尽管如此,使用 Lustre ME4 作为暂存空间的 Ready Solution 具有比之前版本更好的吞吐容量。现在,64 节点就绪型解决方案标志着 50x WGS 每天处理 194 个基因组。
资源
1.对下一代基因组测序数据变异分析工具的调查。Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l.:Brief Bioinform,2014 年 3 月,第 15 卷第 2 期。10.1093/bib/bbs086。2.适用于 HPC Lustre 存储的 Dell EMC 就绪型解决方案。 (文章不再可供参考,由 HPC 团队提取)
3.基因组分析工具包。https://software.broadinstitute.org/gatk/
Cause
归档为文章基于不再在线托管的 HPC 文档,无法编辑文章以达到知识库文章的预期
Resolution
归档为文章基于不再在线托管的 HPC 文档,无法编辑文章以达到知识库文章的预期
Affected Products
Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sep 2025
Version: 7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.