PowerEdge:在配有 NVIDIA T4 GPU 的 Dell EMC DSS 8440 服务器上使用 NVIDIA Clara Parabricks 加速基因组数据分析速度
Summary: 本文提供有关在配备 NVIDIA T4 GPU 的 Dell EMC DSS 8440 上使用 NVIDIA Parabricks 加速基因组数据分析的信息。
Instructions
概览
处理下一代测序 (NGS) 数据的第一步称为初级分析。此步骤特定于测序仪器,并生成包含测序读数的多个 FASTQ 文件。在下一步(即所谓的二次分析)中,FASTQ 测序读数会映射到参考基因组或参考转录组。更多的处理可识别目标样品与参照样品之间的变异或差异。在后续下游步骤中,将对变异进行批注并进行解释。对单个样本的二次分析时间从数小时到数天不等,具体取决于数据大小、可用计算资源、软件和分析工作流。
二次分析是一个计算和存储密集型过程,特别是在处理成百上千个基因组时更是如此。人们会采用许多策略来避免二次分析瓶颈。直到最近,由于硬件加速器需要自定义软件,使用 GPU 或 FPGA 的硬件加速的采用率仍然很低。 Parabricks2019 年被 NVIDIA 收购的基因组学软件开创了使用 GPU 执行各种基因组分析工作流程的软件堆栈。我们测试了 Parabricks大约两年前。戴尔在其服务器和存储解决方案中引入了许多技术进步,NVIDIA Clara Parabricks 发布了具有增强加速和添加变体调用器的稳健版本。例如,基于配备 NVIDIA® Tesla® T4 GPU 的 Dell EMC DSS 8440 服务器的多 GPU 服务器设计看起来很有希望加快辅助分析,同时在价格和性能之间实现了极具吸引力的平衡。此博客介绍了 NVIDIA Clara 的新参考体系结构和基准测试结果 Parabricks 在配备戴尔 Isilon F800 存储的多 Tesla® T4 GPU、DSS 8440 服务器上进行二次分析。
参考架构
图 1 说明了经测试的参考体系结构。该体系结构采用模块化结构且易于扩展。The NVIDIA Clara Parabricks 应用程序软件使用一个或多个 GPU,使横向扩展尽可能简单。硬件构造块包括作为管理节点的 Dell PowerEdge R640 、用于 GPU 计算的 DSS 8440 服务器,以及 Dell EMC Isilon F800 存储。
图 1 经测试的参考体系结构
DSS 8440 2 路 4U 服务器最多可容纳 10 个 NVIDIA® Tesla® V100S Tensor Core GPU、最多 10 个 NVIDIA® Quadro RTX™ GPU,或最多 16 个 NVIDIA Tesla T4 GPU,从而提供所需强劲动力。表 1 列出了 DSS 8440 的详细配置。
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
两个 Z9100 的交换机提供了计算节点与 Isilon F800 存储群集之间的互连。另一个交换机 N2248X-ON 用于执行管理。
NGS 数据
用于基准二次分析运行时间的数据包括三个人类全基因组测序 (WGS) 数据集, 即 ERR091571、 SRR3124837
和 ERR194161
,分别代表 10 倍、30 倍和 50 倍样本覆盖率。这些数据集可在欧洲 核苷酸档案馆 (ENA)
获得。
性能评估
软件改进缩短了运行时间。
NVIDIA 继续为 NVIDIA Clara 引入软件改进 Parabricks。图 2 显示了两个版本之间的运行时间减少 Parabricks 使用配备 4 个 V100 GPU 的 Dell PowerEdge C4140 服务器测试环境运行生殖系管道。从 v2.1.0 迁移到 v3.0.0 后,运行时间缩短了 42%。
图 2:最新版本的 Parabricks 种系变体调用管道运行时。
配有 16 个 T4 的 DSS 8440 的性能
NVIDIA Clara 的运行时 Parabricks 使用单个 T4 GPU 进行辅助分析比使用一个 V100 GPU 慢约 30%。但是,两 (2) 个 T4 GPU 提供的 TFLOPS 约比一 (1) 个 V100 GPU 多 10%,成本约为一半。DSS 8440 提供多达 16 个 PCIe 插槽,这为设计基于 T4 GPU 的服务器提供了可能性,该服务器可提供与具有四个 V100 GPU 的 C4140 系统类似的运行时性能,但成本更低。
这 Parabricks 使用具有 16 个 T4 GPU 的 PowerEdge DSS 8440 进行种系分析。对于前面所述的每个 WGS 样本数据集,每次二次分析使用 1、2、4、8 和 16 个 T4 GPU 记录运行时间。结果如图 3 至图 5 所示。总的来说,运行时间不会随着每次分析的 GPU 数量的增加而线性扩展。扩展模式类似于每个样本的数据量从 10 倍增加到 50 倍。
虽然此处未介绍,但之前 Dell EMC 对 Parabricks 每次分析使用 8 个或更多 V100 GPU 的运行时结果的扩展效率不如 T4 GPU。进一步的测试表明,6 个 T4 GPU 生成的运行时结果几乎与 4 个 V100 GPU 完全相同。
图 3 与 10x WGS 的性能比较
图 4 与 30x WGS
的性能比较图 5 与 50x WGS 的性能比较
结论
配备十六个 T4 GPU 的 DSS 8440 每天可以处理 30 个 50x 测序深度的人类基因组。使用传统 x86 CPU 体系结构的类似每日分析吞吐量需要 10 个 PowerEdge C6420 计算节点。适用于 HPC 生命科学的戴尔就绪型解决方案中讨论了完整的体系结构:使用 Cascade Lake CPU 和 Lustre ME4 刷新的 BWA-GATK 管道吞吐量测试。
但是,将所有 16 个 T4 GPU 用于处理一个样本几乎没有好处,因为每次分析使用 16 个 GPU 最多比使用 8 个 GPU 快 10%。DSS 8440 的设计允许并行进行多个二次分析。通过为每个样本分配八个 T4 GPU,每日分析吞吐量可增加到每天处理约 50 个基因组。每个样本使用四个 GPU 会将分析吞吐量增加到每天约 70 个基因组。更重要的是,使用 T4 GPU 的每日输出不到使用 V100 GPU 设计成本的一半。
除了速度之外,与其他分析工具的兼容性对结果的可比性至关重要。而 Parabricks 种系分析结果与先前测试中著名的 BWA-GATK 单倍型调用者分析几乎相同。我们还想将 Parabricks 变体调用结果与其他工具集进行比较,例如 samtools/mpileup。这两种不同的工具对于已识别的变异达到~90%的总体一致性,并且许多包含重要基因的已知基因组区域的变异一致性超过99%。