PowerEdge:在配有 NVIDIA T4 GPU 的 Dell EMC DSS 8440 服务器上使用 NVIDIA Clara Parabricks 加速基因组数据分析速度

Summary: 本文提供有关在配备 NVIDIA T4 GPU 的 Dell EMC DSS 8440 上使用 NVIDIA Parabricks 加速基因组数据分析的信息。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

概览

处理下一代测序 (NGS) 数据的第一步称为初级分析。此步骤特定于测序仪器,并生成包含测序读数的多个 FASTQ 文件。在下一步(即所谓的二次分析)中,FASTQ 测序读数会映射到参考基因组或参考转录组。更多的处理可识别目标样品与参照样品之间的变异或差异。在后续下游步骤中,将对变异进行批注并进行解释。对单个样本的二次分析时间从数小时到数天不等,具体取决于数据大小、可用计算资源、软件和分析工作流。

二次分析是一个计算和存储密集型过程,特别是在处理成百上千个基因组时更是如此。人们会采用许多策略来避免二次分析瓶颈。直到最近,由于硬件加速器需要自定义软件,使用 GPU 或 FPGA 的硬件加速的采用率仍然很低。 Parabricks2019 年被 NVIDIA 收购的基因组学软件开创了使用 GPU 执行各种基因组分析工作流程的软件堆栈。我们测试了 Parabricks大约两年前。戴尔在其服务器和存储解决方案中引入了许多技术进步,NVIDIA Clara Parabricks 发布了具有增强加速和添加变体调用器的稳健版本。例如,基于配备 NVIDIA® Tesla® T4 GPU 的 Dell EMC DSS 8440 服务器的多 GPU 服务器设计看起来很有希望加快辅助分析,同时在价格和性能之间实现了极具吸引力的平衡。此博客介绍了 NVIDIA Clara 的新参考体系结构和基准测试结果 Parabricks 在配备戴尔 Isilon F800本超链接将引导您访问非 Dell Technologies 运营的网站。 存储的多 Tesla® T4 GPU、DSS 8440 服务器上进行二次分析。 

参考架构

图 1 说明了经测试的参考体系结构。该体系结构采用模块化结构且易于扩展。The NVIDIA Clara Parabricks 应用程序软件使用一个或多个 GPU,使横向扩展尽可能简单。硬件构造块包括作为管理节点的 Dell PowerEdge R640 、用于 GPU 计算的 DSS 8440 服务器,以及 Dell EMC Isilon F800 存储。  

显示服务器和交换机之间连接的网络图表 
图 1 经测试的参考体系结构
 


DSS 8440 2 路 4U 服务器最多可容纳 10 个 NVIDIA® Tesla® V100S Tensor Core GPU、最多 10 个 NVIDIA® Quadro RTX™ GPU,或最多 16 个 NVIDIA Tesla T4 GPU,从而提供所需强劲动力。表 1 列出了 DSS 8440 的详细配置。

 

Dell EMC DSS 8440
CPU 2x Xeon® Gold 6248R 24 cores 3.0 GHz
RAM 24x 64GB at 2933 MTps
Operating System Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS System Profile Performance Optimized
Logical Processor Disabled
Virtualization Technology Disabled
Accelerators 16x NVIDIA® Tesla® T4 GPUs
Parabricks v3.0.0.05


两个 Z9100 的交换机提供了计算节点与 Isilon F800 存储群集之间的互连。另一个交换机 N2248X-ON 用于执行管理。
 

NGS 数据

用于基准二次分析运行时间的数据包括三个人类全基因组测序 (WGS) 数据集, 即 ERR091571本超链接将引导您访问非 Dell Technologies 运营的网站。SRR3124837本超链接将引导您访问非 Dell Technologies 运营的网站。ERR194161本超链接将引导您访问非 Dell Technologies 运营的网站。,分别代表 10 倍、30 倍和 50 倍样本覆盖率。这些数据集可在欧洲 核苷酸档案馆 (ENA)本超链接将引导您访问非 Dell Technologies 运营的网站。 获得。

 

性能评估

软件改进缩短了运行时间。
NVIDIA 继续为 NVIDIA Clara 引入软件改进 Parabricks。图 2 显示了两个版本之间的运行时间减少 Parabricks 使用配备 4 个 V100 GPU 的 Dell PowerEdge C4140 服务器测试环境运行生殖系管道。从 v2.1.0 迁移到 v3.0.0 后,运行时间缩短了 42%。

显示 WGS 数据的 Nvidia clara parabricks 条形图
图 2:最新版本的 Parabricks 种系变体调用管道运行时。

 

配有 16 个 T4 的 DSS 8440 的性能

NVIDIA Clara 的运行时 Parabricks 使用单个 T4 GPU 进行辅助分析比使用一个 V100 GPU 慢约 30%。但是,两 (2) 个 T4 GPU 提供的 TFLOPS 约比一 (1) 个 V100 GPU 多 10%,成本约为一半。DSS 8440 提供多达 16 个 PCIe 插槽,这为设计基于 T4 GPU 的服务器提供了可能性,该服务器可提供与具有四个 V100 GPU 的 C4140 系统类似的运行时性能,但成本更低。
Parabricks 使用具有 16 个 T4 GPU 的 PowerEdge DSS 8440 进行种系分析。对于前面所述的每个 WGS 样本数据集,每次二次分析使用 1、2、4、8 和 16 个 T4 GPU 记录运行时间。结果如图 3 至图 5 所示。总的来说,运行时间不会随着每次分析的 GPU 数量的增加而线性扩展。扩展模式类似于每个样本的数据量从 10 倍增加到 50 倍。
虽然此处未介绍,但之前 Dell EMC 对 Parabricks 每次分析使用 8 个或更多 V100 GPU 的运行时结果的扩展效率不如 T4 GPU。进一步的测试表明,6 个 T4 GPU 生成的运行时结果几乎与 4 个 V100 GPU 完全相同。

性能比较条形图显示 10x WGS 时的 GPU 运行时
图 3 与 10x WGS 的性能比较
 

性能比较条形图显示 30x WGS 时的 GPU 运行时 
图 4 与 30x WGS

性能比较条形图显示 GPU 运行时和 50x WGS
的性能比较图 5 与 50x WGS 的性能比较 


结论

配备十六个 T4 GPU 的 DSS 8440 每天可以处理 30 个 50x 测序深度的人类基因组。使用传统 x86 CPU 体系结构的类似每日分析吞吐量需要 10 个 PowerEdge C6420 计算节点。适用于 HPC 生命科学的戴尔就绪型解决方案中讨论了完整的体系结构:使用 Cascade Lake CPU 和 Lustre ME4 刷新的 BWA-GATK 管道吞吐量测试。  


但是,将所有 16 个 T4 GPU 用于处理一个样本几乎没有好处,因为每次分析使用 16 个 GPU 最多比使用 8 个 GPU 快 10%。DSS 8440 的设计允许并行进行多个二次分析。通过为每个样本分配八个 T4 GPU,每日分析吞吐量可增加到每天处理约 50 个基因组。每个样本使用四个 GPU 会将分析吞吐量增加到每天约 70 个基因组。更重要的是,使用 T4 GPU 的每日输出不到使用 V100 GPU 设计成本的一半。
除了速度之外,与其他分析工具的兼容性对结果的可比性至关重要。而 Parabricks 种系分析结果与先前测试中著名的 BWA-GATK 单倍型调用者分析几乎相同。我们还想将 Parabricks 变体调用结果与其他工具集进行比较,例如 samtools/mpileup。这两种不同的工具对于已识别的变异达到~90%的总体一致性,并且许多包含重要基因的已知基因组区域的变异一致性超过99%。

Additional Information

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640
Article Properties
Article Number: 000180441
Article Type: How To
Last Modified: 12 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.