Dell EMC Ready Solutions for HPC Life Sciences 的 64 个计算节点配置每天可以处理 194 个基因组(覆盖深度为 50 倍)。
概览
变体调用 是一个从序列数据中识别变体的过程。此过程可帮助确定在单个基因组或转录器中的给定位置是否存在单核化多态化 (SNP)、插入和删除 (indels) 和或结构变体 (SV)。识别基因组变体的主要目标是与人类疾病相关联。虽然并非所有人类疾病都与基因变体相关,但变体调用可以为研究由基因变体引起的特定疾病的基因学家提供有价值的指导准则。BWA-GATK 是新一代测序 (NGS) 计算工具之一,旨在识别来自人类 NGS 数据的猝和体体变体。有一些变体识别工具,我们知道没有一个工具能够完美地执行 (1)。但是,我们选择了 GATK,这是最受欢迎的工具之一,作为我们的基准测试工具,以演示 Dell EMC Ready Solutions for HPC Life Sciences 在处理复杂和大规模 NGS 工作负载方面做得有多好。
此博客的目的是提供有关 Intel® Xeon® Gold 6248 处理器 for BWA-GATK 管道基准测试以及 Dell EMC Ready Solutions for HPC Lustre Storage(ME4 系列更新)(2)的宝贵性能信息。Xeon® Gold 6248 CPU 在使用超线程时具有 20 个物理核心或 40 个逻辑核心。测试群集配置汇总在表 1 中。
Dell EMC PowerEdge C6420 | |
---|---|
CPU | 2 个至强® Gold 6248 20 核 2.5 GHz (Cascade Lake) |
RAM | 12 个 16 GB,2933 MTps |
OS | RHEL 7.6 |
互连 | Intel® Omni-Path |
BIOS 系统配置文件 | 性能已优化 |
Logical Processor | Disabled |
虚拟化技术 | Disabled |
BWA | 0.7.15-r1140 |
Samtools | 1.6 |
GATK | 3.6-0-g89b7209 |
适用于 Lustre 存储的 Dell EMC 就绪型解决方案 | |
---|---|
节点数量 | 1 个 Dell EMC PowerEdge R640 作为 Integrated Manager for Lustre (IML) 2 个 Dell EMC PowerEdge R740 作为元数据服务器 (MDS) 2 个 Dell EMC PowerEdge R740 作为对象存储服务器 (OSS) |
处理器 | IML 服务器:双英特尔至强 Gold 5118 @ 2.3 GHz MDS 和 OSS 服务器:双英特尔至强 Gold 6136 ,3.00 GHz |
内存 | IML 服务器:12 个 8 GB 2,666 MT/s DDR4 RDIMM MDS 和 OSS 服务器:24 个 16 GiB 2,666 MT/s DDR4 RDIMM |
外部存储 控制器 |
2 个 Dell 12 Gb/s SAS HBA(在每个 MDS 上) 4 个 Dell 12 Gb/s SAS HBA(在每个 OSS 上) |
对象存储 机柜 |
4 个 ME4084,总共 336 个 8 TB NL 7.2K rpm SAS HDD |
元数据存储 机柜 |
1 个 ME4024,带 24 个 960 GB SAS SSD。支持多达 4.68 B 索引节点 |
RAID 控制器 | ME4084 和 ME4024 机柜中的双工 SAS RAID 控制器 |
操作系统 | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
BIOS版本 | 1.4.5 |
Intel Omni-Path IFS 版本 |
10.8.0.0 |
Lustre 文件系统 版本 |
2.10.4 |
IML 版本 | 4.0.7.0 |