PowerEdge:利用 Intel FPGA PAC 上的 Falcon Accelerated Genomics Pipeline (FAGP) 推动基因组测序
Summary: Falcon Accelerated Genomics Pipeline 使用单个英特尔 FPGA 可编程加速卡,可通过 Alternative Variant Calling Pipeline 在不到 3 小时的时间内处理 50x 个人类全基因组。
Symptoms
Falcon Accelerated Genomics Pipeline 使用单个英特尔 FPGA 可编程加速卡,可通过 Alternative Variant Calling Pipeline 在不到 3 小时的时间内处理 50x 个人类全基因组。
概述、市场挑战(需求)、猎鹰解决方案如何满足需求:
精准医学、基因组学和表观遗传学正在使用基因组测序进行研究、改进诊断、开发药物、提高医疗保健提供者的护理质量以及优化作物生产。对于生命科学领域,基因组分析现在是一个关键应用,部分原因是下一代测序 (NGS) 的进步大大降低了数据收集成本。除了数据收集的增加外,大学、基因组研究中心、制药公司和医疗保健组织使用的基因组应用范围也显着增加。
每七个月,基因组数据量就会翻一番 (1)。以高效且具有成本效益的方式处理数据变得至关重要。纯处理器解决方案的计算能力扩展速度不够快,无法跟上基因组数据的增长。这导致了对硬件加速的需求。在满足这种基因组数据爆炸式增长的计算需求方面,FPGA 等加速器正变得越来越关键。与其他硬件加速解决方案相比,Falcon 加速基因组学管道 (FAGP) 具有灵活性、高通量和更低的每样本成本。
什么是 FPGA、英特尔 PAC 产品和优势:
FPGA 是可以使用与您的工作负载完全匹配的数据路径进行动态重新编程的硅器件,例如基因组测序、数据分析或压缩,如图 1 所示。这种多功能性支持配置更快的处理、更节能的计算和更低延迟的服务,从而降低您的总拥有成本,并在数据中心的电力、空间和冷却限制下最大限度地提高计算能力。
传统上,FPGA 需要深厚的领域专业知识才能进行编程。为了简化开发流程并实现跨数据中心的快速部署,英特尔提供了一个加速平台,其中包括基于 PCI Express* (PCIe*) 的英特尔 FPGA 可编程加速卡(英特尔 FPGA PAC)和®英特尔加速堆栈,适用于带 FPGA 的英特尔至强® CPU。这些英特尔平台经过 Dell EMC 认证、验证和部署。英特尔加速平台与 Falcon Computing 等生态系统合作伙伴携手,提供可靠且随时可用的解决方案,并在引擎盖下隐藏透明硬件。
图 1:提高标准 GATK 管道的准确性和速度
Falcon 解决方案详细信息:
基因组分析工具包 (GATK) 是基因组学界公认的基因组数据处理黄金标准 (2)。其最佳实践工作流程 (BPW) 以其计算速度慢而闻名,无法为全基因组 (WGS) 等大样本生成结果。为了解决这个问题,Falcon Computing Solutions开发了一个灵活的工具包,该软件包遵循BPW,可以在多个平台和架构中实施。与基于 CPU 的 GATK 管道相比,它的速度快了几个数量级。
FAGP 提供了一种端到端解决方案,可使用 GATK 管道以高性能、准确性和可重复性经济高效地分析基因组数据。该解决方案可提供高达 15 倍的加速,精度与 GATK 相同 (3)。这意味着通常需要 50 到 60 小时的分析可以在 4 小时内完成 (3)。FAGP 通过高性能、可靠的英特尔 Arria 10 FPGA 和英特尔®至强®处理器提供卓越的加速度和准确性。
FAGP 遵循 GATK BPW。它在管道的许多组件中实现了从比对 (BWA) 到变异检出 (HaplotypeCaller) 的加速 (4)。除了加速的 BWA 之外,它还包括一个加速版本的比对器 Minimap2,它是 Falcon 的 Alternate Genomic Pipeline 的一部分 (5)。备用管道可提供更快的解决方案。它可以在 3 小时内完成 50x 全基因组测序。两种对准器都具有生成标记重复项和排序读取的功能,而无需使用其他工具。
FAGP 通过使用英特尔 FPGA PAC 平台加速 GATK 管道中的密集计算来实现高性能/吞吐量。这与通过添加更多 CPU 资源来实现高吞吐量的横向扩展解决方案不同。这种横向扩展解决方案在降低成本或每个样本延迟方面的能力有限。
Falcon 解决方案的另一个优势是,它和 GATK 一样是开放式管道。用户可以控制管道中的各个步骤。中间数据已保存并可供访问。
表 1:Falcon 加速基因组学管道的优势
| Falcon Accelerated Genomics Pipeline (FAGP) 优势 | |
|---|---|
| 真正的 GATK | 支持多个 GATK 版本,包括 4.0 |
| 行业规模 | 在一天内运行 5 个全基因组或 24 个全外显子组。 |
| 替代变体 | < WGS 现场周转时间为 3 小时 (50X) |
| 速度 | GATK 最佳实践管道的执行速度提高 >15 倍。 |
| 利用现有的 | 无需重写工作算法。 |
戴尔硬件配置
表 2:Dell EMC PowerEdge R740xd 作为测试台
| Dell EMC PowerEdge R740xd | |
|---|---|
| 处理器 | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| 内存 | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| 存储 | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| FPGA | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| 系统配置文件 | Performance |
| BIOS 版本 | 2.1.3 |
| 超线程 | Enabled |
| OS | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
性能评估
在我们的基准测试中,我们使用了覆盖深度为 10 倍、30 倍和 50 倍的全人类基因组测序数据。
表 3:经测试的全基因组测序数据
| 运行加入 | 覆盖深度 | 数据链路 |
|---|---|---|
| ERR091571 | 10 倍 | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | 30 倍 | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | 50 倍 | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
结果:
表 4 总结了使用 FAGP 和 DELL EMC PowerEdge R740xd 服务器中的英特尔 FPGA PAC 在三个测试周期内完成 GATK 4.0 最佳实践管道所需的时间。
表 4:最佳实践管道版本 2.1.1 中的总运行时间
| 样本 | 覆盖深度 | 测试 1 | 运行时间(分钟) 测试 2 |
测试 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
表 5 汇总了完成备用管道所需的时间(以分钟为单位):使用 FAGP 和 DELL EMC PowerEdge R740xd 服务器中的英特尔 FPGA PAC 对三个测试周期进行 Falcon 种系。
表 5:来自替代变体调用管道的总运行时间
| 样本 | 覆盖深度 | 测试 1 | 运行时间(分钟) 测试 2 |
测试 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Falcon Genomic 解决方案摘要
Falcon Accelerated Genomics Pipeline提供高通量、低成本/样本/天优势。与英特尔FPGA可编程加速卡和经过认证的戴尔服务器一起,FAGP提供了一个完整的解决方案,可用于您的基因组测序应用。
在TCGB,我们为全国客户提供基因组测序服务。Falcon Accelerated Genomics Pipeline* 使我们能够将周转时间从几天缩短到几个小时,同时保持行业标准 GATK 管道的准确性。
— 李新民博士,加州大学洛杉矶分校基因组学和生物信息学技术中心(TCGB)主任
资源
1.对基因组进行测序会产生如此多的数据,以至于我们不知道该如何处理这些数据。[在线] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2.GATK [在线] https://software.broadinstitute.org/gatk/
3.加速基因组学 [在线] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4.妇女事务局。[在线的]
http://bio-bwa.sourceforge.net/bwa.shtml5.小地图2.[在线的] https://github.com/lh3/minimap2