跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表
  • 使用“Company Administration”(公司管理),管理Dell EMC站点、产品和产品级联系人。

利用 Intel FPGA PAC 上的 Falcon Accelerated Genomics Pipeline (FAGP) 推动基因组测序

摘要: 采用单个英特尔 FPGA 可编程加速卡的 Falcon Accelerated Genomics Pipeline 可在不到 3 小时的时间内通过备用变体呼叫管道处理 50 倍的全人类基因组。

本文可能已自动翻译。如果您对其质量有任何反馈,请使用此页面底部的表单告知我们。

文章内容


症状

采用单个英特尔 FPGA 可编程加速卡的 Falcon Accelerated Genomics Pipeline 可在不到 3 小时的时间内通过备用变体呼叫管道处理 50 倍的全人类基因组。 

 



概述、市场挑战(需求)、Falcon 解决方案满足需求

精准医学、基因组学和臅学使用基因组测序来进行研究、改善诊断、开发药物、提高医疗保健提供商的护理质量并优化产量。对于生命科学而言,基因组分析现在是一个关键应用程序,部分原因在于通过新一代测序 (NGS) 的进步大幅降低了数据收集的成本。除了数据收集的增加之外,大学、基因组研究中心、制药公司和医疗保健组织使用的基因组应用程序范围也显著增加。
每七个月,基因组数据量就会翻倍 (1)。因此,以高效且经济高效的方式处理数据变得至关重要。仅处理器解决方案的计算能力扩展速度不够快,无法跟上基因组数据增长的步伐。这导致了对硬件加速的需求。FPGA 等加速器正在成为满足此基因组数据爆炸的计算需求的关键。与其他硬件加速解决方案相比,Falcon Accelerated Genomics Pipeline (FAGP) 提供了灵活性、高吞吐量和更低的每样本成本。
 



什么是 FPGA、英特尔 PAC 产品和优势

FPGA 是硅片设备,可以使用与您的工作负载完全匹配的数据路径(如基因组测序、数据分析或压缩)动态重新编程,如 图 1 所示。这种多功能性支持调配更快的处理、更节能的计算和更低的延迟服务 — 降低您的总拥有成本,并在数据中心的功率、空间和冷却限制范围内更大限度地提高计算容量。
传统上,FPGA 需要深厚的领域专业知识来进行编程。为了简化开发流程并实现跨数据中心的快速部署,英特尔提供了一个加速平台,其中包括基于 PCI Express* (PCIe*) 的英特尔 FPGA 可编程加速卡 (Intel FPGA PAC) 和英特尔®加速堆栈(带® FPGA)。这些英特尔平台通过 Dell EMC 进行合格、验证和部署。Intel Acceleration Platform 与 Falcon Computing 等生态系统合作伙伴一起提供可靠且现成的解决方案,并提供虚拟化的透明硬件。



SLN319291_en_US__1image (12669)
图 1 提高了标准 GATK 管道的准确性和速度
 



Falcon 解决方案详细信息:

基因组分析工具包 (GATK) 是基因组学社区接受的基因组数据处理的黄金标准 (2)。其最佳实践工作流 (BPW) 因其计算速度缓慢而众所周知,可为大型样本(如全基因组 (WGS) 生成结果。为了解决此问题,Falcon Computing Solutions 开发了一套灵活的软件包,该软件包遵循 BPW,可在多个平台和体系结构中轻松实施。  与基于 CPU 的 GATK 管道相比,速度要快几个数量级。
FAGP 提供了一种端到端解决方案,可使用 GATK 管道经济高效地分析基因组数据,并具有高性能、准确性和可重现性。该解决方案提供高达 15 倍的速度,准确度与 GATK (3) 相同。这意味着通常需要 50 到 60 小时的分析可以在 4 小时 (3) 内进行。FAGP 与高性能、可靠的 Intel Arria 10 FPGA 和英特尔®至强®处理器一起提供卓越的加速和准确性。
FAGP 遵循 GATK BPW。它在管道的许多组件中实施加速,从定位 (BWA) 到变体调用 (HaplotypeCaller) (4)。除了加速 BWA 之外,它还包含一个加速版本的对齐器 Minimap2,该版本是 Falcon 的备用基因组管道的一部分 (5)。  备用管道提供了更快的解决方案。它可以在 3 小时内完成 50 倍全基因组测序。两个对齐器都具有生成标记的重复和排序读取的功能,而无需使用其他工具。
FAGP 通过使用英特尔 FPGA PAC 平台加速 GATK 管道中的密集计算,实现高性能/吞吐量。这与通过添加更多 CPU 资源实现高吞吐量的横向扩展解决方案不同。此类横向扩展解决方案在降低成本或按样本延迟方面的能力有限。
Falcon 解决方案的另一个优势是它是一个开放的 GATK 管道。用户可以控制管道中的各个步骤。中间数据将被保存,并且可以访问。


表 1 Falcon Accelerated 基因组学管道的优势

 
Falcon Accelerated 基因组学管道 (FAGP) 优势
真正的 GATK 支持多个 GATK 版本,包括 4.0
行业规模 在一天内运行五个完整基因组或 24 个完整外型
备选变体 < 对于 WGS,本地的 3 小时周转时间 (50 倍)
速度 执行 GATK 最佳做法管道的速度提高多达 >15 倍
利用现有 无需重写工作算法
 



戴尔硬件配置

表 2 Dell EMC PowerEdge R740xd 作为测试平台

Dell EMC PowerEdge R740xd
处理器 2 个英特尔(R) 至强 (R) 黄金级 6148 CPU,2.40 GHz
内存 384 GB @ 32x 16 GB RDIMM,2666 MT/s,双列
存储 RAID 0 中 4 个 1.2 TB 10K RPM SAS 12Gbps 512n 2.5 英寸热插拔硬盘 2 个 INTEL SSDPEDMD020T4 DC P3700 1.8T 软件 RAID 0
Fpga 英特尔可编程加速卡,采用英特尔 Arria® 10 GX FPGA(英特尔加速堆栈 1.1)
系统配置文件 性能
BIOS版本 2.1.3
超线程 Enabled
OS Red Hat Enterprise Linux Server 版本 7.4 (Ma 693.el7.x86_64) (3.10.0-693.el7.x86_64)



性能评估

在我们的基准测试中,我们使用了覆盖深度为 10 倍、30 倍和 50 倍的全人类基因组测序数据。


表 3 测试的全基因组测序数据

 
运行要点 覆盖深度 数据链接
ERR091571 10 倍 https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30 倍 https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50 倍 https://www.ebi.ac.uk/ena/data/view/ERR194161


 

结果

表 4 总结了使用 FAGP 和位于 DELL EMC PowerEdge R740xd 服务器中的 Intel FPGA PAC 在三个测试周期内完成 GATK 4.0 最佳做法管道所需的时间。


表 4 最佳做法管道版本 2.1.1 的总运行时间
样品 覆盖深度 测试 1 运行时间(分钟)
测试 2
测试 3
ERR091571 10 倍 75.63 76.67 76.38
SRR3124837 30 倍 160.00 162.77 161.38
ERR194161 50 倍 242.97 250.65 247.18

表 5 总结了完成备用管道所需的时间(以分钟为单位):Falcon Germline 使用 FAGP 和 Intel FPGA PAC 在 DELL EMC PowerEdge R740xd 服务器中进行了三个测试周期。


表 5 来自备用变体调用管道的总运行时数
样品 覆盖深度 测试 1 运行时间(分钟)
测试 2
测试 3
ERR091571 10 倍 62.70 58.21 59.80
SRR3124837 30 倍 130.38 129.90 129.95
ERR194161 50 倍 171.52 171.87 171.37
 



Falcon 基因组解决方案摘要

Falcon Accelerated 基因组学管道可提供高吞吐量、低成本/采样/日益。FAGP 与英特尔 FPGA 可编程加速卡和经认证的 DELL 服务器一起,提供了一个完整的解决方案,可以轻松地为您的基因组测序应用程序采用。
”在 TCGB,我们为全国客户提供基因组测序服务。Falcon Accelerated Genomics 管道* 使我们能够将周转时间从几天缩短到几个小时,同时保持行业标准 GATK 管道的准确性。”
- 基因组学与生物信息学 (TCGB) 技术中心总监 Li Xinmin Li 博士



资源 

1.基因组测序会产生大量数据,而我们不知道该如何处理它。[在线] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don-know-what-to-do-with-it。
2.GATK。[在线]
https://software.broadinstitute.org/gatk/3.加速基因组学。[在线]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4.BWA。[在线]
http://bio-bwa.sourceforge.net/bwa.shtml5.Minimap2。[在线] https://github.com/lh3/minimap2


原因

利用 Intel FPGA PAC 上的 Falcon Accelerated Genomics Pipeline (FAGP) 推动基因组测序

解决方案

采用单个英特尔 FPGA 可编程加速卡的 Falcon Accelerated Genomics Pipeline 可在不到 3 小时的时间内通过备用变体呼叫管道处理 50 倍的全人类基因组。

文章属性


受影响的产品

Dell EMC Ready Solution Resources, PowerEdge R740XD

上次发布日期

03 10月 2023

版本

4

文章类型

Solution