Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

利用 Intel FPGA PAC 上的 Falcon Accelerated Genomics Pipeline (FAGP) 推动基因组测序

Résumé: 采用单个英特尔 FPGA 可编程加速卡的 Falcon Accelerated Genomics Pipeline 可在不到 3 小时的时间内通过备用变体呼叫管道处理 50 倍的全人类基因组。

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

采用单个英特尔 FPGA 可编程加速卡的 Falcon Accelerated Genomics Pipeline 可在不到 3 小时的时间内通过备用变体呼叫管道处理 50 倍的全人类基因组。 

 



概述、市场挑战(需求)、Falcon 解决方案满足需求

精准医学、基因组学和臅学使用基因组测序来进行研究、改善诊断、开发药物、提高医疗保健提供商的护理质量并优化产量。对于生命科学而言,基因组分析现在是一个关键应用程序,部分原因在于通过新一代测序 (NGS) 的进步大幅降低了数据收集的成本。除了数据收集的增加之外,大学、基因组研究中心、制药公司和医疗保健组织使用的基因组应用程序范围也显著增加。
每七个月,基因组数据量就会翻倍 (1)。因此,以高效且经济高效的方式处理数据变得至关重要。仅处理器解决方案的计算能力扩展速度不够快,无法跟上基因组数据增长的步伐。这导致了对硬件加速的需求。FPGA 等加速器正在成为满足此基因组数据爆炸的计算需求的关键。与其他硬件加速解决方案相比,Falcon Accelerated Genomics Pipeline (FAGP) 提供了灵活性、高吞吐量和更低的每样本成本。
 



什么是 FPGA、英特尔 PAC 产品和优势

FPGA 是硅片设备,可以使用与您的工作负载完全匹配的数据路径(如基因组测序、数据分析或压缩)动态重新编程,如 图 1 所示。这种多功能性支持调配更快的处理、更节能的计算和更低的延迟服务 — 降低您的总拥有成本,并在数据中心的功率、空间和冷却限制范围内更大限度地提高计算容量。
传统上,FPGA 需要深厚的领域专业知识来进行编程。为了简化开发流程并实现跨数据中心的快速部署,英特尔提供了一个加速平台,其中包括基于 PCI Express* (PCIe*) 的英特尔 FPGA 可编程加速卡 (Intel FPGA PAC) 和英特尔®加速堆栈(带® FPGA)。这些英特尔平台通过 Dell EMC 进行合格、验证和部署。Intel Acceleration Platform 与 Falcon Computing 等生态系统合作伙伴一起提供可靠且现成的解决方案,并提供虚拟化的透明硬件。



SLN319291_en_US__1image (12669)
图 1 提高了标准 GATK 管道的准确性和速度
 



Falcon 解决方案详细信息:

基因组分析工具包 (GATK) 是基因组学社区接受的基因组数据处理的黄金标准 (2)。其最佳实践工作流 (BPW) 因其计算速度缓慢而众所周知,可为大型样本(如全基因组 (WGS) 生成结果。为了解决此问题,Falcon Computing Solutions 开发了一套灵活的软件包,该软件包遵循 BPW,可在多个平台和体系结构中轻松实施。  与基于 CPU 的 GATK 管道相比,速度要快几个数量级。
FAGP 提供了一种端到端解决方案,可使用 GATK 管道经济高效地分析基因组数据,并具有高性能、准确性和可重现性。该解决方案提供高达 15 倍的速度,准确度与 GATK (3) 相同。这意味着通常需要 50 到 60 小时的分析可以在 4 小时 (3) 内进行。FAGP 与高性能、可靠的 Intel Arria 10 FPGA 和英特尔®至强®处理器一起提供卓越的加速和准确性。
FAGP 遵循 GATK BPW。它在管道的许多组件中实施加速,从定位 (BWA) 到变体调用 (HaplotypeCaller) (4)。除了加速 BWA 之外,它还包含一个加速版本的对齐器 Minimap2,该版本是 Falcon 的备用基因组管道的一部分 (5)。  备用管道提供了更快的解决方案。它可以在 3 小时内完成 50 倍全基因组测序。两个对齐器都具有生成标记的重复和排序读取的功能,而无需使用其他工具。
FAGP 通过使用英特尔 FPGA PAC 平台加速 GATK 管道中的密集计算,实现高性能/吞吐量。这与通过添加更多 CPU 资源实现高吞吐量的横向扩展解决方案不同。此类横向扩展解决方案在降低成本或按样本延迟方面的能力有限。
Falcon 解决方案的另一个优势是它是一个开放的 GATK 管道。用户可以控制管道中的各个步骤。中间数据将被保存,并且可以访问。


表 1 Falcon Accelerated 基因组学管道的优势

 
Falcon Accelerated 基因组学管道 (FAGP) 优势
真正的 GATK 支持多个 GATK 版本,包括 4.0
行业规模 在一天内运行五个完整基因组或 24 个完整外型
备选变体 < 对于 WGS,本地的 3 小时周转时间 (50 倍)
速度 执行 GATK 最佳做法管道的速度提高多达 >15 倍
利用现有 无需重写工作算法
 



戴尔硬件配置

表 2 Dell EMC PowerEdge R740xd 作为测试平台

Dell EMC PowerEdge R740xd
处理器 2 个英特尔(R) 至强 (R) 黄金级 6148 CPU,2.40 GHz
内存 384 GB @ 32x 16 GB RDIMM,2666 MT/s,双列
存储 RAID 0 中 4 个 1.2 TB 10K RPM SAS 12Gbps 512n 2.5 英寸热插拔硬盘 2 个 INTEL SSDPEDMD020T4 DC P3700 1.8T 软件 RAID 0
Fpga 英特尔可编程加速卡,采用英特尔 Arria® 10 GX FPGA(英特尔加速堆栈 1.1)
系统配置文件 性能
BIOS版本 2.1.3
超线程 Enabled
OS Red Hat Enterprise Linux Server 版本 7.4 (Ma 693.el7.x86_64) (3.10.0-693.el7.x86_64)



性能评估

在我们的基准测试中,我们使用了覆盖深度为 10 倍、30 倍和 50 倍的全人类基因组测序数据。


表 3 测试的全基因组测序数据

 
运行要点 覆盖深度 数据链接
ERR091571 10 倍 https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30 倍 https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50 倍 https://www.ebi.ac.uk/ena/data/view/ERR194161


 

结果

表 4 总结了使用 FAGP 和位于 DELL EMC PowerEdge R740xd 服务器中的 Intel FPGA PAC 在三个测试周期内完成 GATK 4.0 最佳做法管道所需的时间。


表 4 最佳做法管道版本 2.1.1 的总运行时间
样品 覆盖深度 测试 1 运行时间(分钟)
测试 2
测试 3
ERR091571 10 倍 75.63 76.67 76.38
SRR3124837 30 倍 160.00 162.77 161.38
ERR194161 50 倍 242.97 250.65 247.18

表 5 总结了完成备用管道所需的时间(以分钟为单位):Falcon Germline 使用 FAGP 和 Intel FPGA PAC 在 DELL EMC PowerEdge R740xd 服务器中进行了三个测试周期。


表 5 来自备用变体调用管道的总运行时数
样品 覆盖深度 测试 1 运行时间(分钟)
测试 2
测试 3
ERR091571 10 倍 62.70 58.21 59.80
SRR3124837 30 倍 130.38 129.90 129.95
ERR194161 50 倍 171.52 171.87 171.37
 



Falcon 基因组解决方案摘要

Falcon Accelerated 基因组学管道可提供高吞吐量、低成本/采样/日益。FAGP 与英特尔 FPGA 可编程加速卡和经认证的 DELL 服务器一起,提供了一个完整的解决方案,可以轻松地为您的基因组测序应用程序采用。
”在 TCGB,我们为全国客户提供基因组测序服务。Falcon Accelerated Genomics 管道* 使我们能够将周转时间从几天缩短到几个小时,同时保持行业标准 GATK 管道的准确性。”
- 基因组学与生物信息学 (TCGB) 技术中心总监 Li Xinmin Li 博士



资源 

1.基因组测序会产生大量数据,而我们不知道该如何处理它。[在线] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don-know-what-to-do-with-it。
2.GATK。[在线]
https://software.broadinstitute.org/gatk/3.加速基因组学。[在线]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4.BWA。[在线]
http://bio-bwa.sourceforge.net/bwa.shtml5.Minimap2。[在线] https://github.com/lh3/minimap2


Cause

利用 Intel FPGA PAC 上的 Falcon Accelerated Genomics Pipeline (FAGP) 推动基因组测序

Résolution

采用单个英特尔 FPGA 可编程加速卡的 Falcon Accelerated Genomics Pipeline 可在不到 3 小时的时间内通过备用变体呼叫管道处理 50 倍的全人类基因组。

Propriétés de l’article


Produit concerné

Dell EMC Ready Solution Resources, PowerEdge R740XD

Dernière date de publication

03 oct. 2023

Version

4

Type d’article

Solution