PowerEdge:透過 Intel FPGA PAC 上的 Falcon 加速基因組管道 (FAGP) 提升基因組排序
Summary: Falcon 加速基因組學流水線採用單一英特爾 FPGA 可程式設計加速卡,可通過替代變體調用流水線在不到 3 小時內處理 50 倍全人類基因組。
Symptoms
Falcon 加速基因組學流水線採用單一英特爾 FPGA 可程式設計加速卡,可通過替代變體調用流水線在不到 3 小時內處理 50 倍全人類基因組。
概述,市場挑戰(需要),獵鷹解決方案滿足需求:
精準醫學、基因組學和表觀遺傳學正在使用基因組測序來開展研究、改善診斷、開發藥物、提高醫療保健提供者的護理品質,並優化作物生產。對於生命科學來說,基因組分析現在是一個關鍵的應用,部分原因是下一代測序(NGS)的進步大大降低了數據收集的成本。除了增加數據收集外,大學、基因組研究中心、製藥公司和醫療保健組織使用的基因組應用範圍也顯著增長。
每七個月,基因組數據量就會翻一番(1)。以高效且具有成本效益的方式處理數據變得至關重要。僅支援處理器解決方案的運算能力擴充速度不夠快,無法跟上基因體資料的增長速度。這導致了對硬體加速的需求。FPGA 等加速器在滿足這種基因組數據爆炸的計算需求方面變得至關重要。與其他硬體加速解決方案相比,Falcon加速基因組學管道(FAGP)具有靈活性、高通量和更低的單樣本成本。
什麼是 FPGA、英特爾 PAC 產品和優勢:
FPGA 是矽器件,可以使用與您的工作負載完全匹配的數據路徑動態重新程式設計,例如基因組測序、數據分析或壓縮,如圖 1 所示。這種多功能性支援配置更快的處理、更節能的計算和更低的延遲服務,從而降低您的總擁有成本,並在數據中心的電源、空間和冷卻限制下最大限度地提高計算能力。
傳統上,FPGA需要深厚的領域專業知識才能程式設計。為了簡化開發流程並實現跨數據中心的快速部署,英特爾提供了一個加速平臺,其中包括基於PCI Express* (PCIe*) 的英特爾 FPGA 可程式設計加速卡(英特爾 FPGA PAC)和英特爾至強® CPU (含 FPGA)的英特爾®加速堆疊。這些 Intel 平台均透過 Dell EMC 進行資格認證、驗證和部署。Intel 加速平台與 Falcon Computing 等生態系統合作夥伴合作,提供可靠且隨時可用的解決方案,並在引擎蓋下提供透明的硬體。
圖 1:提高標準 GATK 管道的準確性和速度
Falcon 解決方案詳細資料:
基因組分析工具包 (GATK) 是基因組學界接受的基因組數據處理的黃金標準 (2)。其最佳實踐工作流程 (BPW) 以其計算速度慢而聞名,無法為全基因組 (WGS) 等大樣本生成結果。為了解決這個問題,Falcon Computing Solutions開發了一個靈活的工具包,該軟體包遵循BPW,可以在多個平臺和架構中實施。與基於 CPU 的 GATK 流水線相比,它的速度快了幾個數量級。
FAGP 提供了一種端到端的解決方案,可使用 GATK 管道以高性能、準確性和可重複性經濟高效地分析基因組數據。該解決方案提供高達 15 倍的加速,精度與 GATK 相同 (3)。這意味著通常需要 50 到 60 小時的分析可以在 4 小時內完成 (3)。FAGP 通過高性能、可靠的英特爾 Arria 10 FPGA 和英特爾®至強®處理器提供卓越的加速和準確性。
FAGP遵循GATK BPW。它在管道的許多元件中實現了加速,從對齊 (BWA) 到變體調用(單倍型呼叫者)(4)。除了加速的BWA,它還包括一個加速版本的矯正器小地圖2,它是Falcon的備用基因組管道的一部分(5)。備用管道提供更快的解決方案。它可以在3小時內完成50x全基因組測序。兩種矯正器都具有生成標記重複項和排序讀取的功能,而無需使用其他工具。
FAGP 使用英特爾 FPGA PAC 平臺加速 GATK 流水線中的密集計算,從而實現高性能/高輸送量。這與通過添加更多 CPU 資源來實現高輸送量的橫向擴展解決方案不同。此類橫向擴展解決方案降低成本或按樣本延遲的能力有限。
Falcon解決方案的另一個優點是它是GATK的開放管道。用戶可以控制管道中的各個步驟。中間數據被保存並可供訪問。
表 1:Falcon加速基因組學管道的優勢
| Falcon 加速基因組管道 (FAGP) 優勢 | |
|---|---|
| 真正的嘎特克 | 支援多個 GATK 版本,包括 4.0 |
| 產業規模 | 在一天內運行五個全基因組或24個全外顯子組。 |
| 替代變體 | < WGS 現場 3 小時周轉時間 (50X) |
| 速度 | 執行 GATK 最佳實踐管道 >的速度提高了 15 倍。 |
| 利用現有 | 無需重寫工作演演演算法。 |
Dell 硬體組態
表 2:Dell EMC PowerEdge R740xd 作為試驗台
| Dell EMC PowerEdge R740xd | |
|---|---|
| 處理器 | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| 記憶體 | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| 儲存裝置 | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| FPGA | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| 系統設定檔 | Performance |
| BIOS 版本 | 2.1.3 |
| 超線程 | Enabled |
| 作業系統 | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
效能評估
在我們的基準測試中,我們使用覆蓋深度為 10 倍、30 倍和 50 倍的全人類基因組測序數據。
表 3:經測試的全基因組測序資料
| 執行加入 | 覆寫深度 | 資料連結 |
|---|---|---|
| ERR091571 | 10 倍 | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | 30 倍 | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | 50 倍 | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
結果:
表 4 總結了使用 FAGP 和安裝在 DELL EMC PowerEdge R740xd 伺服器中的英特爾 FPGA PAC 在三個測試週期內完成 GATK 4.0 最佳實踐流水線所需的時間。
表 4:最佳實務管道版本 2.1.1 的總執行時間
| 樣 | 覆寫深度 | 測試 1 | 執行階段 (分鐘) 測試 2 |
測試 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
表 5 總結了完成備用管道所花費的時間(以分鐘為單位):Falcon Germline 通過三個測試週期,使用 FAGP 和安裝在 DELL EMC PowerEdge R740xd 伺服器中的英特爾 FPGA PAC。
表 5:替代變體調用管道的總執行時間
| 樣 | 覆寫深度 | 測試 1 | 執行階段 (分鐘) 測試 2 |
測試 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
獵鷹基因組解決方案摘要
獵鷹加速基因組學管道提供高通量、低成本/樣品/天效益。結合英特爾 FPGA 可程式設計加速卡和經過認證的戴爾伺服器,FAGP 提供了可用於您的基因組測序應用的完整解決方案。
在TCGB,我們為全國客戶提供基因組測序服務。獵鷹加速基因組學管道*使我們能夠將周轉時間從幾天縮短到幾個小時,同時保持行業標準GATK管道的準確性。
— 李新民博士,加州大學洛杉磯分校基因組學和生物資訊學技術中心(TCGB)主任
資源
1.基因組測序會產生如此多的數據,以至於我們不知道如何處理它。[在線] https://www.washingtonpost.com/news/peak-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we't-know-to-do-to-to-that.
2.GATK [在線] https://software.broadinstitute.org/gatk/
3.加速基因組學 [在線] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4.布瓦。[在線]
http://bio-bwa.sourceforge.net/bwa.shtml5.小地圖2。[在線] https://github.com/lh3/minimap2