PowerEdge:使用 Dell EMC DSS 8440 伺服器和 NVIDIA T4 GPU,透過 NVIDIA Clara Parabricks 加速基因組資料分析
Summary: 本文提供在配備 NVIDIA T4 GPU 的 Dell EMC DSS 8440 上使用 NVIDIA Parabricks 加速基因組資料分析的相關資訊。
Instructions
概觀
處理二代測序 (NGS) 數據的第一步稱為初級分析。此步驟特定於測序儀器,並生成多個包含測序讀數的FASTQ檔。在下一步中,稱為二次分析,將FASTQ測序讀數映射到參考基因組或參考轉錄組。更多的處理可以識別感興趣的樣本和參考之間的變體或差異。變體將在後續的下游步驟中進行註釋和解釋。單個樣品的二次分析時間從幾小時到幾天不等,具體取決於數據大小、可用的計算資源、軟體和分析工作流程。
二次分析是一個計算和存儲密集型過程,尤其是在處理數百到數千個基因組時。存在許多策略來避免二次分析瓶頸。直到最近,由於硬體加速器需要定製軟體,使用GPU或FPGA的硬體加速的採用率仍然很低。 Parabricks' 基因組學軟體於 2019 年被 NVIDIA 收購,開創了使用 GPU 執行各種基因組分析工作流程的軟體堆疊。我們已測試 Parabricks大約兩年前。Dell 在其伺服器和儲存解決方案以及 NVIDIA Clara 方面引進了許多技術進展 Parabricks 發佈了具有增強加速和添加變體調用者的強大版本。例如,以 Dell EMC DSS 8440 伺服器為基礎的多 GPU 伺服器設計,搭配 NVIDIA® Tesla® T4 GPU,看起來很有前景,可以加速二次分析,同時在價格與效能之間取得極具吸引力的平衡。此部落格報告 NVIDIA Clara 的新參考架構和效能指標結果 Parabricks 在多 Tesla® T4 GPU、DSS 8440 伺服器上搭配 Dell Isilon F800 儲存裝置的二次分析。
參考架構
圖 1 展示了經過測試的參考架構。該架構是模組化的,易於擴展。英偉達克拉拉 Parabricks 應用程式軟體使用一或多個 GPU,使橫向擴充盡可能簡單。硬體建構區塊包含作為管理節點的 Dell PowerEdge R640 、適用於 GPU 運算的 DSS 8440 伺服器,以及 Dell EMC Isilon F800 儲存裝置。
圖 1已測試的參考架構
DSS 8440,2 插槽,4U 伺服器最多可採用 10 個業界領先的 NVIDIA® Tesla® V100S Tensor 核心 GPU、最多 10 個 NVIDIA® Quadro RTX™ GPU,或最多 16 個 NVIDIA Tesla T4 GPU,提供超大馬力。DSS 8440 的詳細組態列於表 1。
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
兩個 Z9100-ON 交換器提供了運算節點和 Isilon F800 儲存叢集之間的互連。另一個交換器 N2248X-ON 也用於管理。
NGS 資料
用於基準二次分析運行時的數據包括三個人類全基因組測序 (WGS) 數據集、 ERR091571、 SRR3124837
和 ERR194161
,分別代表 10x、30x 和 50x 的樣本覆蓋率。這些數據集可在歐洲 核苷酸檔案館(ENA)
獲得。
效能評估
軟體改進縮短了運行時間。
NVIDIA 持續推出對 NVIDIA Clara 的軟體改善 Parabricks。圖 2 顯示了兩個版本之間的執行時間縮減 Parabricks 使用 Dell PowerEdge C4140 伺服器與 4 個 V100 GPU 測試環境執行種系管道。從 v2.1.0 遷移到 v3.0.0 將執行時間縮短了 42%。
圖 2:最新版本的 Parabricks 種系變體調用管道運行時。
DSS 8440 搭配 16 個 T4s 的效能
NVIDIA Clara 的執行階段 Parabricks 使用單個 T4 GPU 進行二次分析比使用一個 V100 GPU 慢約 30%。但是,兩 (2) 個 T4 GPU 提供的 TFLOPS 比一 (1) 個 V100 GPU 多出約 10%,成本約為其一半。DSS 8440 提供最多 16 個 PCIe 插槽,為設計 T4 GPU 型伺服器提供了可能性,該伺服器的執行階段效能與配備四個 V100 GPU 的 C4140 系統類似,但成本較低。
這 Parabricks 使用搭載 16 個 T4 GPU 的 PowerEdge DSS 8440 進行種系分析。對於前面描述的每個 WGS 示例數據集,每次二次分析使用 1、2、4、8 和 16 個 T4 GPU 記錄運行時。結果如圖 3 到 5 所示。整體而言,執行階段不會隨著每次分析的 GPU 數目增加而線性擴充。縮放模式類似於每個樣本的數據量從 10 倍增加到 50 倍的覆蓋率。
雖然此處未介紹,但較早前的 Dell EMC 調查 Parabricks 每項分析使用八個或更多 V100 GPU 的運行時結果,擴充效率不如 T4 GPU。更多測試顯示,6 個 T4 GPU 產生的執行階段結果與 4 個 V100 GPU 幾乎相同。
圖 3 與 10 個 WGS 的效能比較
圖 4 與 30 個 WGS
的效能比較圖 5 與 50 倍 WGS 的效能比較
結論
配備 16 個 T4 GPU 的 DSS 8440 每天可處理 30 個 50 倍人類基因組。使用傳統 x86 CPU 架構的類似每日分析輸送量需要 10 個 PowerEdge C6420 運算節點。適用於 HPC 生命科學的 Dell Ready Solution 中會討論完整的架構:透過 Cascade Lake CPU 和 Lustre ME4 Refresh 進行 BWA-GATK 管道輸送量測試。
但是,將所有 16 個 T4 GPU 專用於處理一個樣本幾乎沒有什麼好處,因為每次分析使用 16 個 GPU 最多比使用 8 個 GPU 快 10%。DSS 8440 的設計允許並行進行多個二次分析。通過為每個樣本分配 8 個 T4 GPU,每日分析通量增加到每天 ~50 個基因組。每個樣品使用四個 GPU 可將分析通量提高到每天 ~70 個基因組。更重要的是,使用 T4 GPU 的每日輸出不到使用 V100 GPU 設計成本的一半。
除了速度之外,與其他分析工具的相容性對於結果的可比性至關重要。可使用 Parabricks 種系分析結果與先前測試中眾所周知的BWA-GATK單倍型呼叫者分析幾乎相同。我們還想將 Parabricks 變體調用結果與其他工具集進行比較,例如 samtools/mpileup。這兩種不同的工具對鑒定的變異達到~90%的總體一致性,許多包含重要基因的知名基因組區域的變異一致性超過99%。