PowerEdge:使用 Dell EMC DSS 8440 伺服器和 NVIDIA T4 GPU,透過 NVIDIA Clara Parabricks 加速基因組資料分析

Summary: 本文提供在配備 NVIDIA T4 GPU 的 Dell EMC DSS 8440 上使用 NVIDIA Parabricks 加速基因組資料分析的相關資訊。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

概觀

處理二代測序 (NGS) 數據的第一步稱為初級分析。此步驟特定於測序儀器,並生成多個包含測序讀數的FASTQ檔。在下一步中,稱為二次分析,將FASTQ測序讀數映射到參考基因組或參考轉錄組。更多的處理可以識別感興趣的樣本和參考之間的變體或差異。變體將在後續的下游步驟中進行註釋和解釋。單個樣品的二次分析時間從幾小時到幾天不等,具體取決於數據大小、可用的計算資源、軟體和分析工作流程。

二次分析是一個計算和存儲密集型過程,尤其是在處理數百到數千個基因組時。存在許多策略來避免二次分析瓶頸。直到最近,由於硬體加速器需要定製軟體,使用GPU或FPGA的硬體加速的採用率仍然很低。 Parabricks' 基因組學軟體於 2019 年被 NVIDIA 收購,開創了使用 GPU 執行各種基因組分析工作流程的軟體堆疊。我們已測試 Parabricks大約兩年前。Dell 在其伺服器和儲存解決方案以及 NVIDIA Clara 方面引進了許多技術進展 Parabricks 發佈了具有增強加速和添加變體調用者的強大版本。例如,以 Dell EMC DSS 8440 伺服器為基礎的多 GPU 伺服器設計,搭配 NVIDIA® Tesla® T4 GPU,看起來很有前景,可以加速二次分析,同時在價格與效能之間取得極具吸引力的平衡。此部落格報告 NVIDIA Clara 的新參考架構和效能指標結果 Parabricks 在多 Tesla® T4 GPU、DSS 8440 伺服器上搭配 Dell Isilon F800此超連結會帶您前往 Dell Technologies 以外的網站。 儲存裝置的二次分析。 

參考架構

圖 1 展示了經過測試的參考架構。該架構是模組化的,易於擴展。英偉達克拉拉 Parabricks 應用程式軟體使用一或多個 GPU,使橫向擴充盡可能簡單。硬體建構區塊包含作為管理節點的 Dell PowerEdge R640 、適用於 GPU 運算的 DSS 8440 伺服器,以及 Dell EMC Isilon F800 儲存裝置。  

顯示伺服器與交換器之間連線的網路圖表 
圖 1已測試的參考架構
 


DSS 8440,2 插槽,4U 伺服器最多可採用 10 個業界領先的 NVIDIA® Tesla® V100S Tensor 核心 GPU、最多 10 個 NVIDIA® Quadro RTX™ GPU,或最多 16 個 NVIDIA Tesla T4 GPU,提供超大馬力。DSS 8440 的詳細組態列於表 1。

 

Dell EMC DSS 8440
CPU 2x Xeon® Gold 6248R 24 cores 3.0 GHz
RAM 24x 64GB at 2933 MTps
Operating System Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS System Profile Performance Optimized
Logical Processor Disabled
Virtualization Technology Disabled
Accelerators 16x NVIDIA® Tesla® T4 GPUs
Parabricks v3.0.0.05


兩個 Z9100-ON 交換器提供了運算節點和 Isilon F800 儲存叢集之間的互連。另一個交換器 N2248X-ON 也用於管理。
 

NGS 資料

用於基準二次分析運行時的數據包括三個人類全基因組測序 (WGS) 數據集、 ERR091571此超連結會帶您前往 Dell Technologies 以外的網站。SRR3124837此超連結會帶您前往 Dell Technologies 以外的網站。ERR194161此超連結會帶您前往 Dell Technologies 以外的網站。,分別代表 10x、30x 和 50x 的樣本覆蓋率。這些數據集可在歐洲 核苷酸檔案館(ENA)此超連結會帶您前往 Dell Technologies 以外的網站。獲得。

 

效能評估

軟體改進縮短了運行時間。
NVIDIA 持續推出對 NVIDIA Clara 的軟體改善 Parabricks。圖 2 顯示了兩個版本之間的執行時間縮減 Parabricks 使用 Dell PowerEdge C4140 伺服器與 4 個 V100 GPU 測試環境執行種系管道。從 v2.1.0 遷移到 v3.0.0 將執行時間縮短了 42%。

顯示 WGS 資料的 Nvidia clara Parabricks 長條圖
圖 2:最新版本的 Parabricks 種系變體調用管道運行時。

 

DSS 8440 搭配 16 個 T4s 的效能

NVIDIA Clara 的執行階段 Parabricks 使用單個 T4 GPU 進行二次分析比使用一個 V100 GPU 慢約 30%。但是,兩 (2) 個 T4 GPU 提供的 TFLOPS 比一 (1) 個 V100 GPU 多出約 10%,成本約為其一半。DSS 8440 提供最多 16 個 PCIe 插槽,為設計 T4 GPU 型伺服器提供了可能性,該伺服器的執行階段效能與配備四個 V100 GPU 的 C4140 系統類似,但成本較低。
Parabricks 使用搭載 16 個 T4 GPU 的 PowerEdge DSS 8440 進行種系分析。對於前面描述的每個 WGS 示例數據集,每次二次分析使用 1、2、4、8 和 16 個 T4 GPU 記錄運行時。結果如圖 3 到 5 所示。整體而言,執行階段不會隨著每次分析的 GPU 數目增加而線性擴充。縮放模式類似於每個樣本的數據量從 10 倍增加到 50 倍的覆蓋率。
雖然此處未介紹,但較早前的 Dell EMC 調查 Parabricks 每項分析使用八個或更多 V100 GPU 的運行時結果,擴充效率不如 T4 GPU。更多測試顯示,6 個 T4 GPU 產生的執行階段結果與 4 個 V100 GPU 幾乎相同。

效能比較長條圖,顯示搭配 10 個 WGS 的 GPU 執行時間
圖 3 與 10 個 WGS 的效能比較
 

效能比較長條圖,顯示搭配 30 倍 WGS 的 GPU 運作時間 
圖 4 與 30 個 WGS

效能比較長條圖,顯示使用 50 倍 WGS 時的 GPU 運作時間
的效能比較圖 5 與 50 倍 WGS 的效能比較 


結論

配備 16 個 T4 GPU 的 DSS 8440 每天可處理 30 個 50 倍人類基因組。使用傳統 x86 CPU 架構的類似每日分析輸送量需要 10 個 PowerEdge C6420 運算節點。適用於 HPC 生命科學的 Dell Ready Solution 中會討論完整的架構:透過 Cascade Lake CPU 和 Lustre ME4 Refresh 進行 BWA-GATK 管道輸送量測試。  


但是,將所有 16 個 T4 GPU 專用於處理一個樣本幾乎沒有什麼好處,因為每次分析使用 16 個 GPU 最多比使用 8 個 GPU 快 10%。DSS 8440 的設計允許並行進行多個二次分析。通過為每個樣本分配 8 個 T4 GPU,每日分析通量增加到每天 ~50 個基因組。每個樣品使用四個 GPU 可將分析通量提高到每天 ~70 個基因組。更重要的是,使用 T4 GPU 的每日輸出不到使用 V100 GPU 設計成本的一半。
除了速度之外,與其他分析工具的相容性對於結果的可比性至關重要。可使用 Parabricks 種系分析結果與先前測試中眾所周知的BWA-GATK單倍型呼叫者分析幾乎相同。我們還想將 Parabricks 變體調用結果與其他工具集進行比較,例如 samtools/mpileup。這兩種不同的工具對鑒定的變異達到~90%的總體一致性,許多包含重要基因的知名基因組區域的變異一致性超過99%。

Additional Information

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640
Article Properties
Article Number: 000180441
Article Type: How To
Last Modified: 12 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.