適用於 HPC 生命科學的 Dell EMC Ready Solution:透過 Cascade Lake CPU 和 Lustre 和 ME4 重新整理的 BWA-GATK 管道輸送量測試
Summary: 封存為文章是基於不再連線託管的 HPC 說明文件,且文章無法經過編輯以符合 KB 版期望 適用於 HPC 生命科學的 Dell EMC Ready Solution:透過 Cascade Lake CPU 和 Lustre 和 ME4 重新整理的 BWA-GATK 管道輸送量測試
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
適用於 HPC 生命科學的 Dell EMC Ready Solutions 的 64 個運算節點組態每天可處理 194 個基因組 (50 倍覆蓋深度)。
概觀
變體呼叫 是我們從序列數據中識別變異的過程。該過程有助於確定單個基因組或轉錄組中的給定位置是否存在單個核苷酸多態性 (SNP)、插入和缺失 (indel) 和/或結構變異 (SV)。識別基因組變異的主要目標是與人類疾病有關。雖然並非所有人類疾病都與遺傳變異有關,但變異調用可以為研究由遺傳變異引起的特定疾病的遺傳學家提供有價值的指導。BWA-GATK是下一代測序(NGS)計算工具之一,旨在從人類NGS數據中識別種系和體細胞突變。有少數變體識別工具,我們知道沒有一個工具可以完美運行 (1)。但我們選擇了最受歡迎的工具之一 GATK 做為我們的效能指標工具,藉此展示 HPC 生命科學適用的 Dell EMC 就緒解決方案,以展示其處理複雜且龐大的 NGS 工作負載的能力。
本部落格旨在透過適用於 HPC Lustre 儲存裝置 (ME4 系列重新整理) 的 Dell EMC Ready Solutions,提供適用於 BWA-GATK 管道效能指標的 Intel® Xeon® Gold 6248 處理器效能指標的重要效能資訊 (2)。Xeon® Gold 6248 CPU 在使用超執行緒時,具有 20 個實體核心或 40 個邏輯核心。表 1 匯總了測試群集配置。
| Dell EMC PowerEdge C6420 | |
|---|---|
| CPU | 2 個 Xeon® Gold 6248,20 核心,2.5 GHz (Cascade Lake) |
| RAM | 12 個 16 GB,2933 MTps |
| 作業系統 | RHEL 7.6 |
| 互聯 | Intel® Omni-Path |
| BIOS 系統設定檔 | 效能最佳化 |
| 邏輯處理器 | 已停用 |
| 虛擬化技術 | 已停用 |
| 布瓦 | 0.7.15-R1140 |
| 薩姆工具 | 1.6 |
| 加特克 | 3.6-0-G89B7209 |
經測試的運算節點透過 Intel® Omni-Path 連接至 HPC Lustre 儲存的 Dell EMC 就緒解決方案。表 2 中列出了存儲的摘要配置。
表 2 解決方案軟硬體規格
| 適用於 Lustre 儲存的 Dell EMC Ready Solution | |
|---|---|
| 節點數 | 1 個 Dell EMC PowerEdge R640 (整合式 Lustre Manager [IML]) 2 個 Dell EMC PowerEdge R740 (中繼資料伺服器 (MDS) 2 個 Dell EMC PowerEdge R740 (物件儲存伺服器 [OSS]) |
| 處理器 | IML 伺服器:雙 Intel Xeon Gold 5118 @ 2.3 GHz MDS 和 OSS 伺服器:雙 Intel Xeon Gold 6136 @ 3.00 GHz |
| 記憶體 | IML 伺服器:12 條 8 GB 2,666 MT/秒 DDR4 RDIMM MDS 和 OSS 伺服器:24 x 16 GiB 2,666 MT/s DDR4 RDIMM |
| 外接式儲存 控制器 |
2 個 Dell 12 Gb/s SAS HBA (在每個 MDS 上) 4 個 Dell 12 Gb/s SAS HBA (在每個 OSS 上) |
| 物件儲存 機櫃 |
4x ME4084,共 336 x 8TB NL 7.2K rpm SAS HDD |
| 中繼資料儲存 機櫃 |
1x ME4024,含 24x 960 GB SAS SSD。支援高達 4.68 B 的 inode |
| RAID 控制器 | ME4084 和 ME4024 機櫃中的雙工 SAS RAID 控制器 |
| 作業系統 | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
| BIOS 版本 | 1.4.5 |
| Intel Omni-Path IFS 版本 |
10.8.0.0 |
| Lustre 檔案系統 版本 |
2.10.4 |
| IML 版本 | 4.0.7.0 |
測試數據是從Illumina的鉑基因組中選擇的。ERR194161由Illumina提交的Illumina HiSeq 2000處理,可以從EMBL-EBI獲得。這個人的DNA標識碼是NA12878。鏈接網站中的數據描述顯示,該樣本的 >覆蓋深度為 30 倍。
效能評估
單樣本多節點效能
圖 1 總結了具有 50 倍全基因組測序 (WGS) 數據的各種樣本和計算節點的運行時。此處執行的測試旨在展示伺服器層級的效能,而非個別元件的比較。圖 1 中的數據點是根據同時處理的樣本總數計算的,每個計算節點(圖中的 X 軸)一個樣本。BWA-GATK管道資訊的詳細情況可從布羅德研究所網站獲得(3)。用於測試的運算節點數量上限為 64 個 C6420。配備 Lustre ME4 的 C6420 比 Lustre MD3 展現出更佳的縮放行為。
圖 1 Lustre MD3 和 Lustre ME4 的效能比較
多重範例多節點效能
運行NGS管道的典型方式是在計算節點上運行多個樣本,並使用多個計算節點來最大化NGS數據處理的輸送量。用於測試的計算節點數為 64 個 C6420 計算節點,每個節點的樣本數為 5 個樣本。同時處理多達 320 個樣本,以估計每天沒有作業失敗的最大基因組數量。如圖 2 所示,當同時處理 5 個樣本時,單個 C6420 計算節點每天可處理 3.24 個 50 倍人類全基因組。對於每個樣本,分配 7 個內核和 30 GB 記憶體。
圖 2 最多 64 個 C6420 和 Lustre ME4
的輸送量測試50x 全人類基因組中的 320 個可以在 40 小時內處理 64 個 C6420 計算節點。 換句話說,測試配置的性能總結為全人類基因組 每天 194 個基因組 ,覆蓋深度為 50 倍。
結論
隨著WGS的數據規模不斷增長。WGS 目前的平均大小為 50 倍。這比 4 年前我們開始對 BWA-GATK 管道進行基準測試時的典型 WGS 大 5 倍。不斷增加的資料量並不會使儲存端容量緊張,因為管道中的大多數應用程式也受到 CPU 時脈速度的限制。因此,隨著數據大小的增長,管道運行的時間會更長,而不是生成更多的寫入。但是,由於需要並行化的數據越多,在此過程中生成的臨時文件數量會更多,而同時打開的臨時檔數量的增加會耗盡Linux操作系統中的打開檔限制。其中一個應用程式以靜默方式無法完成,方法是達到打開的檔案數量的限制。一個簡單的解決方案是將限制 >增加到 150K。
儘管如此,將 Lustre ME4 作為暫存空間的 Ready Solution 比以前的版本具有更好的吞吐能力。現在,64 個節點的 Ready Solution 可標記 50 倍 WGS 每天 194 個基因組的處理能力。
資源
1.新一代基因組測序資料變異分析工具綜述。帕賓格 S, 丹德 A, 費舍爾 M, 斯納伊德 R, 斯佩爾克 M, 埃夫雷莫娃 M, 克拉比希勒 B, 斯派克 MR, 茲肖克 J, 特拉哈諾斯基 Z. 2, s.l.:簡介生物資訊,2014年3月,第15卷(2)。10.1093/圍兜/BBS086.2.適用於 HPC Lustre 儲存的 Dell EMC Ready Solution。 (文章不再提供參考,由 HPC 團隊提取)
3.基因組分析工具包。https://software.broadinstitute.org/gatk/
Cause
封存為文章是基於不再連線託管的 HPC 說明文件,且文章無法經過編輯以符合 KB 版期望
Resolution
封存為文章是基於不再連線託管的 HPC 說明文件,且文章無法經過編輯以符合 KB 版期望
Affected Products
Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sep 2025
Version: 7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.