Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

「Dell EMC Ready Solution for HPC Life Sciences:Cascade Lake CPUとLustre ME4 Refreshを使用したBWA-GAKパイプラインスループット テスト

Résumé: 「Dell EMC Ready Solution for HPC Life Sciences:Cascade Lake CPUとLustre ME4 Refreshを使用したBWA-GAKパイプラインスループット テスト

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Dell EMC Ready Solutions for HPC Life Sciencesの64コンピューティング ノード構成では、1日あたり194個のゲノムを処理できます(カバー範囲は50倍)。

概要

バリアント呼び出しこのハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。 は、シーケンス データからバリアントを識別するプロセスです。このプロセスは、個々のゲノムまたはトランスクリプトメにおいて、特定の位置にSNP(単一のSNPS)、挿入と削除(インデル)、または構造バリアント(SVs)があるかどうかを判断するのに役立ちます。ゲノムの変動を特定する主な目的は、人間の疾患に関連しています。すべての人間の病気が遺伝子の変動に関連しているわけではありませんが、バリアント呼び出しは、遺伝子の変動によって引き起こされる特定の疾患に取り組む遺伝子学者にとって貴重なガイドラインを提供できます。BWA-GATKは、NGS(次世代シーケンシング)計算ツールの1つであり、人間のNGSデータから発生する生命線や体性の遺伝子を識別するように設計されています。いくつかのバリアント識別ツールがあり、完全に実行できるツールは1つではないことを理解しています(1)。しかし、Dell EMC Ready Solutions for HPC Life Sciencesが複雑で大規模なNGSワークロードをどの程度適切に処理できるかを実証するために、ベンチマーク ツールとして最も一般的なツールの1つであるGATKを選択しました。
このブログの目的は、Dell EMC Ready Solutions for HPC Lustre Storage(ME4シリーズ更新)(2)を使用して、BWA-GAKパイプライン ベンチマーク用インテル® Xeon® Gold 6248プロセッサーに関する貴重なパフォーマンス情報を提供することです。Xeon® Gold 6248 CPUは、ハイパースレッディング使用時に20個の物理コアまたは40個の論理コアを搭載しています。テスト クラスター構成の概要を表1に示します。

表1 テスト済みのコンピューティング ノード構成
 
Dell EMC PowerEdge C6420
CPU Xeon® Gold 6248 20コア2.5 GHz x 2(Cascade Lake)
RAM 16 GB x 12(2933 MTps)
OS RHEL 7.6
内部接続 インテル® Omni-Path
BIOSシステム プロファイル 最適化されたパフォーマンス
論理プロセッサー 無効
仮想化テクノロジー 無効
BWA 0.7.15-r1140
Samtools 1.6
GATK 3.6-0-g89b7209

テスト済みのコンピューティング ノードは、インテル® Omni-Pathを介してDell EMC Ready Solutions for HPC Lustre Storageに接続されました。ストレージのサマリー構成を表2に示します。
表2 ソリューションハードウェアおよびソフトウェアの仕様
 
Lustreストレージ向けDell EMC Readyソリューション
ノードの数 Integrated Manager for Lustre(IML)としてのDell EMC PowerEdge R640 x 1 メタデータ サーバー(MDS)

としてのDell EMC PowerEdge R740 x 2 オブジェクト ストレージ サーバー(OSS)としてのDell EMC PowerEdge R740 x 2
プロセッサ IMLサーバー: デュアル インテルXeon Gold 5118 @ 2.3 GHz
MDSおよびOSSサーバー: デュアル インテルXeon Gold 6136 @ 3.00 GHz
メモリー IMLサーバー: 12 x 8 GB 2,666 MT/s DDR4 RDIMM
MDSおよびOSSサーバー: 24 x 16 GiB 2,666 MT/s DDR4 RDIMM
外部ストレージ
コントローラ
Dell 12 Gb/秒SAS HBA x 2(各MDS)
4 x Dell 12 Gb/秒SAS HBA(各OSS)
オブジェクト ストレージ
エンクロージャ
ME4084 x 4(合計336 x 8TB NL 7.2K rpm SAS HDD)
メタデータ ストレージ
エンクロージャ
ME4024 x 1(960 GB SAS SSD x 24)。最大4.68 Bのinodeをサポート
RAIDコントローラ ME4084およびME4024エンクロージャ内のデュプレックスSAS RAIDコントローラー
オペレーティングシステム CentOS 7.5 x86_64
Red Hat Enterprise Linux(RHEL)7.5 x86_64
BIOSのバージョン 1.4.5
インテルOmni-Path
IFSバージョン
10.8.0.0
Lustreファイル システム
のバージョン
2.10.4
IMLバージョン 4.0.7.0

テスト データは、IlluminaのPlatinum Genomesのいずれかから選択されました。ERR194161は Illumina によって提出された Illumina HiSeq 2000 で処理され、OSTL-EBI から取得できます。この個人のDNA識別子はNA12878。リンクされたWebサイトからのデータの説明は、このサンプルのカバー範囲が >30倍であることを示しています。

パフォーマンスの評価

単一サンプルの複数ノードのパフォーマンス

図1では、50倍の全ゲノム シーケンシング(WGS)データを含むさまざまな数のサンプルとコンピューティング ノードのランタイムが要約されています。ここで実行されるテストは、個々のコンポーネントの比較ではなく、サーバー レベルでパフォーマンスを実証するように設計されています。図1のデータ ポイントは、コンカレントに処理されるコンピュート ノードごとに1つのサンプル(図のX軸)のサンプルの合計数に基づいて計算されます。BWA-GAKパイプライン情報の詳細は、Broad InstituteのWebサイト(3)から入手できます。テストに使用されるコンピューティング ノードの最大数は、C6420s x 64です。Lustre ME4を搭載したC6420sは、Lustre MD3よりも優れたスケーリング動作を示しています。

Lustre MD3とLustre ME4のパフォーマンス比較
図1 Lustre MD3とLustre ME4のパフォーマンス比較

複数のサンプル複数ノードのパフォーマンス

NGSパイプラインを実行する一般的な方法は、コンピューティング ノードで複数のサンプルを実行し、複数のコンピューティング ノードを使用してNGSデータ プロセスのスループットを最大化することです。テストに使用されるコンピューティング ノードの数はC6420コンピューティング ノードの64個で、ノードあたりのサンプル数は5個のサンプルです。ジョブに失敗することなく、1日あたりのゲノムの最大数を推定するために、最大320個のサンプルが同時に処理されます。
図2に示すように、1つのC6420コンピューティング ノードは、5つのサンプルが同時に処理されるときに、1日あたり50倍の全人ゲノムのうち3.24個を処理できます。サンプルごとに、7コアと30 GBのメモリーが割り当てられます。 

  最大64台のC6420とLustre ME4を使用したスループット テスト
図2:最大64台のC6420とLustre ME4

を使用したスループット テスト50分の1の全ゲノムのうち320個を、40時間で64個のC6420コンピューティング ノードで処理できます。  言い換えれば、このテスト構成のパフォーマンスは、 1日あたり194 個のゲノムを、50倍の範囲の人間のゲノム全体に対して要約しています。

結論

WGSのデータ サイズは絶えず増加しています。WGSの現在の平均サイズは50倍です。これは、BWA-GAKパイプラインのベンチマークを開始した4年前の一般的なWGSよりも5倍大きくなっています。増加するデータは、パイプライン内のほとんどのアプリケーションもCPUクロック 速度によって制限されているため、ストレージ側の容量に負担をかけることはありません。したがって、データ サイズの増加に伴い、より多くの書き込みを生成するのではなく、パイプラインの実行時間が長くなります。
ただし、処理中に生成される一時ファイルの数は多いため、並列化する必要があるデータの数が増え、同時に開く一時ファイルの数が増加すると、Linuxオペレーティング システムで開いているファイルの制限が使い果たされます。開いているファイルの数の上限に当たると、いずれかのアプリケーションがサイレントに完了しません。シンプルなソリューションは、制限を15万に >増やすことです。
それでも、Ready Solution with Lustre ME4をスクラッチ スペースとして使用すると、以前のバージョンよりもスループット容量が向上します。現在、64ノードのReady Solutionは、1日あたり194個のゲノムを処理し、50倍のWGSを処理しています。

リソース 

1.次世代ゲノム シーケンシング データのバリアント分析のためのツールに関する調査。Pabinger S、Dder A、Fischer M、Snajder R、Sperk M、Efremova M、Fraudchler B、Swercher MR、Zschocke J、Trajanoski Z. 2、s.l.です。Brief Bioinform、2014年3月、Vol. 15(2)。10.1093/rpm/bbs086。
2.HPC Lustreストレージ向けDell EMC Readyソリューション。  (記事は参照できなくなり、HPCチームが引き出す)
3.ゲノム解析ツールキット。https://software.broadinstitute.org/gatk/ このハイパーリンクをクリックすると、デル・テクノロジーズ以外のWebサイトにアクセスします。

Propriétés de l’article


Produit concerné

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Dernière date de publication

11 janv. 2024

Version

6

Type d’article

Solution