「PowerEdge:Dell EMC DSS 8440サーバーとNVIDIA T4 GPUを搭載したNVIDIA Clara Parabricksによるゲノム データ解析の高速化」
Summary: この記事では、NVIDIA T4 GPUを搭載したDell EMC DSS 8440でNVIDIA Parabricksを使用してゲノム データ解析を高速化する方法について説明します。
Instructions
概要
次世代シーケンシング(NGS)データを処理する最初のステップは、一次解析と呼ばれます。このステップは、シーケンシング デバイス固有のもので、配列の読み取りを含む複数のFASTQファイルを生成します。次のステップは、二次解析と呼ばれ、FASTQの配列読み取りが、参照ゲノムまたは参照トランスクリプトームにマップされます。さらに処理を行うと、対象サンプルと参照サンプルのバリアントまたは相違点が特定されます。このバリアントは、後続のダウンストリーム ステップで注釈が付けられ、解釈されます。1つのサンプルに対する二次解析には、データのサイズ、使用可能なコンピューティング リソース、ソフトウェア、分析ワークフローに応じて、数時間から数日かかります。
二次解析は、特に数百から数千のゲノムを処理する場合、コンピューティングとストレージの負荷が高いプロセスです。二次解析のボトルネックを回避するために、多くの戦略が存在します。最近までは、ハードウェア アクセラレーターにカスタム ソフトウェアが必要となるため、GPUまたはFPGAを使用したハードウェア アクセラレーションの採用は少ないままでした。 Parabricks2019年にNVIDIAに買収されたゲノミクスソフトウェアは、GPUを使用してさまざまなゲノム解析ワークフローを実行するソフトウェアスタックのパイオニアです。テスト済み Parabricks2年ほど前。Dellは、サーバーとストレージ ソリューションに多くの技術的進歩をもたらし、NVIDIA Claraを導入しました Parabricks は、高速化が強化され、バリアント呼び出し元が追加された堅牢なバージョンをリリースしました。たとえば、NVIDIA® Tesla® T4 GPUを搭載したDell EMC DSS 8440サーバーをベースにしたマルチGPUサーバー設計は、価格とパフォーマンスのバランスが魅力的であると同時に、二次分析を高速化するという点で有望に見えました。このブログでは、NVIDIA Claraの新しいリファレンス アーキテクチャとベンチマーク結果について説明します Parabricks Dell Isilon F800ストレージを搭載したマルチTesla® T4 GPU、DSS 8440サーバーの二次分析。
リファレンス アーキテクチャ
図1は、テストされたリファレンス アーキテクチャを示しています。このアーキテクチャはモジュラー型で、簡単に拡張可能です。The NVIDIA Clara Parabricks アプリケーション ソフトウェアは、1つまたは複数のGPUを使用して、スケールアウトを可能な限りシンプルにします。ハードウェア ビルディング ブロックは、管理ノードとしての Dell PowerEdge R640 、GPUコンピューティング用のDSS 8440サーバー、Dell EMC Isilon F800ストレージで構成されています。
図1テストされたリファレンス アーキテクチャ
DSS 8440、2ソケット、4Uサーバーは、業界をリードする最大10台のNVIDIA® Tesla® V100S Tensor Core GPU、最大10台のNVIDIA® Quadro RTX™ GPU、または最大16台のNVIDIA Tesla T4 GPUを搭載して、非常に大きな処理能力を提供します。表1に、DSS 8440の詳細構成がリストされています。
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
2つのZ9100–ONスイッチで、コンピュート ノードとIsilon F800ストレージ クラスター間の相互接続が提供されました。N2248X-ONの追加スイッチは、管理に使用されます。
NGSデータ
2次解析ランタイムのベンチマーキングデータは、3つのヒト全ゲノムシーケンシング(WGS)データセット(ERR091571、SRR3124837
、ERR194161
で構成されており、それぞれ10倍、30倍、50倍のサンプルカバレッジを表しています。これらのデータセットは、 European Nucleotide Archive(ENA)
で入手できます。
パフォーマンスの評価
ソフトウェアの改善により、ランタイムが短縮されます。
NVIDIAは、NVIDIA Claraにソフトウェアの改善を導入し続けています Parabricksの詳細を確認してください。図 2 は、2 つのバージョンの Parabricks 4 x V100 GPUのテスト環境を搭載したDell PowerEdge C4140サーバーを使用して、生殖細胞パイプラインを実行します。v2.1.0からv3.0.0に移行すると、実行時間が42%短縮されました。
図2:最新バージョンの Parabricks 生殖細胞バリアントの呼び出しパイプライン ランタイム。
16台のT4を搭載したDSS 8440のパフォーマンス
NVIDIA Claraのランタイム Parabricks 単一のT4 GPUを使用した場合のセカンダリー分析は、1つのV100 GPUを使用した場合よりも約30%遅くなります。ただし、2台のT4 GPUでは、1台のV100 GPUよりもおよそ半分のコストで約10%以上のTFLOPSを提供します。DSS 8440は最大16個のPCIeスロットを提供します。これにより、4基のV100 GPUを搭載したC4140システムと同等のランタイム パフォーマンスを低コストで提供するT4 GPUベースのサーバーを設計できます
ザ Parabricks 生殖細胞系解析は、16個のT4 GPUを搭載したPowerEdge DSS 8440を使用して行いました。前述の各 WGS サンプル データセットでは、2 次解析ごとに 1、2、4、8、16 個の T4 GPU を使用してランタイムが記録されました。結果は、図3~5に示します。全体として、解析あたりのGPU数が増加するにしたがって、ランタイムは直線的に増加しません。増加パターンは、サンプルあたりのデータ量が10x~50xのカバレッジで増加するのと同じです。
ここには記載されていませんが、Dell EMCが以前に行った調査 Parabricks 分析ごとに8つ以上のV100 GPUを使用したランタイム結果は、T4 GPUほど効率的に拡張されませんでした。さらなるテストでは、6基のT4 GPUで4基のV100 GPUとほぼ同じランタイム結果が生成されることが実証されました。
図3 10x WGSとのパフォーマンス比較
図 4 30x WGS とのパフォーマンス比較
図 5 50x WGS とのパフォーマンス比較
結論
16基のT4 GPUを搭載したDSS 8440は、1日あたり30 50xのヒトゲノムを処理できます。従来のx86 CPUアーキテクチャを使用した、同様の日次解析のスループットには、10個のPowerEdge C6420コンピュート ノードが必要です。完全なアーキテクチャについては、「Dell Ready Solution for HPC Life Sciences: Cascade Lake CPUとLustre ME4 Refreshを使用したBWA-GATKパイプラインのスループット テスト。
ただし、16台のT4 GPUすべてを使用して1つのサンプルを処理することにはほとんどメリットがなく、解析当たり16台のGPUを使用しても、8台のGPUを使用した場合よりも最高10%高速化されるのみです。DSS 8440の設計では、複数の二次解析を並行して実行できます。サンプルあたり8台のT4 GPUを割り当てることにより、日次解析スループットは1日あたり最大50ゲノムまで増加します。サンプルあたり4台のGPUを使用すると、1日あたり最大70ゲノムまで解析スループットが向上します。さらに、T4 GPUを使用した日次出力は、V100 GPU設計を使用した場合のコストの半分未満です。
速度に加えて、他の解析ツールとの互換性は、結果の比較可能性に不可欠です。「 Parabricks 生殖細胞解析の結果は、以前のテストからよく知られているBWA-GATK Haplotype caller解析とほぼ同じです。また、Parabricksバリアントの呼び出し結果を、次のような他のツールセットと比較したいと考えました。 samtools/mpileupの詳細を確認してください。これら2つの異なるツールは、同定されたバリアントに対して~90%の全体的な一致に達し、重要な遺伝子を含む多くのよく知られたゲノム領域の変異は99%以上一致しています。