PowerEdge: Beschleunigte Genom-Datenanalysen mit Nvidia Clara Parabricks, Dell DSS 8440-Server und Nvidia T4-GPUs

Summary: Dieser Artikel enthält Informationen zur Beschleunigung der Genomdatenanalyse mithilfe von NVIDIA Parabricks auf Dell EMC DSS 8440 mit NVIDIA T4-GPUs.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Übersicht

Der erste Schritt zur Verarbeitung von NGS-Daten (Next Generation Sequencing) wird als Primäranalyse bezeichnet. Dieser Schritt ist spezifisch für das jeweilige Sequenzierungsinstrument und erzeugt mehrere FASTQ-Dateien, die Sequenzierungslesungen enthalten. Im nächsten Schritt, der als Sekundäranalyse bezeichnet wird, werden die FASTQ-Sequenzierungslesungen einem Referenzgenom oder einem Referenztranskriptom zugeordnet. Bei der weiteren Verarbeitung werden Varianten oder Unterschiede zwischen der interessierenden Stichprobe und einer Referenz identifiziert. Die Varianten werden in den nachfolgenden Downstream-Schritten annotiert und interpretiert. Die Zeit für die Sekundäranalyse einer einzelnen Probe reicht von Stunden bis hin zu Tagen, abhängig von der Datengröße, den verfügbaren Rechenressourcen, der Software und dem Analyse-Workflow. 

Die Sekundäranalyse ist ein rechen- und speicherintensiver Vorgang, insbesondere bei der Verarbeitung von Hunderten bis Tausenden von Genomen. Es gibt viele Strategien, um Engpässe bei der Sekundäranalyse zu vermeiden. Bis vor Kurzem war der Einsatz von Hardwarebeschleunigung mithilfe von GPUs oder FPGAs eher gering, da für Hardware-Accelerator benutzerdefinierte Software erforderlich ist. ParabricksDie 2019 von NVIDIA übernommene Genomiksoftware hat einen Software-Stack entwickelt, der verschiedene Workflows für die Genomanalyse mit GPUs durchführt. Wir haben getestet Parabricksvor etwa zwei Jahren. Dell hat viele technologische Fortschritte bei seinen Server- und Storage-Lösungen eingeführt und NVIDIA Clara Parabricks hat robuste Versionen mit verbesserter Beschleunigung und dem Hinzufügen von Variantenaufrufen veröffentlicht. Beispielsweise erschien ein Multi-GPU-Serverdesign basierend auf dem Dell EMC DSS 8440-Server mit NVIDIA® Tesla® T4-GPUs vielversprechend für die Beschleunigung der sekundären Analyse und bietet gleichzeitig ein attraktives Preis-Leistungs-Verhältnis. Dieser Blog berichtet über eine neue Referenzarchitektur und Benchmarkergebnisse für NVIDIA Clara Parabricks Sekundäre Analyse auf einer Multi-Tesla® T4-GPU, DSS 8440-Server mit Dell Isilon F800-StorageDieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies. 

Referenzarchitektur

Abbildung 1 zeigt die getestete Referenzarchitektur. Die Architektur ist modular und einfach zu skalieren. Die NVIDIA Clara Parabricks Die Anwendungssoftware verwendet eine oder mehrere GPUs, um das Scale-out so einfach wie möglich zu gestalten. Die Hardwarebausteine bestehen aus Dell PowerEdge R640 als Management-Node, DSS 8440-Server für GPU-Computing und Dell EMC Isilon F800-Speicher.  

Netzwerkdiagramm, das die Verbindung zwischen den Servern und Switches zeigt 
Abbildung 1: Getestete Referenzarchitektur
 


Ein DSS 8440-4-HE-Server mit 2 Sockeln kann bis zu 10 branchenführende NVIDIA® Tesla® V100S Tensor Core-GPUs, bis zu 10 NVIDIA® Quadro RTX™ GPUs oder bis zu 16 NVIDIA Tesla T4-GPUs aufnehmen und damit eine enorme Leistung bereitstellen. Die detaillierte Konfiguration des DSS 8440 ist in Tabelle 1 aufgeführt.

 

Dell EMC DSS 8440
CPU 2x Xeon® Gold 6248R 24 cores 3.0 GHz
RAM 24x 64GB at 2933 MTps
Operating System Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS System Profile Performance Optimized
Logical Processor Disabled
Virtualization Technology Disabled
Accelerators 16x NVIDIA® Tesla® T4 GPUs
Parabricks v3.0.0.05


Zwei Z9100-ON-Switches stellten die Verbindung zwischen dem Rechen-Node und dem Isilon F800-Storage-Cluster bereit. Ein zusätzlicher Switch (N2248X-ON) wurde für das Management verwendet.
 

NGS-Daten

Die Daten für das Benchmarking der Laufzeit der Sekundäranalyse bestanden aus drei Human-, Whole-Genom Sequencing(WGS)-Datensätzen, ERR091571Dieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies., SRR3124837Dieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies. und ERR194161Dieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies., die eine 10-fache, 30-fache bzw. 50-fache Probenabdeckung darstellten. Diese Datensätze sind im European Nucleotide Archive (ENA)Dieser Hyperlink führt Sie zu einer Website außerhalb von Dell Technologies. verfügbar.

 

Performance-Bewertung

Softwareverbesserungen verkürzen die Laufzeit.
NVIDIA führt weiterhin Softwareverbesserungen für NVIDIA Clara ein Parabricks. Abbildung 2 zeigt die Laufzeitverkürzung zwischen zwei Versionen des Parabricks Ausführen der Keimbahnpipeline mithilfe der Testumgebung Dell PowerEdge C4140-Server mit 4 V100-GPUs. Durch den Wechsel von v2.1.0 auf v3.0.0 reduzierte sich die Laufzeit um 42 %.

NVIDIA Clara Parabricks-Balkendiagramm mit WGS-Daten 
Abbildung 2: Neueste Version der Parabricks-Keimbahnvariante, die die Pipeline-Laufzeit aufruft.

 

Performance des DSS 8440 mit 16 T4-GPUs

Die Laufzeit für NVIDIA Clara Parabricks Die sekundäre Analyse mit einer einzigen T4-GPU ist ca. 30 % langsamer als die mit einer V100-GPU. Allerdings bieten zwei (2) T4-GPUs ca. 10 % mehr TFLOPS als eine (1) V100-GPU für rund die Hälfte der Kosten. Der DSS 8440 bietet bis zu 16 PCIe-Steckplätze, was die Möglichkeit eröffnet, einen T4-GPU-basierten Server zu entwerfen, der eine ähnliche Laufzeitleistung wie ein C4140-System mit vier V100-GPUs bietet, jedoch zu geringeren Kosten.
Das Parabricks Die Keimbahnanalyse wurde mit einem PowerEdge DSS 8440 mit 16 T4-GPUs durchgeführt. Für jedes zuvor beschriebene WGS-Beispieldatenvolumen wurde die Laufzeit mit 1, 2, 4, 8 und 16 T4-GPUs pro sekundärer Analyse aufgezeichnet. Die Ergebnisse sind in den Abbildungen 3 bis 5 dargestellt. Insgesamt skaliert die Laufzeit nicht linear mit der Anzahl der pro Analyse verwendeten GPUs. Das Skalierungsmuster entspricht ungefähr der Menge an Daten pro Probe, die von 10x- auf 50x-Abdeckung ansteigt. 
Obwohl hier nicht vorgestellt, hat eine frühere Dell EMC Untersuchung von Parabricks Laufzeitergebnisse mit acht oder mehr V100-GPUs pro Analyse wurden nicht so effizient skaliert wie die T4-GPUs. Weitere Tests zeigten, dass 6 T4-GPUs nahezu identische Laufzeitergebnisse wie 4 V100-GPUs erzeugten.

Performancevergleichsbalkendiagramm mit GPU-Laufzeit mit 10x WGS 
Abbildung 3 Leistungsvergleiche mit 10x WGS
 

Balkendiagramm zum Performancevergleich mit GPU-Laufzeit mit 30x WGS 
Abbildung 4 Leistungsvergleiche mit 30x WGS

Performancevergleichsbalkendiagramm mit GPU-Laufzeit mit 50x WGS 
Abbildung 5 Leistungsvergleiche mit 50x WGS


Entscheidung

Ein DSS 8440 mit 16 T4-GPUs kann 30x menschliche Genome pro Tag verarbeiten. Ein ähnlicher täglicher Analysedurchsatz mit einer herkömmlichen x86-CPU-Architektur erfordert zehn PowerEdge C6420-Rechen-Nodes. Die vollständige Architektur wird unter Dell Ready Solution für HPC in den Biowissenschaften erläutert: BWA-GATK Pipeline-Durchsatztests mit Cascade Lake CPU und Lustre ME4 Refresh.  


Allerdings bietet die Zuweisung aller 16 T4-GPUs für die Verarbeitung einer Probe kaum Vorteile, da die Verwendung von 16 GPUs pro Analyse bestenfalls 10 % schneller ist als die Verwendung von 8 GPUs. Das Design des DSS 8440 ermöglicht die parallele Ausführung mehrerer Sekundäranalysen. Durch die Zuweisung von acht T4-GPUs pro Probe steigt der tägliche Analysedurchsatz auf ca. 50 Genome pro Tag. Die Verwendung von vier GPUs pro Probe erhöht den Analysedurchsatz auf ca. 70 Genome pro Tag. Noch wichtiger ist, dass dieser tägliche Durchsatz mit T4-GPUs für weniger als die Hälfte der Kosten als bei Verwendung eines V100-GPU-Designs erzielt wird.
Neben der Geschwindigkeit ist auch die Kompatibilität mit anderen Analysetools unerlässlich für die Vergleichbarkeit von Ergebnissen. Die Spalte Parabricks Die Ergebnisse der Keimbahnanalyse sind nahezu identisch mit der bekannten BWA-GATK Haplotype Caller-Analyse aus früheren Tests. Wir wollten auch die Ergebnisse der Parabricks-Variantenaufrufergebnisse mit anderen Toolsets vergleichen, wie z. B. samtools/mpileup. Diese beiden unterschiedlichen Werkzeuge erreichen eine Gesamtübereinstimmung von ~90 % für identifizierte Varianten, und Variationen in vielen bekannten Genomregionen, die wichtige Gene enthalten, stimmen zu mehr als 99 % überein.

Additional Information

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640
Article Properties
Article Number: 000180441
Article Type: How To
Last Modified: 12 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.