PowerEdge: Accelerazione dell'analisi dei dati genomici con NVIDIA Clara Parabricks con server Dell EMC DSS 8440 e GPU NVIDIA T4

Summary: Questo articolo fornisce informazioni sull'accelerazione dell'analisi dei dati genomici utilizzando NVIDIA Parabricks su Dell EMC DSS 8440 con GPU NVIDIA T4.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Panoramica

Il primo passaggio per l'elaborazione dei dati NGS (Next Generation Sequencing) è quello dell'analisi primaria. Questo passaggio è specifico dello strumento di sequenziamento e genera più file FASTQ contenenti letture di sequenziamento. Al passaggio successivo, denominato analisi secondaria, le letture di sequenziamento dei file FASTQ vengono mappate a un genoma di riferimento o a un trascrittoma di riferimento. Una maggiore elaborazione identifica varianti, o differenze, tra il campione di interesse e un riferimento. Le varianti vengono annotate e interpretate in successive passaggi downstream. La durata dell'analisi secondaria per un singolo campione varia da ore a giorni, a seconda delle dimensioni dei dati, delle risorse di elaborazione disponibili, del software e del flusso di lavoro analitico. 

L'analisi secondaria è un processo di elaborazione e storage di grandi volumi di dati, in particolare quando si elaborano centinaia di migliaia di genomi. Esistono molte strategie per evitare i colli di bottiglia dell'analisi secondaria. Fino a poco tempo fa, l'adozione dell'accelerazione hardware tramite GPU o FPGA era scarsa a causa del software personalizzato richiesto dagli acceleratori hardware. ParabricksIl software di genomica, acquisito da NVIDIA nel 2019, ha aperto la strada a uno stack software che esegue vari flussi di lavoro di analisi genomica con GPU. Abbiamo testato Parabrickscirca due anni fa. Dell ha introdotto molti progressi tecnologici nei suoi server e nelle sue soluzioni di storage e NVIDIA Clara Parabricks ha rilasciato versioni robuste con una maggiore accelerazione e l'aggiunta di chiamanti variante. Ad esempio, la progettazione di un server multi-GPU basato sul server Dell EMC DSS 8440 con GPU NVIDIA® Tesla® T4 sembrava promettente per l'accelerazione dell'analisi secondaria, offrendo al contempo un interessante equilibrio tra prezzo e prestazioni. Questo blog riporta una nuova architettura di riferimento e i risultati di benchmark per NVIDIA Clara Parabricks analisi secondaria su un server DSS 8440 con GPU T4 multipla® e storage Dell Isilon F800Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.

Architettura di riferimento

La figura 1 illustra l'architettura di riferimento testata. L'architettura è modulare e di facile scalabilità. The NVIDIA Clara Parabricks Il software applicativo utilizza una o più GPU, semplificando il più possibile lo scale-out. Gli elementi di base dell'hardware sono costituiti da Dell PowerEdge R640 come nodo di gestione, server DSS 8440 per l'elaborazione GPU e storage Dell EMC Isilon F800.  

Diagramma di rete che mostra la connessione tra server e switch 
Figura 1. Architettura di riferimento testata
 


DSS 8440, 2 socket, server 4U può supportare fino a 10 GPU NVIDIA® Tesla® V100S Tensor Core leader del settore, fino a 10 GPU NVIDIA® Quadro RTX™ o fino a 16 GPU NVIDIA Tesla T4 per una potenza incredibile. La configurazione dettagliata del server DSS 8440 è riportata nella Tabella 1.

 

Dell EMC DSS 8440
CPU 2x Xeon® Gold 6248R 24 cores 3.0 GHz
RAM 24x 64GB at 2933 MTps
Operating System Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS System Profile Performance Optimized
Logical Processor Disabled
Virtualization Technology Disabled
Accelerators 16x NVIDIA® Tesla® T4 GPUs
Parabricks v3.0.0.05


Due switch Z9100-ON hanno fornito l'interconnessione tra il nodo di elaborazione e lo storage cluster Isilon F800. Per la gestione è stato utilizzato un ulteriore switch N2248X-ON.
 

Dati NGS

I dati per il runtime di analisi secondaria di benchmarking consistevano in tre dataset di sequenziamento dell'intero genoma umano (WGS), ERR091571Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies., SRR3124837Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies. e ERR194161Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies., che rappresentavano rispettivamente 10, 30x e 50x la copertura del campione. Questi set di dati sono disponibili presso l'Archivio europeo dei nucleotidi (ENA).Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.

 

Valutazione delle prestazioni

I miglioramenti software riducono il runtime.
NVIDIA continua a introdurre miglioramenti software per NVIDIA Clara Parabricks. La Figura 2 mostra la riduzione di runtime tra due versioni di Parabricks Esecuzione della pipeline germinale utilizzando l'ambiente di test del server Dell PowerEdge C4140 con 4 GPU V100. Il passaggio da v2.1.0 a v3.0.0 ha ridotto il runtime del 42%.

Grafico a barre Nvidia Clara Parabricks che mostra i dati WGS 
Figura 2. Versione più recente della variante germinale di Parabricks che chiama il runtime della pipeline.

 

Prestazioni del server DSS 8440 con 16 T4

Il runtime di una NVIDIA Clara Parabricks l'analisi secondaria con una singola GPU T4 è circa il 30% più lenta rispetto a una GPU V100. Tuttavia, due (2) GPU T4 forniscono approssimativamente il 10% in più di TFLOPS di una (1) GPU V100 a circa la metà del costo. Il DSS 8440 fornisce fino a 16 slot PCIe, il che offre la possibilità di progettare un server basato su GPU T4 che offre prestazioni di runtime simili a un sistema C4140 con quattro GPU V100 ma a un costo inferiore.
Le Parabricks L'analisi della linea germinale è stata eseguita utilizzando un PowerEdge DSS 8440 con 16 GPU T4. Per ogni dataset di esempio WGS descritto in precedenza, il runtime è stato registrato utilizzando 1, 2, 4, 8 e 16 GPU T4 per analisi secondaria. I risultati sono illustrati nelle Figure da 3 a 5. In generale, il runtime non presenta una scalabilità lineare con l'aumento del numero di GPU per analisi. Il modello di scalabilità è simile alla quantità di dati per incrementi del campione da una copertura 10x a 50x. 
Anche se non viene presentata in questa sede, una precedente indagine condotta da Dell EMC Parabricks I risultati di runtime utilizzando otto o più GPU V100 per analisi non hanno ottenuto la stessa efficienza delle GPU T4. Ulteriori test hanno dimostrato che 6 GPU T4 generano risultati di runtime quasi identici a 4 GPU V100.

Grafico a barre di confronto delle prestazioni che mostra il runtime della GPU con 10x WGS 
Figura 3 Confronto delle prestazioni con 10x WGS
 

Grafico a barre di confronto delle prestazioni che mostra il runtime della GPU con 30x WGS 
Figura 4 Confronto delle prestazioni con WGS

Grafico a barre di confronto delle prestazioni che mostra il runtime della GPU con 50x WGS
30xFigura 5 Confronto delle prestazioni con WGS 50x 


Conclusione

Un DSS 8440 con sedici GPU T4 è in grado di elaborare 30 genomi umani 50 volte al giorno. Un throughput di analisi giornaliero simile con un'architettura tradizionale di CPU x86 richiede dieci nodi di elaborazione PowerEdge C6420. L'architettura completa è descritta in Dell Ready Solution for HPC Life Sciences: Test di throughput della pipeline BWA-GATK con CPU Cascade Lake e aggiornamento Lustre ME4.  


Tuttavia, dedicare tutte le 16 GPU T4 all'elaborazione di un solo campione offre scarso vantaggio, poiché l'utilizzo di 16 GPU per analisi è al massimo del 10% più veloce rispetto all'utilizzo di 8 GPU. La progettazione del server DSS 8440 permette l'esecuzione di più analisi secondarie in parallelo. Assegnando otto GPU T4 per campione, il throughput di analisi giornaliero aumenta a circa 50 genomi al giorno. L'utilizzo di quattro GPU per campione aumenta il throughput di analisi a circa 70 genomi al giorno. Ancora più importante, questo risultato giornaliero con GPU T4 ha un costo inferiore alla metà di quello relativo a una progettazione con GPU V100.
Oltre alla velocità, la compatibilità con altri strumenti di analisi è essenziale per la comparabilità dei risultati. La colonna Parabricks I risultati dell'analisi della linea germinale sono quasi identici a quelli della ben nota analisi del chiamante BWA-GATK Haplotype di test precedenti. Volevamo anche confrontare i risultati delle chiamate varianti di Parabricks con altri set di strumenti come samtools/mpileup. Questi due diversi strumenti raggiungono un accordo complessivo del ~90% per le varianti identificate e le variazioni in molte regioni genomiche ben note contenenti geni importanti concordano oltre il 99%.

Additional Information

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640
Article Properties
Article Number: 000180441
Article Type: How To
Last Modified: 12 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.