PowerEdge: Accelerazione dell'analisi dei dati genomici con NVIDIA Clara Parabricks con server Dell EMC DSS 8440 e GPU NVIDIA T4
Summary: Questo articolo fornisce informazioni sull'accelerazione dell'analisi dei dati genomici utilizzando NVIDIA Parabricks su Dell EMC DSS 8440 con GPU NVIDIA T4.
Instructions
Panoramica
Il primo passaggio per l'elaborazione dei dati NGS (Next Generation Sequencing) è quello dell'analisi primaria. Questo passaggio è specifico dello strumento di sequenziamento e genera più file FASTQ contenenti letture di sequenziamento. Al passaggio successivo, denominato analisi secondaria, le letture di sequenziamento dei file FASTQ vengono mappate a un genoma di riferimento o a un trascrittoma di riferimento. Una maggiore elaborazione identifica varianti, o differenze, tra il campione di interesse e un riferimento. Le varianti vengono annotate e interpretate in successive passaggi downstream. La durata dell'analisi secondaria per un singolo campione varia da ore a giorni, a seconda delle dimensioni dei dati, delle risorse di elaborazione disponibili, del software e del flusso di lavoro analitico.
L'analisi secondaria è un processo di elaborazione e storage di grandi volumi di dati, in particolare quando si elaborano centinaia di migliaia di genomi. Esistono molte strategie per evitare i colli di bottiglia dell'analisi secondaria. Fino a poco tempo fa, l'adozione dell'accelerazione hardware tramite GPU o FPGA era scarsa a causa del software personalizzato richiesto dagli acceleratori hardware. ParabricksIl software di genomica, acquisito da NVIDIA nel 2019, ha aperto la strada a uno stack software che esegue vari flussi di lavoro di analisi genomica con GPU. Abbiamo testato Parabrickscirca due anni fa. Dell ha introdotto molti progressi tecnologici nei suoi server e nelle sue soluzioni di storage e NVIDIA Clara Parabricks ha rilasciato versioni robuste con una maggiore accelerazione e l'aggiunta di chiamanti variante. Ad esempio, la progettazione di un server multi-GPU basato sul server Dell EMC DSS 8440 con GPU NVIDIA® Tesla® T4 sembrava promettente per l'accelerazione dell'analisi secondaria, offrendo al contempo un interessante equilibrio tra prezzo e prestazioni. Questo blog riporta una nuova architettura di riferimento e i risultati di benchmark per NVIDIA Clara Parabricks analisi secondaria su un server DSS 8440 con GPU T4 multipla® e storage Dell Isilon F800 .
Architettura di riferimento
La figura 1 illustra l'architettura di riferimento testata. L'architettura è modulare e di facile scalabilità. The NVIDIA Clara Parabricks Il software applicativo utilizza una o più GPU, semplificando il più possibile lo scale-out. Gli elementi di base dell'hardware sono costituiti da Dell PowerEdge R640 come nodo di gestione, server DSS 8440 per l'elaborazione GPU e storage Dell EMC Isilon F800.
Figura 1. Architettura di riferimento testata
DSS 8440, 2 socket, server 4U può supportare fino a 10 GPU NVIDIA® Tesla® V100S Tensor Core leader del settore, fino a 10 GPU NVIDIA® Quadro RTX™ o fino a 16 GPU NVIDIA Tesla T4 per una potenza incredibile. La configurazione dettagliata del server DSS 8440 è riportata nella Tabella 1.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
Due switch Z9100-ON hanno fornito l'interconnessione tra il nodo di elaborazione e lo storage cluster Isilon F800. Per la gestione è stato utilizzato un ulteriore switch N2248X-ON.
Dati NGS
I dati per il runtime di analisi secondaria di benchmarking consistevano in tre dataset di sequenziamento dell'intero genoma umano (WGS), ERR091571, SRR3124837
e ERR194161
, che rappresentavano rispettivamente 10, 30x e 50x la copertura del campione. Questi set di dati sono disponibili presso l'Archivio europeo dei nucleotidi (ENA).
Valutazione delle prestazioni
I miglioramenti software riducono il runtime.
NVIDIA continua a introdurre miglioramenti software per NVIDIA Clara Parabricks. La Figura 2 mostra la riduzione di runtime tra due versioni di Parabricks Esecuzione della pipeline germinale utilizzando l'ambiente di test del server Dell PowerEdge C4140 con 4 GPU V100. Il passaggio da v2.1.0 a v3.0.0 ha ridotto il runtime del 42%.
Figura 2. Versione più recente della variante germinale di Parabricks che chiama il runtime della pipeline.
Prestazioni del server DSS 8440 con 16 T4
Il runtime di una NVIDIA Clara Parabricks l'analisi secondaria con una singola GPU T4 è circa il 30% più lenta rispetto a una GPU V100. Tuttavia, due (2) GPU T4 forniscono approssimativamente il 10% in più di TFLOPS di una (1) GPU V100 a circa la metà del costo. Il DSS 8440 fornisce fino a 16 slot PCIe, il che offre la possibilità di progettare un server basato su GPU T4 che offre prestazioni di runtime simili a un sistema C4140 con quattro GPU V100 ma a un costo inferiore.
Le Parabricks L'analisi della linea germinale è stata eseguita utilizzando un PowerEdge DSS 8440 con 16 GPU T4. Per ogni dataset di esempio WGS descritto in precedenza, il runtime è stato registrato utilizzando 1, 2, 4, 8 e 16 GPU T4 per analisi secondaria. I risultati sono illustrati nelle Figure da 3 a 5. In generale, il runtime non presenta una scalabilità lineare con l'aumento del numero di GPU per analisi. Il modello di scalabilità è simile alla quantità di dati per incrementi del campione da una copertura 10x a 50x.
Anche se non viene presentata in questa sede, una precedente indagine condotta da Dell EMC Parabricks I risultati di runtime utilizzando otto o più GPU V100 per analisi non hanno ottenuto la stessa efficienza delle GPU T4. Ulteriori test hanno dimostrato che 6 GPU T4 generano risultati di runtime quasi identici a 4 GPU V100.
Figura 3 Confronto delle prestazioni con 10x WGS
Figura 4 Confronto delle prestazioni con WGS
30xFigura 5 Confronto delle prestazioni con WGS 50x
Conclusione
Un DSS 8440 con sedici GPU T4 è in grado di elaborare 30 genomi umani 50 volte al giorno. Un throughput di analisi giornaliero simile con un'architettura tradizionale di CPU x86 richiede dieci nodi di elaborazione PowerEdge C6420. L'architettura completa è descritta in Dell Ready Solution for HPC Life Sciences: Test di throughput della pipeline BWA-GATK con CPU Cascade Lake e aggiornamento Lustre ME4.
Tuttavia, dedicare tutte le 16 GPU T4 all'elaborazione di un solo campione offre scarso vantaggio, poiché l'utilizzo di 16 GPU per analisi è al massimo del 10% più veloce rispetto all'utilizzo di 8 GPU. La progettazione del server DSS 8440 permette l'esecuzione di più analisi secondarie in parallelo. Assegnando otto GPU T4 per campione, il throughput di analisi giornaliero aumenta a circa 50 genomi al giorno. L'utilizzo di quattro GPU per campione aumenta il throughput di analisi a circa 70 genomi al giorno. Ancora più importante, questo risultato giornaliero con GPU T4 ha un costo inferiore alla metà di quello relativo a una progettazione con GPU V100.
Oltre alla velocità, la compatibilità con altri strumenti di analisi è essenziale per la comparabilità dei risultati. La colonna Parabricks I risultati dell'analisi della linea germinale sono quasi identici a quelli della ben nota analisi del chiamante BWA-GATK Haplotype di test precedenti. Volevamo anche confrontare i risultati delle chiamate varianti di Parabricks con altri set di strumenti come samtools/mpileup. Questi due diversi strumenti raggiungono un accordo complessivo del ~90% per le varianti identificate e le variazioni in molte regioni genomiche ben note contenenti geni importanti concordano oltre il 99%.