Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC Ready Solution per HPC nelle scienze biologiche: Test di throughput della pipeline BWA-TESTSK con CPU Cascade Lake e refresh Lustre ME4

Résumé: Dell EMC Ready Solution per HPC nelle scienze biologiche: Test di throughput della pipeline BWA-TESTSK con CPU Cascade Lake e refresh Lustre ME4

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

La configurazione a 64 nodi di elaborazione di Dell EMC Ready Solutions for HPC Life Sciences è in grado di elaborare 194 genomi al giorno (50 volte più ampia la copertura).

Panoramica

Variant callingQuesto link ipertestuale indirizza a un sito web esterno a Dell Technologies. è un processo tramite il quale identifichiamo le varianti dei dati in sequenza. Questo processo aiuta a determinare se sono presenti singoli polimorfo nucleotide (SP), inserimenti ed eliminazioni (indel) e varianti strutturali (PV) in una determinata posizione in un singolo genoma o in un cancrittome. L'obiettivo principale di identificare le variazioni genomica è il collegamento alle malattie umane. Anche se non tutte le malattie umane sono associate alle varianti genetiche, le varianti che chiama possono fornire una guida preziosa per i genetici che lavorano a una particolare malattia causata dalle variazioni genetiche. BWA-SEPARATEK è uno degli strumenti di elaborazione di nuova generazione (NGS, Next Generation Sequencing) progettati peridentificareiii e somatice provenienti dai dati NGS umani. Sono disponibili alcuni strumenti di identificazione delle varianti e siamo consapevoli che non esiste un unico strumento che funzioni perfettamente (1). Tuttavia, abbiamo scelto NCHK, uno degli strumenti più diffusi come strumento di benchmarking per dimostrare quanto le Dell EMC Ready Solutions for HPC Life Sciences siano in grado di elaborare carichi di lavoro NGS complessi e di grandi dimensioni. 
Lo scopo di questo blog è quello di fornire preziose informazioni sulle prestazioni del processore Intel® Xeon® Gold 6248 per il benchmark della pipeline BWA-BUILTK con Dell EMC Ready Solutions for HPC Lustre Storage (aggiornamento serie ME4) (2). La CPU Xeon® Gold 6248 è dotata di 20 core fisici o 40 core logici quando si utilizza l'hyper-threading. Le configurazioni del cluster di test sono riepilogate nella Tabella 1.

Tabella 1 Configurazione testata dei nodi di elaborazione
 
Dell EMC PowerEdge C6420
CPU 2 Xeon® Gold 6248 a 20 core da 2,5 GHz (Cascade Lake)
RAM 12 da 16 GB a 2.933 MTps
OS RHEL 7.6
Interconnessione Intel® Omni-Path
Profilo di sistema nel BIOS Performance Optimized
Logical Processor Disabled
Tecnologia di virtualizzazione Disabled
BWA 0.7.15-r1140
SamTools 1.6
LAK 3,6-0-g89b7209

I nodi di elaborazione testati sono stati connessi a Dell EMC Ready Solutions for HPC Lustre Storage tramite Intel® Omni-Path. La configurazione riepilogativa dello storage è elencata nella Tabella 2.
Tabella 2 Specifiche hardware e software della soluzione
 
Dell EMC Ready Solution per lo storage Lustre
Numero di nodi 1 Dell EMC PowerEdge R640 come Integrated Manager for Lustre (IML)
2 Dell EMC PowerEdge R740 come server di metadati (MDS)
2 Dell EMC PowerEdge R740 come server di object storage (OSS)
Processori Server IML: Due server Intel Xeon Gold 5118 a 2,3 GHz
MDS e OSS: Doppia Intel Xeon Gold 6136 a 3 GHz
Memoria Server IML: 12 RDIMM
MDS e OSS da 8 GB, 2.666 MT/s: 24 RDIMM DDR4 da 16 GiB e 2.666 MT/s

Storage controller esterni
2 HBA SAS Dell da 12 Gb/s (su ciascun MDS)
4 HBA SAS Dell da 12 Gb/s (su ciascun OSS)
Enclosure di object storage
4 ME4084 con un totale di 336 HDD SAS NL a 7.200 rpm da 8 TB

Storage enclosure di metadati
1 ME4024 con 24 SSD SAS da 960 GB. Supporta fino a 4,68 B inode
Controller RAID Controller RAID SAS duplex nelle enclosure ME4084 e ME4024
Sistema operativo CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Versione del BIOS 1.4.5
Versione IFS Di Intel Omni-Path
10.8.0.0
Versione del file system
Lustre
2.10.4
Versione IML 4.0.7.0

I dati dei test sono stati scelti da uno dei genomi Platinum di Illumina. ERR194161 è stato elaborato con Illumina HiSeq 2000 inviato da Illumina e può essere ottenuto da EMBL-EBI. L'identificatore del DNA di questa persona è NA12878. La descrizione dei dati del sito Web collegato mostra che questo esempio ha una >profondità di copertura 30 volte superiore.

Valutazione delle prestazioni

Prestazioni di più nodi campione singolo

Nella Figura 1, il runtime in un numero diverso di campioni e nodi di elaborazione con dati WGS (Whole Genome Sequencing) 50x è stato riepilogato. I test eseguiti qui sono progettati per dimostrare le prestazioni a livello di server, non per il confronto dei singoli componenti. I data point nella Figura 1 vengono calcolati in base al numero totale di campioni elaborati simultaneamente, un campione per nodo di elaborazione (asse X nella figura). I dettagli delle informazioni sulla pipeline BWA-INSTITUTE sono disponibili sul sito web del Broad Institute (3). Il numero massimo di nodi di elaborazione utilizzati per i test è 64x C6420s. C6420s con Lustre ME4 mostrano un comportamento di dimensionamento migliore rispetto a Lustre MD3.

  Confronto delle prestazioni tra Lustre MD3 e Lustre ME4
Figura 1. Confronto delle prestazioni tra Lustre MD3 e Lustre ME4

Prestazioni di più nodi di esempio

Un modo tipico di eseguire la pipeline NGS consiste nell'eseguire più campioni su un nodo di elaborazione e utilizzare più nodi di elaborazione per ottimizzare il throughput del processo dati NGS. Il numero di nodi di elaborazione utilizzati per i test è 64 dei nodi di elaborazione C6420 e il numero di campioni per nodo è di cinque campioni. Vengono elaborati simultaneamente fino a 320 campioni per stimare il numero massimo di genomi al giorno senza un job failure.
Come illustrato nella Figura 2, un singolo nodo di elaborazione C6420 può elaborare 3,24 genomi umani interi 50 volte al giorno quando vengono elaborati simultaneamente 5 campioni. Per ogni campione, vengono allocati 7 core e 30 GB di memoria. 

  Test di throughput fino a 64 C6420s e Lustre ME4
Figura 2 Test di throughput con un massimo di 64 C6420s e Lustre ME4

320 genomi interi 50 volte superiori possono essere elaborati con 64 nodi di elaborazione C6420 in 40 ore.  In altre parole, le prestazioni della configurazione dei test sintetizzano come 194 genomi al giorno per l'intero genoma umano con una profondità di copertura di 50 volte.

Conclusione

Poiché la dimensione dei dati di WGS è in costante crescita. La dimensione media corrente di WGS è 50 volte. Questo valore è 5 volte superiore rispetto a un WGS tipico 4 anni fa, quando abbiamo iniziato a eseguire il benchmark della pipeline BWA-VGK. L'aumento dei dati non richiede capacità lato storage poiché la maggior parte delle applicazioni in pipeline è vincolata anche dalla velocità di clock della CPU. Pertanto, con l'aumento delle dimensioni dei dati, la pipeline viene eseguita più a lungo anziché generare più scritture.
Tuttavia, durante il processo viene generato un numero maggiore di file temporanei a causa del maggior numero di dati da parallelizzare, e questo numero maggiore di file temporanei aperti contemporaneamente esaurisce il limite di file aperti in un sistema operativo Linux. Una delle applicazioni non viene completata in modo invisibile all'utente toccando il limite del numero di file aperti. Una soluzione semplice consiste nell'aumentare il limite a >150.000. 
Tuttavia, la Ready Solution con Lustre ME4 come spazio scratch ha una capacità di throughput migliore rispetto alla versione precedente. Ora, la Ready Solution a 64 nodi contrassegna 194 genomi al giorno per la potenza di elaborazione per 50 WGS.

Risorse 

1. Una survey sugli strumenti per l'analisi delle varianti dei dati di sequenziamento genomico di nuova generazione. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabic size B, Speicher MR, Zschocke J, Trajanotree Z. 2, s.l. : Brief Bioinform, mar 2014, Vol. 15 (2). 10.1093/more/bbs086.
2. Dell EMC Ready Solution per lo storage HPC Lustre.  (l'articolo non è più disponibile come riferimento, estratto dal team HPC)
3. Toolkit di analisi del genoma. https://software.broadinstitute.org/gatk/ Questo link ipertestuale indirizza a un sito web esterno a Dell Technologies.

Propriétés de l’article


Produit concerné

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Dernière date de publication

11 janv. 2024

Version

6

Type d’article

Solution