Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC Ready oplossing voor HPC-biowetenschappen: BWA-GATK pipeline doorvoertests met Cascade Lake CPU en Lustre ME4 Refresh

Résumé: Dell EMC Ready oplossing voor HPC-biowetenschappen: BWA-GATK pipeline doorvoertests met Cascade Lake CPU en Lustre ME4 Refresh

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Configuratie van 64 compute-knooppunten van Dell EMC Ready oplossingen voor HPC Life Sciences kan 194 genoom per dag verwerken (50x diepte van dekking).

Overzicht

Variant van bellenDeze hyperlink brengt u naar een website buiten Dell Technologies. is een proces waarmee we varianten van volgdata identificeren. Dit proces helpt bij het bepalen of er enkele oviotide polymorfismen (SNP's), invoegingen en verwijderingen (indels) en of structuurvarianten (SV's) op een bepaalde positie in een individueel genoom of exemptom zijn. Het belangrijkste doel van het identificeren van genoomvariaties is het koppelen aan menselijke ziekten. Hoewel niet alle menselijke ziekten worden geassocieerd met variaties in variaties, kan het oproepen van varianten een waardevolle richtlijn bieden voor organisaties die werken aan een bepaalde ziekte die wordt veroorzaakt door variaties in het ziektebeeld. BWA-GATK is een van de next-generation Sequencing (NGS) rekentools die zijn ontworpen om ziektekiem- en somatische ziektekiemen te identificeren uit menselijke NGS-data. Er zijn een handvol verschillende identificatietools en we begrijpen dat er niet één tool is die perfect presteert (1). We kozen echter voor GATK, een van de populairste tools als onze benchmarktool om aan te tonen hoe goed de Dell EMC Ready oplossingen voor HPC Life Sciences complexe en enorme NGS-workloads kunnen verwerken. 
Het doel van deze blog is om waardevolle prestatie-informatie te verstrekken over de Intel® Xeon® Gold 6248 processor voor BWA-GATK pipeline benchmark met Dell EMC Ready Solutions voor HPC Lustre Storage (me4 serie refresh) (2). De Xeon® Gold 6248 CPU beschikt over 20 fysieke cores of 40 logische cores bij gebruik van hyper threading. De testclusterconfiguraties zijn samengevat in Tabel 1.

Tabel 1 Geteste configuratie computeknooppunt
 
Dell EMC PowerEdge C6420
CPU 2 x Xeon® Gold 6248 20 cores 2,5 GHz (Cascade Lake)
RAM 12 x 16 GB bij 2933 MTp's
BESTURINGSSYSTEEM RHEL 7.6
Interconnect Intel® Omni-Path
BIOS-systeemprofiel Prestaties geoptimaliseerd
Logische processor Disabled
Virtualisatietechnologie Disabled
BWA 0,7,15-r1140
Samtools 1.6
GATK 3,6-0-g89b7209

De geteste computeknooppunten zijn verbonden met Dell EMC Ready oplossingen voor HPC Lustre Storage via Intel® Omni-Path. De samenvattingsconfiguratie van de storage wordt vermeld in Tabel 2.
Tabel 2 Hardware- en softwarespecificaties oplossing
 
Dell EMC Ready oplossing voor Lustre Storage
Aantal knooppunten 1x Dell EMC PowerEdge R640 als Integrated Manager voor Lustre (IML)
2x Dell EMC PowerEdge R740 als metadataserver (MDS)
2x Dell EMC PowerEdge R740 als Object Storage Server (OSS)
Processoren IML-server: Dual Intel Xeon Gold 5118 bij 2,3 GHz
MDS- en OSS-servers: Dubbele Intel Xeon Gold 6136 bij 3,00 GHz
Geheugen IML-server: 12 x 8 GB 2666 MT/s DDR4 RDIMM's
MDS- en OSS-servers: 24 x 16 GiB 2666 MT/s DDR4 RDIMM's
Externe storagecontrollers
2 x Dell 12 Gb/s SAS HBA's (op elke MDS)
4 x Dell 12 Gb/s SAS HBA's (op elke OSS)
Behuizingen voor objectstorage
4x ME4084 met in totaal 336 x 8 TB NL 7200 rpm SAS HDD's
Metadata storagebehuizing
1x ME4024 met 24 x 960 GB SAS SSD's. Ondersteunt tot 4,68 B inodes
RAID-controllers Duplex SAS RAID-controllers in de ME4084- en ME4024-behuizingen
Besturingssysteem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS-versie 1.4.5
Intel Omni-Path
IFS-versie
10.8.0.0
Lustre-bestandssysteemversie
2.10.4
IML-versie 4.0.7.0

De testdata zijn gekozen uit een van de Platinum Genooms van Analumina. ERR194161 is verwerkt met Analumina HiSeq 2000 die is ingediend door Malumina en kan worden verkregen van EMBL-EBI. De DNA-identificatie voor deze persoon is NA12878. Uit de beschrijving van de data op de gekoppelde website blijkt dat dit voorbeeld een >30x diepte van dekking heeft.

Prestatie-evaluatie

Prestaties van één voorbeeld van meerdere knooppunten

In afbeelding 1 wordt de runtime in verschillende aantallen voorbeelden en computeknooppunten met 50x Whole Genoom-Sequencing (WGS)-data samengevat. De hier uitgevoerde tests zijn ontworpen om prestaties op serverniveau aan te tonen, niet om vergelijkingen te maken met afzonderlijke componenten. De datapunten in afbeelding 1 worden berekend op basis van het totale aantal voorbeelden, één voorbeeld per computeknooppunt (X-as in de afbeelding) dat gelijktijdig wordt verwerkt. De details van BWA-GATK pipeline-informatie kunnen worden verkregen van de Broad Institute-website (3). Het maximale aantal computeknooppunten dat voor de tests wordt gebruikt, is 64x C6420s. C6420's met Lustre ME4 vertonen een beter schaalgedrag dan Lustre MD3.

  Prestatievergelijkingen tussen Lustre MD3 en Lustre ME4
Afbeelding 1 Prestatievergelijkingen tussen Lustre MD3 en Lustre ME4

Meerdere voorbeeldprestaties van meerdere knooppunten

Een typische manier om een NGS-pipeline uit te voeren is om meerdere voorbeelden uit te voeren op een computeknooppunt en meerdere computeknooppunten te gebruiken om de doorvoer van het NGS-dataproces te maximaliseren. Het aantal computeknooppunten dat wordt gebruikt voor de tests is 64 van de C6420 computeknooppunten en het aantal voorbeelden per knooppunt is vijf voorbeelden. Er worden maximaal 320 voorbeelden tegelijk verwerkt om het maximale aantal genoom per dag te schatten zonder een taakfout.
Zoals wordt weergegeven in afbeelding 2, kan één C6420 compute-knooppunt 3,24 van 50x hele menselijke genoom per dag verwerken wanneer 5 voorbeelden gelijktijdig worden verwerkt. Voor elk voorbeeld worden 7 cores en 30 GB geheugen toegewezen. 

  Doorvoertests met maximaal 64 C6420's en de Lustre ME4
Afbeelding 2 Doorvoertests met maximaal 64 C6420's en de Lustre ME4

320 van de 50x hele menselijke genooms kunnen worden verwerkt met 64 C6420 computeknooppunten in 40 uur.  Met andere woorden, de prestaties van de testconfiguratie zijn samen te vatten als 194 genoom per dag voor heel menselijk genoom met 50x diepte van dekking.

Conclusie

Naarmate de datagrootte van WGS voortdurend groeit. De huidige gemiddelde grootte van WGS is 50x. Dit is 5 keer groter dan een typische WGS 4 jaar geleden toen we begonnen met het benchmarken van de BWA-GATK pipeline. De toenemende data belasten de storagecapaciteit niet omdat de meeste applicaties in de pipeline ook worden gebonden aan de CPU-kloksnelheid. Daarom draait de pipeline met een groeiende datagrootte langer in plaats van meer schrijfbewerkingen te genereren.
Er worden echter een groter aantal tijdelijke bestanden gegenereerd tijdens het proces omdat er meer data parallel moeten worden uitgevoerd, en dit toegenomen aantal tijdelijke bestanden dat tegelijkertijd wordt geopend, raakt de geopende bestandslimiet in een Linux-besturingssysteem uit. Een van de applicaties kan op de achtergrond niet worden voltooid door de limiet van het aantal geopende bestanden te overschrijden. Een eenvoudige oplossing is om de limiet te verhogen tot >150.000. 
Toch heeft de Ready-oplossing met Lustre ME4 als scratchruimte een betere doorvoercapaciteit dan de vorige versie. Nu markeert 64 nodes Ready Solution 194 genoom per dag verwerkingskracht voor 50x WGS.

Bronnen 

1. Een enquête met tools voor variantanalyse van genoom-sequencingdata van de volgende generatie. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Bromichler B, Speicher MR, Zschocke J, Traianomink Z. 2, s.l. : Beknopte bio-informatie, 2014 maart, deel 15 (2). 10,1093/bib/bbs086.
2. Dell EMC Ready oplossing voor HPC Lustre storage.  (Artikel is niet meer beschikbaar ter referentie, opgehaald door HPC-team)
3. Toolkit voor analyse van genoom. https://software.broadinstitute.org/gatk/ Deze hyperlink brengt u naar een website buiten Dell Technologies.

Propriétés de l’article


Produit concerné

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Dernière date de publication

11 janv. 2024

Version

6

Type d’article

Solution