Dell EMC Ready oplossing voor HPC-biowetenschappen: BWA-GATK Pijplijndoorvoertests met Cascade Lake CPU en Lustre ME4 Refresh

Summary: Archivering als artikel is gebaseerd op HPC-documentatie die niet langer online wordt gehost, en het artikel kan niet worden bewerkt om aan de verwachtingen van de KB te voldoen Dell EMC Ready oplossing voor HPC-biowetenschappen: BWA-GATK Pijplijndoorvoertests met Cascade Lake CPU en Lustre ME4 Refresh ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Knooppuntconfiguratie met 64 rekeneenheden van Dell EMC Ready Solutions voor HPC-biowetenschappen kan 194 genomen per dag verwerken (50x dekkingsdiepte).

Overzicht

Variant aanroepenDeze hyperlink leidt u naar een website buiten Dell Technologies. is een proces waarmee we varianten identificeren op basis van sequentiegegevens. Dit proces helpt te bepalen of er enkelvoudige nucleotidepolymorfismen (SNP's), inserties en deleties (indels) en/of structurele varianten (SV's) zijn op een bepaalde positie in een individueel genoom of transcriptoom. Het belangrijkste doel van het identificeren van genomische variaties is het koppelen aan ziekten bij de mens. Hoewel niet alle ziekten bij de mens geassocieerd zijn met genetische variaties, kan het aanroepen van varianten een waardevolle richtlijn zijn voor genetici die werken aan een bepaalde ziekte die wordt veroorzaakt door genetische variaties. BWA-GATK is een van de Next Generation Sequencing (NGS) computationele tools die zijn ontworpen om kiembaan- en somatische mutaties te identificeren op basis van menselijke NGS-gegevens. Er zijn een handvol tools voor het identificeren van varianten en we begrijpen dat er geen enkele tool is die perfect presteert (1). We kozen echter voor GATK, een van de populairste tools, als benchmarktool om aan te tonen hoe goed de Dell EMC Ready Solutions voor HPC-biowetenschappen complexe en enorme NGS-workloads kunnen verwerken. 
Het doel van deze blog is om waardevolle prestatie-informatie te geven over de Intel® Xeon® Gold 6248 processor voor de BWA-GATK-pipelinebenchmark met Dell EMC Ready Solutions voor HPC Lustre Storage (ME4 serie refresh) (2). De Xeon® Gold 6248 CPU beschikt over 20 fysieke cores of 40 logische cores bij gebruik van hyper threading. De configuraties van de testclusters zijn samengevat in Tabel 1.

Tabel 1 Geteste configuratie van rekenknooppunten
 
Dell EMC PowerEdge C6420
CPU 2 x Xeon® Gold 6248, 20 cores, 2,5 GHz (Cascade Lake)
RAM 12 x 16 GB bij 2933 MTps
BESTURINGSSYSTEEM RHEL 7.6
Interconnect Intel® Omni-Path
BIOS-systeemprofiel Prestaties geoptimaliseerd
Logische processor Disabled
Virtualisatietechnologie Disabled
BWA 0.7.15-R1140
Samtools 1.6
GATK 3,6-0-g89b7209

De geteste rekenknooppunten zijn via Intel® Omni-Path verbonden met Dell EMC Ready Solutions voor HPC Lustre Storage. De overzichtsconfiguratie van de storage wordt vermeld in Tabel 2.
Tabel 2 Hardware- en softwarespecificaties van de oplossing
 
Dell EMC Ready Solution voor Lustre Storage
Aantal knooppunten 1 x Dell EMC PowerEdge R640 als Integrated Manager for Lustre (IML)
2 x Dell EMC PowerEdge R740 als metadataserver (MDS)
2 x Dell EMC PowerEdge R740 als objectstorageserver (OSS)
Processoren IML-server: Dubbele Intel Xeon Gold 5118 @ 2,3 GHz
MDS- en OSS-servers: Dual Intel Xeon Gold 6136 @ 3,00 GHz
Geheugen IML-server: 12 x 8 GB, 2666 MT/s DDR4 RDIMM's,
MDS- en OSS-servers: 24 x 16 GiB 2666 MT/s DDR4 RDIMM's
Externe storagecontrollers
2 x Dell 12 Gb/s SAS HBA's (op elke MDS)
4 x Dell 12 Gb/s SAS HBA's (op elke OSS)
Objectstoragebehuizingen
4 x ME4084 met een totaal van 336 x 8 TB NL 7,2K rpm SAS HDD's
Opslagbehuizing
voor metadata
1 x ME4024 met 24 x 960 GB SAS SSD's. Ondersteunt tot 4,68 B inodes
RAID-controllers Duplex SAS RAID-controllers in de ME4084- en ME4024-behuizingen
Besturingssysteem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS-versie 1.4.5
Intel Omni-Path
IFS-versie
10.8.0.0
Versie van het Lustre-bestandssysteem
2.10.4
IML-versie 4.0.7.0

De testgegevens werden gekozen uit een van Illumina's platina-genomen. ERR194161 is verwerkt met Illumina HiSeq 2000 ingediend door Illumina en kan worden verkregen bij EMBL-EBI. De DNA-identificatie voor dit individu is NA12878. Uit de beschrijving van de gegevens van de gelinkte website blijkt dat dit monster een >dekkingsdiepte van 30x heeft.

Prestatie-evaluatie

Prestaties van één voorbeeld van meerdere knooppunten

In afbeelding 1 wordt de runtime in een groot aantal samples en compute nodes met 50x Whole Genome Sequencing (WGS)-data samengevat. De tests die hier worden uitgevoerd, zijn ontworpen om prestaties op serverniveau aan te tonen, niet voor vergelijkingen op afzonderlijke componenten. De datapunten in figuur 1 zijn berekend op basis van het totale aantal samples, één sample per compute node (X-as in de afbeelding) die gelijktijdig worden verwerkt. De details van de informatie over de BWA-GATEK-pijpleiding zijn te vinden op de website van het Broad Institute (3). Het maximale aantal rekenknooppunten dat voor de tests wordt gebruikt, is 64x C6420's. C6420s met Lustre ME4 vertonen een beter schaalgedrag dan Lustre MD3.

 Prestatievergelijkingen tussen Lustre MD3 en Lustre ME4
Afbeelding 1 Prestatievergelijkingen tussen Lustre MD3 en Lustre ME4

Prestaties van meerdere voorbeelden en meerdere knooppunten

Een typische manier om de NGS-pipeline uit te voeren, is door meerdere voorbeelden uit te voeren op een rekenknooppunt en meerdere rekenknooppunten te gebruiken om de doorvoer van het NGS-gegevensproces te maximaliseren. Het aantal rekenknooppunten dat voor de tests wordt gebruikt, is 64 van de C6420-rekenknooppunten en het aantal voorbeelden per knooppunt is vijf voorbeelden. Tot 320 monsters worden tegelijkertijd verwerkt om het maximale aantal genomen per dag te schatten zonder dat een taak mislukt.
Zoals weergegeven in afbeelding 2, kan één C6420-rekenknooppunt 3,24 van de 50x volledige menselijke genomen per dag verwerken wanneer 5 monsters tegelijkertijd worden verwerkt. Voor elk monster worden 7 cores en 30 GB geheugen toegewezen. 

 Doorvoertests met maximaal 64 C6420's en de Lustre ME4
Afbeelding 2 Doorvoertests met maximaal 64 C6420's en de Lustre ME4

320 van de 50x volledige menselijke genomen kunnen in 40 uur worden verwerkt met 64 van de C6420 compute-knooppunten.  Met andere woorden, de prestaties van de testconfiguratie komen neer op 194 genomen per dag voor het hele menselijke genoom met een dekkingsgraad van 50x.

Conclusie

Omdat de gegevensgrootte van WGS voortdurend is gegroeid. De huidige gemiddelde grootte van WGS is 50x. Dit is 5 keer groter dan een typische WGS 4 jaar geleden, toen we begonnen met het benchmarken van de BWA-GATT-pijplijn. De toename van het aantal data leidt niet tot extra druk op de capaciteit aan de storagezijde, omdat de meeste applicaties in de pipeline ook worden begrensd door de CPU-kloksnelheid. Daarom blijft de pipeline met een groeiende dataomvang langer lopen in plaats van dat er meer schrijfbewerkingen worden gegenereerd.
Er wordt echter een groter aantal tijdelijke bestanden gegenereerd tijdens het proces omdat er meer gegevens moeten worden geparallelliseerd, en dit grotere aantal tijdelijke bestanden dat tegelijkertijd wordt geopend, put de limiet voor open bestanden in een Linux-besturingssysteem uit. Een van de applicaties wordt stilletjes niet voltooid door de limiet van het aantal geopende bestanden te bereiken. Een eenvoudige oplossing is om de limiet te verhogen naar >150K. 
Desalniettemin heeft de Ready Solution met Lustre ME4 als scratch space een betere doorvoercapaciteit dan de vorige versie. Ready Solution met 64 knooppunten markeert 194 genomen per dag verwerkingskracht voor 50x WGS.

Bronnen 

1. Een overzicht van tools voor variantanalyse van genoomsequentiegegevens van de volgende generatie. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Korte Bioinform, 2014 maart, Vol. 15 (2). 10.1093/bib/bbs086.
2. Dell EMC Ready oplossing voor HPC Glansre Storage.  (Artikel niet langer beschikbaar ter referentie, opgehaald door HPC-team)
3. Toolkit voor genoomanalyse. https://software.broadinstitute.org/gatk/Deze hyperlink leidt u naar een website buiten Dell Technologies.

Cause

Archivering als artikel is gebaseerd op HPC-documentatie die niet langer online wordt gehost, en het artikel kan niet worden bewerkt om aan de verwachtingen van de KB te voldoen

Resolution

Archivering als artikel is gebaseerd op HPC-documentatie die niet langer online wordt gehost, en het artikel kan niet worden bewerkt om aan de verwachtingen van de KB te voldoen

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sept 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.