Dell EMC Ready Solution for HPC Life Sciences: Tester av BWA-GATK-rørledningsgjennomstrømming med Cascade Lake CPU og Lustre ME4-oppdatering

Summary: Arkivering som artikkel er basert på HPC-dokumentasjon som ikke lenger ligger på nettet, og artikkelen kan ikke redigeres for å oppfylle KB-forventningene Dell EMC Ready Solution for HPC Life Sciences: Tester av BWA-GATK-rørledningsgjennomstrømming med Cascade Lake CPU og Lustre ME4-oppdatering ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

64-datanodekonfigurasjon av Dell EMC Ready Solutions for HPC Life Sciences kan behandle 194 genomer per dag (50x dybde av dekning).

Oversikt

VariantkallDenne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies. er en prosess der vi identifiserer varianter fra sekvensdata. Denne prosessen bidrar til å avgjøre om det er enkeltnukleotidpolymorfismer (SNPs), innsettinger og delesjoner (indels) og eller strukturelle varianter (SV) på en gitt posisjon i et individuelt genom eller transkriptom. Hovedmålet med å identifisere genomiske variasjoner er kobling til menneskelige sykdommer. Selv om ikke alle menneskelige sykdommer er forbundet med genetiske variasjoner, kan variantkall gi en verdifull retningslinje for genetikere som arbeider med en bestemt sykdom forårsaket av genetiske variasjoner. BWA-GATK er et av Next Generation Sequencing (NGS) beregningsverktøy som er designet for å identifisere germline og somatiske mutasjoner fra menneskelige NGS-data. Det finnes en håndfull variantidentifikasjonsverktøy, og vi forstår at det ikke finnes ett enkelt verktøy som fungerer perfekt (1). Vi valgte imidlertid GATK, som er et av de mest populære verktøyene som vårt referanseverktøy for å demonstrere hvor godt Dell EMC Ready Solutions for HPC Life Sciences kan behandle komplekse og massive NGS-workloader. 
Formålet med denne bloggen er å gi verdifull ytelsesinformasjon om Intel® Xeon® Gold 6248-prosessor for BWA-GATK-rørledningsprøve med Dell EMC Ready Solutions for HPC Lustre Storage (oppdatering av ME4-serien) (2). Xeon® Gold 6248 CPU har 20 fysiske kjerner eller 40 logiske kjerner når du bruker hyper threading. Testklyngekonfigurasjonene er oppsummert i tabell 1.

Tabell 1 Testet konfigurasjon av databehandlingsnode
 
Dell EMC PowerEdge C6420
CPU 2 x Xeon® Gold 6248 20 kjerner, 2,5 GHz (Cascade Lake)
RAM 12 x 16 GB ved 2933 MTps
OPERATIVSYSTEM RHEL 7.6
Interconnect Intel® Omni-Path
BIOS-systemprofil Optimert ytelse
Logisk prosessor Deaktivert
Virtualiserings-teknologi Deaktivert
BWA 0.7.15-R1140
Samtools 1.6
GATK 3.6-0-G89B7209

De testede databehandlingsnodene ble koblet til Dell EMC Ready Solutions for HPC Lustre Storage via Intel® Omni-Path. Sammendragskonfigurasjonen av lagringen er oppført i tabell 2.
Tabell 2: Spesifikasjoner for løsningsmaskinvare og programvare
 
Dell EMC Ready Solution for Lustre Storage
Antall noder 1 Dell EMC PowerEdge R640 som integrert leder for Lustre (IML)
2 Dell EMC PowerEdge R740 som metadataserver (MDS)
2 Dell EMC PowerEdge R740 som objektlagringsserver (OSS)
Prosessorer IML-server: Dobbel Intel Xeon Gold 5118 @ 2,3 GHz
MDS- og OSS-servere: Dobbel Intel Xeon Gold 6136 @ 3,00 GHz
Minne IML-server: 12 x 8 GB 2 666 MT/s DDR4 RDIMM-er
MDS- og OSS-servere: 24 x 16 GiB, 2 666 MT/s, DDR4, RDIMM-er
Kontrollere for ekstern lagring
2 x Dell 12 Gb/s SAS HBA-er (på hver MDS)
4 x Dell 12 Gb/s SAS HBA-er (på hvert operativsystem)
Kabinetter for objektlagring
4x ME4084 med totalt 336 x 8 TB NL SAS-harddisker med 7200 o/min
Sletting av metadatalagring
1 ME4024 med 24 x 960 GB SAS SSD-er. Støtter opptil 4,68 B-inoder
RAID-kontrollere Dupleks-SAS RAID-kontrollere i ME4084- og ME4024-kabinetter
Operativsystem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7,5 x86_64
BIOS-versjon 1.4.5
Intel Omni-Path
IFS-versjon
10.8.0.0
Lustre filsystemversjon
2.10.4
IML-versjon 4.0.7.0

Testdataene ble valgt fra et av Illuminas Platinum Genomes. ERR194161 ble behandlet med Illumina HiSeq 2000 sendt inn av Illumina og kan fås fra EMBL-EBI. DNA-identifikatoren for denne personen er NA12878. Beskrivelsen av dataene fra det koblede nettstedet viser at dette eksemplet har en >30x dybdedekning.

Ytelsesevaluering

Ytelse for flere noder med én enkelt prøve

I figur 1 er kjøretiden i forskjellige antall prøver og beregningsnoder med 50x Whole Genome Sequencing (WGS) data oppsummert. Testene som utføres her er utformet for å demonstrere ytelse på servernivå, ikke for sammenligninger på individuelle komponenter. Datapunktene i figur 1 er beregnet basert på totalt antall utvalg, ett utvalg per beregningsnode (X-akse i figuren) som behandles samtidig. Detaljer om informasjon om BWA-GATK-rørledningen kan hentes fra nettstedet til Broad Institute (3). Maksimalt antall behandlingsnoder som brukes til testene er 64x C6420s. C6420s med Lustre ME4 viser en bedre skaleringsatferd enn Lustre MD3.

 Ytelsessammenligninger mellom Lustre MD3 og Lustre ME4
Figur 1 Sammenligning av ytelse mellom Lustre MD3 og Lustre ME4

Ytelse for flere eksempler på flere noder

En typisk måte å kjøre NGS-datasamlebånd på er å kjøre flere prøver på en databehandlingsnode og bruke flere beregningsnoder for å maksimere gjennomstrømningen til NGS-dataprosessen. Antall beregningsnoder som brukes til testene er 64 av C6420-beregningsnoder, og antall prøver per node er fem prøver. Opptil 320 prøver behandles samtidig for å estimere maksimalt antall genomer per dag uten jobbfeil.
Som vist i figur 2, kan enkelt C6420 beregningsnode behandle 3,24 av 50x hele menneskelige genomer per dag når 5 prøver behandles samtidig. For hver prøve tildeles 7 kjerner og 30 GB minne. 

 Gjennomstrømningstester med opptil 64 C6420s og Lustre ME4
Figur 2: Gjennomstrømningstester med opptil 64 C6420s og Lustre ME4

320 av 50x hele menneskelige genomer kan behandles med 64 av C6420 beregningsnoder på 40 timer.  Med andre ord oppsummerer ytelsen til testkonfigurasjonen som 194 genomer per dag for hele menneskelig genom med 50x dybdedekning.

Konklusjon

Ettersom datastørrelsen til WGS har vokst konstant. Den nåværende gjennomsnittlige størrelsen på WGS er 50x. Dette er 5 ganger større enn en typisk WGS for 4 år siden da vi begynte å benchmarke BWA-GATK-rørledningen. De økende dataene belaster ikke lagringssidekapasiteten, siden de fleste applikasjoner i rørledningen også er begrenset av CPU-klokkehastighet. Med økende datastørrelse kjører pipelinen derfor lenger i stedet for å generere flere skriveoperasjoner.
Imidlertid genereres det et større antall midlertidige filer under prosessen på grunn av at flere data må parallelliseres, og dette økte antallet midlertidige filer som åpnes samtidig, tømmer den åpne filgrensen i et Linux-operativsystem. En av applikasjonene mislykkes stille i å fullføre ved å trykke på grensen for antall åpne filer. En enkel løsning er å øke grensen til >150K. 
Ikke desto mindre har Ready Solution med Lustre ME4 som skrapeplass en bedre gjennomstrømningskapasitet enn den forrige versjonen. Nå markerer 64 noder Ready Solution 194 genomer per dag prosessorkraft for 50x WGS.

Ressurser 

1. En kartlegging av verktøy for variantanalyse av neste generasjons genomsekvenseringsdata. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Kort Bioinform, 2014 Mar, Vol. 15 (2). 10.1093/bib/bbs086.
2. Dell EMC Ready Solution for HPC Lustre Storage.  (Artikkelen er ikke lenger tilgjengelig for referanse, trukket av HPC-teamet)
3. Verktøykasse for genomanalyse. https://software.broadinstitute.org/gatk/Denne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies.

Cause

Arkivering som artikkel er basert på HPC-dokumentasjon som ikke lenger ligger på nettet, og artikkelen kan ikke redigeres for å oppfylle KB-forventningene

Resolution

Arkivering som artikkel er basert på HPC-dokumentasjon som ikke lenger ligger på nettet, og artikkelen kan ikke redigeres for å oppfylle KB-forventningene

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sep 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.