Dell EMC Ready Solution for HPC Life Sciences: Tester av BWA-GATK-rørledningsgjennomstrømming med Cascade Lake CPU og Lustre ME4-oppdatering
Summary: Arkivering som artikkel er basert på HPC-dokumentasjon som ikke lenger ligger på nettet, og artikkelen kan ikke redigeres for å oppfylle KB-forventningene Dell EMC Ready Solution for HPC Life Sciences: Tester av BWA-GATK-rørledningsgjennomstrømming med Cascade Lake CPU og Lustre ME4-oppdatering ...
Symptoms
64-datanodekonfigurasjon av Dell EMC Ready Solutions for HPC Life Sciences kan behandle 194 genomer per dag (50x dybde av dekning).
Oversikt
Variantkall er en prosess der vi identifiserer varianter fra sekvensdata. Denne prosessen bidrar til å avgjøre om det er enkeltnukleotidpolymorfismer (SNPs), innsettinger og delesjoner (indels) og eller strukturelle varianter (SV) på en gitt posisjon i et individuelt genom eller transkriptom. Hovedmålet med å identifisere genomiske variasjoner er kobling til menneskelige sykdommer. Selv om ikke alle menneskelige sykdommer er forbundet med genetiske variasjoner, kan variantkall gi en verdifull retningslinje for genetikere som arbeider med en bestemt sykdom forårsaket av genetiske variasjoner. BWA-GATK er et av Next Generation Sequencing (NGS) beregningsverktøy som er designet for å identifisere germline og somatiske mutasjoner fra menneskelige NGS-data. Det finnes en håndfull variantidentifikasjonsverktøy, og vi forstår at det ikke finnes ett enkelt verktøy som fungerer perfekt (1). Vi valgte imidlertid GATK, som er et av de mest populære verktøyene som vårt referanseverktøy for å demonstrere hvor godt Dell EMC Ready Solutions for HPC Life Sciences kan behandle komplekse og massive NGS-workloader.
Formålet med denne bloggen er å gi verdifull ytelsesinformasjon om Intel® Xeon® Gold 6248-prosessor for BWA-GATK-rørledningsprøve med Dell EMC Ready Solutions for HPC Lustre Storage (oppdatering av ME4-serien) (2). Xeon® Gold 6248 CPU har 20 fysiske kjerner eller 40 logiske kjerner når du bruker hyper threading. Testklyngekonfigurasjonene er oppsummert i tabell 1.
| Dell EMC PowerEdge C6420 | |
|---|---|
| CPU | 2 x Xeon® Gold 6248 20 kjerner, 2,5 GHz (Cascade Lake) |
| RAM | 12 x 16 GB ved 2933 MTps |
| OPERATIVSYSTEM | RHEL 7.6 |
| Interconnect | Intel® Omni-Path |
| BIOS-systemprofil | Optimert ytelse |
| Logisk prosessor | Deaktivert |
| Virtualiserings-teknologi | Deaktivert |
| BWA | 0.7.15-R1140 |
| Samtools | 1.6 |
| GATK | 3.6-0-G89B7209 |
De testede databehandlingsnodene ble koblet til Dell EMC Ready Solutions for HPC Lustre Storage via Intel® Omni-Path. Sammendragskonfigurasjonen av lagringen er oppført i tabell 2.
Tabell 2: Spesifikasjoner for løsningsmaskinvare og programvare
| Dell EMC Ready Solution for Lustre Storage | |
|---|---|
| Antall noder | 1 Dell EMC PowerEdge R640 som integrert leder for Lustre (IML) 2 Dell EMC PowerEdge R740 som metadataserver (MDS) 2 Dell EMC PowerEdge R740 som objektlagringsserver (OSS) |
| Prosessorer | IML-server: Dobbel Intel Xeon Gold 5118 @ 2,3 GHz MDS- og OSS-servere: Dobbel Intel Xeon Gold 6136 @ 3,00 GHz |
| Minne | IML-server: 12 x 8 GB 2 666 MT/s DDR4 RDIMM-er MDS- og OSS-servere: 24 x 16 GiB, 2 666 MT/s, DDR4, RDIMM-er |
| Kontrollere for ekstern lagring |
2 x Dell 12 Gb/s SAS HBA-er (på hver MDS) 4 x Dell 12 Gb/s SAS HBA-er (på hvert operativsystem) |
| Kabinetter for objektlagring |
4x ME4084 med totalt 336 x 8 TB NL SAS-harddisker med 7200 o/min |
| Sletting av metadatalagring |
1 ME4024 med 24 x 960 GB SAS SSD-er. Støtter opptil 4,68 B-inoder |
| RAID-kontrollere | Dupleks-SAS RAID-kontrollere i ME4084- og ME4024-kabinetter |
| Operativsystem | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7,5 x86_64 |
| BIOS-versjon | 1.4.5 |
| Intel Omni-Path IFS-versjon |
10.8.0.0 |
| Lustre filsystemversjon |
2.10.4 |
| IML-versjon | 4.0.7.0 |
Testdataene ble valgt fra et av Illuminas Platinum Genomes. ERR194161 ble behandlet med Illumina HiSeq 2000 sendt inn av Illumina og kan fås fra EMBL-EBI. DNA-identifikatoren for denne personen er NA12878. Beskrivelsen av dataene fra det koblede nettstedet viser at dette eksemplet har en >30x dybdedekning.
Ytelsesevaluering
Ytelse for flere noder med én enkelt prøve
I figur 1 er kjøretiden i forskjellige antall prøver og beregningsnoder med 50x Whole Genome Sequencing (WGS) data oppsummert. Testene som utføres her er utformet for å demonstrere ytelse på servernivå, ikke for sammenligninger på individuelle komponenter. Datapunktene i figur 1 er beregnet basert på totalt antall utvalg, ett utvalg per beregningsnode (X-akse i figuren) som behandles samtidig. Detaljer om informasjon om BWA-GATK-rørledningen kan hentes fra nettstedet til Broad Institute (3). Maksimalt antall behandlingsnoder som brukes til testene er 64x C6420s. C6420s med Lustre ME4 viser en bedre skaleringsatferd enn Lustre MD3.
Figur 1 Sammenligning av ytelse mellom Lustre MD3 og Lustre ME4
Ytelse for flere eksempler på flere noder
En typisk måte å kjøre NGS-datasamlebånd på er å kjøre flere prøver på en databehandlingsnode og bruke flere beregningsnoder for å maksimere gjennomstrømningen til NGS-dataprosessen. Antall beregningsnoder som brukes til testene er 64 av C6420-beregningsnoder, og antall prøver per node er fem prøver. Opptil 320 prøver behandles samtidig for å estimere maksimalt antall genomer per dag uten jobbfeil.Som vist i figur 2, kan enkelt C6420 beregningsnode behandle 3,24 av 50x hele menneskelige genomer per dag når 5 prøver behandles samtidig. For hver prøve tildeles 7 kjerner og 30 GB minne.
Figur 2: Gjennomstrømningstester med opptil 64 C6420s og Lustre ME4
320 av 50x hele menneskelige genomer kan behandles med 64 av C6420 beregningsnoder på 40 timer. Med andre ord oppsummerer ytelsen til testkonfigurasjonen som 194 genomer per dag for hele menneskelig genom med 50x dybdedekning.
Konklusjon
Ettersom datastørrelsen til WGS har vokst konstant. Den nåværende gjennomsnittlige størrelsen på WGS er 50x. Dette er 5 ganger større enn en typisk WGS for 4 år siden da vi begynte å benchmarke BWA-GATK-rørledningen. De økende dataene belaster ikke lagringssidekapasiteten, siden de fleste applikasjoner i rørledningen også er begrenset av CPU-klokkehastighet. Med økende datastørrelse kjører pipelinen derfor lenger i stedet for å generere flere skriveoperasjoner.Imidlertid genereres det et større antall midlertidige filer under prosessen på grunn av at flere data må parallelliseres, og dette økte antallet midlertidige filer som åpnes samtidig, tømmer den åpne filgrensen i et Linux-operativsystem. En av applikasjonene mislykkes stille i å fullføre ved å trykke på grensen for antall åpne filer. En enkel løsning er å øke grensen til >150K.
Ikke desto mindre har Ready Solution med Lustre ME4 som skrapeplass en bedre gjennomstrømningskapasitet enn den forrige versjonen. Nå markerer 64 noder Ready Solution 194 genomer per dag prosessorkraft for 50x WGS.
Ressurser
1. En kartlegging av verktøy for variantanalyse av neste generasjons genomsekvenseringsdata. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Kort Bioinform, 2014 Mar, Vol. 15 (2). 10.1093/bib/bbs086.2. Dell EMC Ready Solution for HPC Lustre Storage. (Artikkelen er ikke lenger tilgjengelig for referanse, trukket av HPC-teamet)
3. Verktøykasse for genomanalyse. https://software.broadinstitute.org/gatk/
Cause
Arkivering som artikkel er basert på HPC-dokumentasjon som ikke lenger ligger på nettet, og artikkelen kan ikke redigeres for å oppfylle KB-forventningene
Resolution
Arkivering som artikkel er basert på HPC-dokumentasjon som ikke lenger ligger på nettet, og artikkelen kan ikke redigeres for å oppfylle KB-forventningene