Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC Ready Solution for HPC Life Sciences: BWA-GATK Pipeline-gjennomstrømningstester med Cascade Lake CPU og Lustre ME4-oppdatering

Résumé: Dell EMC Ready Solution for HPC Life Sciences: BWA-GATK Pipeline-gjennomstrømningstester med Cascade Lake CPU og Lustre ME4-oppdatering

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Konfigurasjon av 64-datanode for Dell EMC Ready Solutions for HPC Life Sciences kan behandle 194 genom per dag (50x dekningsdybde).

Oversikt

VariantanropDenne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies. er en prosess der vi identifiserer varianter fra sekvensdata. Denne prosessen hjelper deg med å fastslå om det finnes enkelt nukleotidpolymorfismer (SNP-er), innsettinger og slettinger (indels) og eller strukturelle varianter (SVs) på en gitt posisjon i et individuelt genom eller en underordner. Det viktigste målet med å identifisere genomiske variasjoner er å knytte seg til humane sammenhenger. Selv om ikke alle menneskelige utsparinger er knyttet til varianter, kan variantsamtaler gi en verdifull retningslinje for å jobbe med en bestemt oppsparing forårsaket av oppsparende variasjoner. BWA-GATK er et av de neste generasjons sekvenseringsverktøy (NGS) som er utformet for å identifisere utrykningsmidler og somatiske NGS-data fra humane NGS-data. Det finnes en oppspørring av variantidentifikasjonsverktøy, og vi forstår at det ikke finnes ett enkelt verktøy som fungerer perfekt (1). Vi valgte imidlertid GATK, som er et av de mest populære verktøyene som benchmarking-verktøyet vårt, for å demonstrere hvor godt Dell EMC Ready Solutions for HPC Life Sciences kan behandle komplekse og massive NGS-workloader. 
Formålet med denne bloggen er å gi verdifull ytelsesinformasjon om Intel® Xeon® Gold 6248-prosessoren for BWA-GATK pipeline benchmark med Dell EMC Ready Solutions for HPC Lustre Storage (oppdatering i ME4-serien) (2). Xeon® Gold 6248 CPU har 20 fysiske kjerner eller 40 logiske kjerner når du bruker hyper threading. Konfigurasjonene av testklyngen er oppsummert i tabell 1.

Tabell 1 Testet nodekonfigurasjon for databehandling
 
Dell EMC PowerEdge C6420
CPU 2 x Xeon® Gold 6248 20 kjerner, 2,5 GHz (Cascade Lake)
RAM 12 x 16 GB ved 2933 MTps
OS RHEL 7.6
Interconnect Intel® Omni-bane
BIOS-systemprofil Optimert ytelse
Logisk prosessor Deaktivert
Virtualiserings-teknologi Deaktivert
BWA 0.7.15-r1140
Samtools 1.6
GATK 3,6-0 g89b7209

De testede databehandlingsnodene ble koblet til Dell EMC Ready Solutions for HPC Lustre Storage via Intel® Omni-Path. Sammendragskonfigurasjonen av lagringen er oppført i tabell 2.
Tabell 2 Løsning for maskinvare- og programvarespesifikasjoner
 
Dell EMC Ready Solution for Lustre Storage
Antall noder 1 x Dell EMC PowerEdge R640 som Integrated Manager for Lustre (IML)
2 x Dell EMC PowerEdge R740 som Metadata Server (MDS)
2x Dell EMC PowerEdge R740 som Object Storage Server (OSS)
Prosessorer IML-server: Dual Intel Xeon Gold 5118 ved 2,3 GHz
MDS- og OSS-servere: Dual Intel Xeon Gold 6136 ved 3,00 GHz
Minne IML-server: 12 x 8 GB 2666 MT/s DDR4 RDIMM MDS
- og OSS-servere: 24 x 16 GiB 2666 MT/s DDR4 RDIMM-er
Eksterne lagringskontrollere
2 x Dell 12 Gb/s SAS HBA-er (på hver MDS)
4 x Dell 12 Gb/s SAS HBA-er (på hver OSS)
Objektlagringskabinetter
4 x ME4084 med totalt 336 x 8 TB NL HDD-er med 7,2 000 o/min
Kabinett for metadatalagring
1 x ME4024 med 24 x 960 GB SAS SSD-disker. Støtter opptil 4,68 B-inoder
RAID-kontrollere Dupleks SAS RAID-kontrollere i ME4084- og ME4024-kabinetter
Operativsystem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7,5 x86_64
BIOS-versjon 1.4.5
Intel Omni-Path
IFS-versjon
10.8.0.0
Lustre filsystemversjon
2.10.4
IML-versjon 4.0.7.0

Testdataene ble valgt fra et av Illuminas Platinum-genom. ERR194161 ble behandlet med Illumina HiSeq 2000 innsendt av Illumina og kan hentes fra EMBL-EBI. DNA-identifikatoren for denne personen er NA12878. Beskrivelsen av dataene fra det koblede nettstedet viser at dette eksemplet har en >30x dekningsdybde.

Ytelsesevaluering

Ytelse for enkelteksempel på flere noder

I figur 1 oppsummeres kjøretiden i ulike antall eksempler og databehandlingsnoder med WGS-data (Whole Genome Sequencing). Testene som utføres her, er utformet for å demonstrere ytelse på servernivå, ikke for sammenligninger av individuelle komponenter. Datapunktene i figur 1 beregnes basert på det totale antallet eksempler, ett eksempel per datanode (X-akse i figuren) som behandles samtidig. Informasjon om BWA-GATK-pipeline kan hentes fra Broad Institute-nettstedet (3). Det maksimale antallet datanoder som brukes for testene, er 64x C6420. C6420-enheter med Lustre ME4 viser bedre skaleringsatferd enn Lustre MD3.

  Ytelsessammenligning mellom Lustre MD3 og Lustre ME4
Figur 1 Ytelsessammenligning mellom Lustre MD3 og Lustre ME4

Flere eksempel på ytelse for flere noder

En vanlig måte å kjøre NGS-pipeline på er å kjøre flere eksempler på en datanode og bruke flere databehandlingsnoder for å maksimere gjennomstrømningen av NGS-dataprosessen. Antallet databehandlingsnoder som brukes for testene, er 64 av C6420-datanodene, og antall eksempler per node er fem eksempler. Opptil 320 eksempler behandles samtidig for å estimere det maksimale antallet genom per dag uten en jobbfeil.
Som vist i figur 2 kan én C6420-datanode behandle 3,24 av 50 x hel menneskelig genom per dag når 5 eksempler behandles samtidig. For hvert utvalg tilordnes 7 kjerner og 30 GB minne. 

  Gjennomstrømningstester med opptil 64 C6420-er og Lustre ME4
Figur 2 Gjennomstrømningstester med opptil 64 C6420-er og Lustre ME4

320 av 50 x hele menneskelige genom kan behandles med 64 av C6420-datanoder på 40 timer.  Resultatene av testkonfigurasjonen oppsummerer med andre ord som 194 genom per dag for hele menneskelig genom med 50x dekningsdybde.

Konklusjon

Etter hvert som datastørrelsen på WGS har økt kontinuerlig. Gjeldende gjennomsnittsstørrelse for WGS er 50 x. Dette er fem ganger større enn en vanlig WGS for fire år siden da vi begynte å måle BWA-GATK-pipelinen. De økende dataene belaster ikke lagringskapasiteten siden de fleste applikasjoner i pipelinen også er avgrenset av CPU-klokkehastigheten. Derfor kjører pipelinen lenger i stedet for å generere flere skriveoperasjoner med økende datastørrelse.
Imidlertid genereres det et større antall midlertidige filer i løpet av prosessen på grunn av at mer data må parallelliseres, og dette økte antallet midlertidige filer som åpnes samtidig, bruker den åpne filgrensen i et Linux-operativsystem. En av applikasjonene kan ikke fullføres stille ved å trykke på grensen for antall åpne filer. En enkel løsning er å øke grensen til >150 000 o/min. 
Ready Solution med Lustre ME4 som scratch space har likevel en bedre gjennomstrømningskapasitet enn forrige versjon. Nå markerer 64 noder Ready Solution 194 genom per dag prosessorkraft for 50x WGS.

Ressurser 

1. En undersøkelse av verktøy for variantanalyse av neste generasjons genomsekvenseringsdata. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Kort bioinform, 2014 mar, vol. 15 (2). 10.1093/bib/bbs086.
2. Dell EMC Ready Solution for HPC Lustre Storage.  (Artikkelen er ikke lenger tilgjengelig for referanse, trukket av HPC-teamet)
3. Verktøysett for genomanalyse. https://software.broadinstitute.org/gatk/ Denne hyperkoblingen tar deg til et nettsted utenfor Dell Technologies.

Propriétés de l’article


Produit concerné

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Dernière date de publication

11 janv. 2024

Version

6

Type d’article

Solution