Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC-färdig lösning för HPC-biovetenskap: Dataflödestest av BWA-GATK-pipeline med uppdatering av Cascade Lake-processor och Lustre ME4

Résumé: Dell EMC-färdig lösning för HPC-biovetenskap: Dataflödestest av BWA-GATK-pipeline med uppdatering av Cascade Lake-processor och Lustre ME4

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Konfiguration av 64-beräkningsnoder för Dell EMC-färdiga lösningar för HPC-biovetenskap kan bearbeta 194 genom per dag (50x täckningsdjup).

Översikt

VariantsamtalDen här hyperlänken tar dig till en webbplats utanför Dell Technologies. är en process genom vilken vi identifierar varianter från sekvensdata. Den här processen hjälper till att avgöra om det finns enstaka nucleotide-polymormorismer (SNPs), insertions och deletions (indels) och eller strukturella varianter (SVS) på en viss position i ett individuellt genom eller matrisom. Det huvudsakliga målet med att identifiera genomiska variationer är att koppla till mänsklig identitet. Även om inte alla mänskliga orsaker är associerade med olika varianter kan anrop av varianter ge en värdefull vägledning för stötar som arbetar med en viss sjukdom som orsakas av variationer från någon av dem. BWA-GATK är ett av nästa generations sekvenseringsverktyg (NGS) som är utformade för att identifiera germline- och somatic-dukationer från mänskliga NGS-data. Det finns en mängd olika identifieringsverktyg, och vi förstår att det inte finns ett enda verktyg som fungerar perfekt (1). Vi valde dock GATK som är ett av de mest populära verktygen som vårt bedömningsverktyg för att visa hur väl Dell EMC Ready Solutions för HPC-biovetenskap kan bearbeta komplexa och enorma NGS-arbetsbelastningar. 
Syftet med den här bloggen är att ge värdefull prestandainformation om Intel® Xeon® Gold 6248-processorn för prestandatest av BWA-GATK-pipelinen med Dell EMC Ready-lösningar för HPC Lustre-lagring (ME4-seriens uppdatering) (2). Xeon® Gold 6248-processorn har 20 fysiska kärnor eller 40 logiska kärnor när du använder hypertrådning. Testklusterkonfigurationerna sammanfattas i tabell 1.

Tabell 1 Testad konfiguration av beräkningsnod
 
Dell EMC PowerEdge C6420
Processor 2x Xeon® Gold 6248 20 kärnor 2,5 GHz (Cascade Lake)
RAM 12x 16 GB vid 2 933 MTps
OS RHEL 7.6
Interconnect Intel® Omni-Path
BIOS-systemprofil Prestandaoptimerad
Logisk processor Disabled (avaktiverad)
Virtualiseringsteknik Disabled (avaktiverad)
BWA 0.7.15-r1140
Samtools 1.6
GATK 3,6-0-g89b7209

De testade beräkningsnoderna var anslutna till Dell EMC Ready-lösningar för HPC Lustre-lagring via Intel® Omni-Path. Den sammanfattningskonfigurationen av lagringen visas i tabell 2.
Tabell 2: Maskinvaru- och programvaruspecifikationer
 
Dell EMC-färdig lösning för Lustre-lagring
Antal noder 1x Dell EMC PowerEdge R640 som Integrated Manager for Lustre (IML)
2x Dell EMC PowerEdge R740 som Metadata Server (MDS)
2x Dell EMC PowerEdge R740 som objektlagringsserver (OSS)
Processorer IML-server: Dubbla Intel Xeon Gold 5118 vid 2,3 GHz
MDS- och OSS-servrar: Dubbel Intel Xeon Gold 6136 vid 3,00 GHz
Minne IML-server: 12 x 8 GB 2 666 MT/s DDR4 RDIMM
MDS- och OSS-servrar: 24 x 16 GiB 2 666 MT/s DDR4 RDIMM-moduler
Externa lagringsstyrenheter
2 Dell SAS HBA:er på 12 Gbit/s (på varje MDS)
4 × Dell 12 Gbit/s SAS HBA:er (på varje OSS)
Objektlagringshöljen
4 × ME4084 med totalt 336 × 8 TB NL 7 200 varv/min SAS-hårddiskar
Metadatalagringshölje
1 × ME4024 med 24 × 960 GB SAS SSD-diskar. Stöder upp till 4,68 B inoder
RAID-styrenheter Duplex SAS RAID-styrenheter i ME4084- och ME4024-höljen
Operativsystem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS-version 1.4.5
Intel OMNI-Path
IFS-version
10.8.0.0
Lustre filsystemversion
2.10.4
IML-version 4.0.7.0

Testdata valdes från ett av Illuminas platinumgenom. ERR194161 har bearbetats med Illumina HiSeq 2000 skickat av Illumina och kan erhållas från EMBL-EBI. DNA-identifieraren för den här personen är NA12878. Beskrivningen av data från den länkade webbplatsen visar att det här exemplet har >30 gånger så stort täckningsdjup.

Prestandautvärdering

Prestanda för flera noder med ett exempel

I bild 1 sammanfattas körtiden i olika antal exempel och beräkningsnoder med 50x WGS-data (Whole Genome Sequencing). Testerna som utförs här är utformade för att visa prestanda på servernivå, inte för jämförelser av enskilda komponenter. Datapunkterna i bild 1 beräknas baserat på det totala antalet prov, ett exempel per beräkningsnod (X-axeln i bilden) som bearbetas samtidigt. Information om pipelinen BWA-GATK finns på Broad Institutes webbplats (3). Det maximala antalet beräkningsnoder som används för testerna är 64 x C6420s. C6420s med Lustre ME4 visar ett bättre skalningsbeteende än Lustre MD3.

  Prestandajämförelser mellan Lustre MD3 och Lustre ME4
Bild 1: Prestandajämförelser mellan Lustre MD3 och Lustre ME4

Flera exempel på prestanda för flera noder

Ett typiskt sätt att köra NGS-pipelinen är att köra flera exempel på en beräkningsnod och använda flera beräkningsnoder för att maximera dataflödet i NGS-dataprocessen. Antalet beräkningsnoder som används för testerna är 64 av C6420-beräkningsnoder och antalet prov per nod är fem exempel. Upp till 320 prov bearbetas samtidigt för att uppskatta det maximala antalet genom per dag utan jobbfel.
Som visas i bild 2 kan en enda C6420-beräkningsnod bearbeta 3,24 av 50 gånger hela mänskliga genom per dag när fem prov bearbetas samtidigt. För varje exempel allokeras 7 kärnor och 30 GB minne. 

  Genomflödestester med upp till 64 C6420s och Lustre ME4
Bild 2: Genomflödestester med upp till 64 C6420s och Lustre ME4

320 av 50x hela mänskliga genom kan bearbetas med 64 av C6420-beräkningsnoder på 40 timmar.  Med andra ord sammanfattar testkonfigurationens prestanda som 194 genom per dag för hela mänskligt genom med 50x täckningsdjup.

Slutsats

I takt med att datastorleken på WGS hela tiden har ökat. Den aktuella genomsnittliga storleken för WGS är 50x. Det här är 5 gånger större än en vanlig WGS för 4 år sedan när vi började prestandatesta BWA-GATK-pipelinen. De ökande data anstränger inte lagringssidans kapacitet eftersom de flesta program i pipelinen också begränsas av processorns klockhastighet. Därför går pipelinen längre istället för att generera fler skrivningar med växande datastorlek.
Det finns dock ett större antal temporära filer som genereras under processen på grund av att mer data måste parallelliseras, och detta ökade antal temporära filer som öppnas samtidigt överskrider gränsen för öppna filer i ett Linux-operativsystem. Ett av programmen slutförs inte tyst genom att nå gränsen för antalet öppna filer. En enkel lösning är att öka gränsen till >150 000. 
Icke desto mindre har Ready-lösningen med Lustre ME4 som ett repor en bättre genomströmningskapacitet än den tidigare versionen. Nu markerar 64 noder Ready Solution 194 genom per dag processorkraft för 50x WGS.

Resurser 

1. En undersökning av verktyg för variantanalys av nästa generations genomsekvensdata. Pabinger S, Dander A, Repetitiv M, Snajder R, Sperk M, Efremova M, Krabadhler B, Speicher MR, Zsmappe J, Trajanoski Z. 2, s.l. : Kort Bioinform, 2014 mar, vol. 15 (2). 10.1093/bbs/bbs086.
2. Dell EMC-färdig lösning för lagring med HPC Lustre.  (Artikeln finns inte längre tillgänglig som referens, hämtad av HPC-teamet)
3. Verktyg för genomanalys. https://software.broadinstitute.org/gatk/ Den här hyperlänken tar dig till en webbplats utanför Dell Technologies.

Propriétés de l’article


Produit concerné

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Dernière date de publication

11 janv. 2024

Version

6

Type d’article

Solution