Dell EMC Ready Solution för biovetenskap med HPC: Genomströmningstester av BWA-GATK-pipeline med Cascade Lake CPU och Lustre ME4-uppdatering

Summary: Arkivering som artikel baseras på HPC-dokumentation som inte längre finns online och artikeln kan inte redigeras så att den uppfyller kunskapsbaskravens förväntningar Dell EMC Ready Solution för biovetenskap med HPC: Genomströmningstester av BWA-GATK-pipeline med Cascade Lake CPU och Lustre ME4-uppdatering ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Konfiguration med 64 beräkningsnoder av Dell EMC Ready Solutions för HPC Biovetenskap kan bearbeta 194 genom per dag (50x täckningsdjupet).

Översikt

VariantanropDen här hyperlänken tar dig till en webbplats utanför Dell Technologies. är en process genom vilken vi identifierar varianter från sekvensdata. Denna process hjälper till att avgöra om det finns enstaka nukleotidpolymorfismer (SNP), insättningar och raderingar (indels) och/eller strukturella varianter (SV) vid en given position i ett enskilt genom eller transkriptom. Huvudmålet med att identifiera genomiska variationer är att koppla till mänskliga sjukdomar. Även om inte alla mänskliga sjukdomar är förknippade med genetiska variationer, kan variantanrop ge en värdefull riktlinje för genetiker som arbetar med en viss sjukdom som orsakas av genetiska variationer. BWA-GATK är ett av Next Generation Sequencing (NGS) beräkningsverktyg som är utformade för att identifiera könsceller och somatiska mutationer från mänskliga NGS-data. Det finns en handfull variantidentifieringsverktyg, och vi förstår att det inte finns ett enda verktyg som fungerar perfekt (1). Vi valde dock GATK, som är ett av de mest populära verktygen, som vårt benchmarkingverktyg för att visa hur väl Dell EMC Ready Solutions för HPC Life Sciences kan hantera komplexa och omfattande NGS-arbetsbelastningar. 
Syftet med den här bloggen är att tillhandahålla värdefull prestandainformation om Intel® Xeon® Gold 6248-processorn för prestandatestet BWA-GATK pipeline med Dell EMC Ready Solutions för HPC Lustre-lagring (ME4-seriens uppdatering) (2). Xeon® Gold 6248-processorn har 20 fysiska kärnor eller 40 logiska kärnor när hypertrådning används. Testklusterkonfigurationerna sammanfattas i tabell 1.

Tabell 1 Testad konfiguration av beräkningsnod
 
Dell EMC PowerEdge C6420
Processor 2 × Xeon® Gold 6248, 20 kärnor, 2,5 GHz (Cascade Lake)
RAM 12x 16GB vid 2933 MTps
ÅS RHEL 7.6
Interconnect Intel® Omni-Path
BIOS-systemprofil Prestandaoptimerad
Logisk processor Disabled (avaktiverad)
Virtualiseringsteknik Disabled (avaktiverad)
BWA BWA 0.7.15-R1140
Samtools 1.6
GATK GATK 3.6-0-G89B7209

De beräkningsnoder som testades anslöts till Dell EMC Ready Solutions för HPC Lustre-lagring via Intel® Omni-Path. Den sammanfattande konfigurationen av lagringen visas i tabell 2.
Tabell 2 Specifikationer för lösningens maskinvara och programvara
 
Dell EMC Ready Solution för Lustre-lagring
Antal noder 1 Dell EMC PowerEdge R640 som Integrated Manager för Lyster (IML)
2 Dell EMC PowerEdge R740 som metadataserver (MDS)
2 Dell EMC PowerEdge R740 som objektlagringsserver (OSS)
Processorer IML-server: Dubbel Intel Xeon Gold 5118 @ 2,3 GHz
MDS- och OSS-servrar: Dubbel Intel Xeon Gold 6136 @ 3,00 GHz
Minne IML-server: 12 x 8 GB, 2 666 MT/s, DDR4 RDIMM,
MDS- och OSS-servrar: 24 x 16 GiB 2 666 MT/s DDR4 RDIMM
Styrenheter för extern lagring
2 × Dell SAS-värdbussadaptrar på 12 Gbit/s (på varje MDS-system)
4 × Dell SAS-värdbussadaptrar på 12 Gbit/s (på varje OSS)
Objektlagringshöljen
4 × ME4084 med totalt 336 × 8 TB NL SAS-hårddiskar på 7 200 v/min
Lagringshölje
för metadata
1 × ME4024 med 24 × 960 GB SAS SSD-hårddiskar. Stöder upp till 4,68 B-inoder
RAID-styrenheter Duplex SAS RAID-styrenheter i ME4084- och ME4024-höljen
Operativsystem CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS-version 1.4.5
Intel Omni-Path
IFS-version
10.8.0.0
Lustre-filsystemsversion
2.10.4
IML-version 4.0.7.0

Testdata valdes från ett av Illuminas Platinum Genomes. ERR194161 bearbetades med Illumina HiSeq 2000 som lämnats in av Illumina och kan erhållas från EMBL-EBI. DNA-identifieraren för denna individ är NA12878. Beskrivningen av data från den länkade webbplatsen visar att det här urvalet har ett >täckningsdjup på 30 gånger.

Prestandautvärdering

Prestanda för ett prov för flera noder

I bild 1 sammanfattas körningen i olika antal exempel och beräkningsnoder med 50x WGS-data (Whole Genome Sequencing). Testerna som utförs här är utformade för att visa prestanda på servernivå, inte för jämförelser av enskilda komponenter. Datapunkterna i bild 1 beräknas baserat på det totala antalet exempel, ett urval per beräkningsnod (X-axeln i figuren) som bearbetas samtidigt. Närmare uppgifter om BWA-GATK:s rörledning finns på Broad Institutes webbplats (3). Det maximala antalet beräkningsnoder som används för testerna är 64x C6420s. C6420s med Lyster ME4 visar ett bättre skalningsbeteende än Lyster MD3.

 Prestandajämförelser mellan Lustre MD3 och Lustre ME4
Figur 1 Prestandajämförelser mellan Lustre MD3 och Lustre ME4

Prestanda för flera exempel på flera noder

Ett vanligt sätt att köra NGS-pipelinen är att köra flera exempel på en beräkningsnod och använda flera beräkningsnoder för att maximera dataflödet för NGS-dataprocessen. Antalet beräkningsnoder som används för testerna är 64 av C6420-beräkningsnoderna och antalet exempel per nod är fem exempel. Upp till 320 prover bearbetas samtidigt för att uppskatta det maximala antalet genom per dag utan att jobbet misslyckas.
Som visas i figur 2 kan en enda C6420-beräkningsnod bearbeta 3,24 av 50 hela mänskliga genom per dag när 5 prover bearbetas samtidigt. För varje exempel allokeras 7 kärnor och 30 GB minne. 

 Genomströmningstester med upp till 64 C6420s och Lyster ME4
Figur 2 Genomströmningstester med upp till 64 C6420 och Lyster ME4

320 av 50 hela mänskliga genom kan bearbetas med 64 av C6420 beräkningsnoder på 40 timmar.  Med andra ord sammanfattas testkonfigurationens prestanda som 194 genom per dag för hela det mänskliga genomet med 50x täckningsdjup.

Slutsats

Eftersom datastorleken för WGS har ökat konstant. Den nuvarande genomsnittliga storleken på WGS är 50x. Detta är 5 gånger större än en typisk WGS för 4 år sedan när vi började benchmarka BWA-GATK-pipeline. Den ökande mängden data belastar inte lagringssidans kapacitet eftersom de flesta program i planeringen också begränsas av processorns klockhastighet. Med växande datastorlek körs pipelinen därför längre i stället för att generera fler skrivningar.
Det finns dock ett större antal temporära filer som genereras under processen på grund av att mer data måste parallelliseras, och detta ökade antal temporära filer som öppnas samtidigt uttömmer gränsen för öppna filer i ett Linux-operativsystem. Ett av programmen misslyckas tyst med att slutföra genom att nå gränsen för antalet öppna filer. En enkel lösning är att öka gränsen till >150K. 
Icke desto mindre har Ready Solution med Lustre ME4 som skraputrymme en bättre genomströmningskapacitet än den tidigare versionen. Nu märker 64 noder Ready Solution 194 genom per dag processorkraft för 50x WGS.

Resurser 

1. En kartläggning av verktyg för variantanalys av nästa generations genomsekvenseringsdata. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, SL : Kort bioinform, 2014 Mar, Vol. 15 (2). 10.1093/bib/bbs086.
2. Dell EMC Ready Solution för HPC Lustre-lagring.  (Artikeln är inte längre tillgänglig som referens, hämtad av HPC-teamet)
3. Verktygslåda för genomanalys. https://software.broadinstitute.org/gatk/Den här hyperlänken tar dig till en webbplats utanför Dell Technologies.

Cause

Arkivering som artikel baseras på HPC-dokumentation som inte längre finns online och artikeln kan inte redigeras så att den uppfyller kunskapsbaskravens förväntningar

Resolution

Arkivering som artikel baseras på HPC-dokumentation som inte längre finns online och artikeln kan inte redigeras så att den uppfyller kunskapsbaskravens förväntningar

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sept 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.