Dell EMC-parat løsning til HPC Life Sciences: BWA-GATK-test af pipelinehastighed med Cascade Lake CPU og Lustre ME4 Refresh
Summary: Arkivering som artikel er baseret på HPC-dokumentation, der ikke længere hostes online, og artiklen kan ikke redigeres, så den lever op til KB-forventningerne Dell EMC-parat løsning til HPC Life Sciences: BWA-GATK-test af pipelinehastighed med Cascade Lake CPU og Lustre ME4 Refresh ...
Symptoms
64-beregningsnodekonfiguration af Dell EMC Ready Solutions til HPC Life Sciences kan behandle 194 genomer om dagen (50 gange så dyb dækning).
Oversigt
Variantopkald er en proces, hvormed vi identificerer varianter fra sekvensdata. Denne proces hjælper med at bestemme, om der er enkeltnukleotidpolymorfier (SNP'er), insertioner og deletioner (indels) og eller strukturelle varianter (SV'er) på en given position i et individuelt genom eller transkriptom. Hovedmålet med at identificere genomiske variationer er at linke til menneskelige sygdomme. Selvom ikke alle menneskelige sygdomme er forbundet med genetiske variationer, kan variantkald give en værdifuld retningslinje for genetikere, der arbejder på en bestemt sygdom forårsaget af genetiske variationer. BWA-GATK er et af NGS-beregningsværktøjerne (Next Generation Sequencing), der er designet til at identificere kimlinje- og somatiske mutationer fra humane NGS-data. Der er en håndfuld variantidentifikationsværktøjer, og vi forstår, at der ikke er et enkelt værktøj, der fungerer perfekt (1). Vi valgte dog GATK, som er et af de mest populære værktøjer som vores benchmarking-værktøj til at demonstrere, hvor godt Dell EMC Ready Solutions til HPC Life Sciences kan behandle komplekse og massive NGS-workloads.
Formålet med denne blog er at levere værdifulde oplysninger om ydeevnen om Intel® Xeon® Gold 6248-processoren til BWA-GATK-pipelinebenchmark med Dell EMC Ready Solutions for HPC Luster Storage (opdatering af ME4-serien) (2). Xeon® Gold 6248 CPU'en har 20 fysiske kerner eller 40 logiske kerner, når du bruger hyper threading. Testklyngekonfigurationerne er opsummeret i tabel 1.
| Dell EMC PowerEdge C6420 | |
|---|---|
| CPU | 2x Xeon® Gold 6248, 20 kerner, 2,5 GHz (Cascade Lake) |
| RAM | 12 x 16 GB ved 2933 MTps |
| OPERATIVSYSTEM | RHEL 7.6 |
| Interconnect | Intel® Omni-Path |
| BIOS-systemprofil | Ydeevneoptimeret |
| Logisk processor | Disabled |
| Virtualiseringsteknologi | Disabled |
| BWA | 0.7.15-R1140 |
| Samtools | 1.6 |
| GATK | 3.6-0-G89B7209 |
De testede computernoder blev forbundet til Dell EMC Ready Solutions til HPC Luster Storage via Intel® Omni-Path. Den sammenfattende konfiguration af lageret er angivet i tabel 2.
Tabel 2 Specifikationer for løsningshardware og -software
| Dell EMC-parat løsning til Luster Storage | |
|---|---|
| Antal noder | 1x Dell EMC PowerEdge R640 som integreret manager til Luster (IML) 2x Dell EMC PowerEdge R740 som metadataserver (MDS) 2x Dell EMC PowerEdge R740 som objektstorageserver (OSS) |
| Processorer | IML-server: Dual Intel Xeon Gold 5118 @ 2,3 GHz MDS- og OSS-servere: Dobbelt Intel Xeon Gold 6136 @ 3,00 GHz |
| Hukommelse | IML-server: 12 x 8 GB 2.666 MT/sek. DDR4 RDIMM'er MDS- og OSS-servere: 24 x 16 GiB, 2.666 MT/sek., DDR4 RDIMM'er |
| Eksterne storagecontrollere |
2 x Dell 12 Gb/s SAS HBA'er (på hver MDS) 4 x Dell 12 Gb/s SAS HBA'er (på hver OSS) |
| Objektstoragekabinetter |
4 x ME4084 med i alt 336 x 8 TB NL 7.2K RPM SAS-harddiske |
| Metadata-lagerkabinet |
1 x ME4024 med 24 x 960 GB SAS SSD'er. Understøtter op til 4,68 B inoder |
| RAID-controllere | Dupleks SAS RAID-controllere i ME4084- og ME4024-kabinetterne |
| Operativsystem | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5-x86_64 |
| BIOS-version | 1.4.5 |
| Intel Omni-Path IFS-version |
10.8.0.0 |
| Luster filsystemversion |
2.10.4 |
| IML-version | 4.0.7.0 |
Testdataene blev valgt fra et af Illuminas platingenomer. ERR194161 blev behandlet med Illumina HiSeq 2000 indsendt af Illumina og kan fås fra EMBL-EBI. DNA-identifikatoren for denne person er NA12878. Beskrivelsen af dataene fra det linkede websted viser, at denne prøve har en >30x dybde af dækning.
Ydeevneevaluering
Ydeevne for enkelt prøve flere noder
I figur 1 opsummeres driftstiden i forskellige antal prøver og beregningsnoder med 50x WGS-data (Whole Genome Sequencing). De test, der udføres her, er designet til at demonstrere ydeevne på serverniveau, ikke til sammenligninger på individuelle komponenter. Datapunkterne i figur 1 beregnes ud fra det samlede antal prøver, én prøve pr. beregningsnode (X-akse i figuren), der behandles samtidigt. Nærmere oplysninger om BWA-GATK-rørledningsoplysninger kan fås på Broad Institutes websted (3). Det maksimale antal beregningsnoder, der bruges til testene, er 64 x C6420'ere. C6420s med Lustre ME4 viser en bedre skaleringsadfærd end Lustre MD3.
Figur 1 Sammenligninger af ydeevne mellem Lustre MD3 og Lustre ME4
Ydeevne for flere eksempler på flere noder
En typisk måde at køre NGS-pipeline på er at køre flere prøver på en beregningsnode og bruge flere beregningsnoder for at maksimere gennemstrømningen af NGS-dataprocessen. Antallet af beregningsnoder, der bruges til testene, er 64 af C6420-beregningsnoder, og antallet af prøver pr. node er fem prøver. Op til 320 prøver behandles samtidigt for at estimere det maksimale antal genomer om dagen uden jobfejl.Som vist i figur 2 kan en enkelt C6420-computernode behandle 3,24 af 50 x hele humane genomer om dagen, når 5 prøver behandles samtidigt. For hver prøve tildeles 7 kerner og 30 GB hukommelse.
Figur 2: Gennemløbstest med op til 64 C6420'ere og Lustre ME4
320 ud af 50 x hele menneskelige genomer kan behandles med 64 af C6420-computernoder på 40 timer. Med andre ord opsummeres testkonfigurationens ydeevne som 194 genomer om dagen for hele det menneskelige genom med 50x dækningsdybde.
Konklusion
Da datastørrelsen på WGS er vokset konstant. Den nuværende gennemsnitlige størrelse af WGS er 50x. Dette er 5 gange større end en typisk WGS for 4 år siden, da vi begyndte at benchmarke BWA-GATK pipeline. De stigende data belaster ikke kapaciteten på storagesiden, da de fleste applikationer i pipelinen også er afgrænset af CPU-clockhastighed. Med den voksende datastørrelse kører pipelinen derfor længere i stedet for at generere flere skrivninger.Der genereres dog et større antal midlertidige filer under processen på grund af de flere data, der skal paralleliseres, og dette øgede antal midlertidige filer, der åbnes på samme tid, udtømmer den åbne filgrænse i et Linux-operativsystem. En af applikationerne undlader lydløst at fuldføre ved at ramme grænsen for antallet af åbne filer. En simpel løsning er at øge grænsen til >150K.
Ikke desto mindre har Ready Solution med Lustre ME4 som ridseplads en bedre gennemløbskapacitet end den tidligere version. Nu markerer 64 noder Ready Solution 194 genomer om dagen processorkraft til 50 x WGS.
Ressourcer
1. En undersøgelse af værktøjer til variantanalyse af næste generations genomsekventeringsdata. Pabinger Sørensen, Dander A, Fischer M, Snajder Rasmussen, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke Jørgensen, Trajanoski Z. 2, SL : Kort Bioinform, 2014 Mar, Vol. 15 (2). 10.1093/hagesmæk/BBS086.2. Dell EMC-parat løsning til HPC Luster Storage. (Artiklen er ikke længere tilgængelig til reference, trukket af HPC-teamet)
3. Værktøjskasse til genomanalyse. https://software.broadinstitute.org/gatk/
Cause
Arkivering som artikel er baseret på HPC-dokumentation, der ikke længere hostes online, og artiklen kan ikke redigeres, så den lever op til KB-forventningerne
Resolution
Arkivering som artikel er baseret på HPC-dokumentation, der ikke længere hostes online, og artiklen kan ikke redigeres, så den lever op til KB-forventningerne