PowerEdge: Fremskyndelse af genomdataanalyse med NVIDIA Clara Parabricks med Dell EMC DSS 8440-serveren og NVIDIA T4-GPU'er
Summary: Denne artikel indeholder oplysninger om fremskyndelse af genomdataanalyse ved hjælp af NVIDIA Parabricks på Dell EMC DSS 8440 med NVIDIA T4-GPU'er.
Instructions
Oversigt
Det første trin til behandling af NGS-data (Next Generation Sequencing) kaldes primær analyse. Dette trin er specifikt for sekventeringsinstrumentet og genererer flere FASTQ-filer, der indeholder sekventeringslæsninger. I det næste trin, kaldet sekundær analyse, tilknyttes FASTQ-sekventeringslæsningerne til et referencegenom eller et referencetranskriptom. Mere behandling identificerer varianter eller forskelle mellem stikprøven af interesse og en reference. Varianterne annoteres og fortolkes i efterfølgende downstream-trin. Den sekundære analyses varighed for en enkelt prøve spænder fra få timer til flere dage, alt afhængigt af datastørrelse, tilgængelige databehandlingsressourcer, softwaren og det analytiske workflow.
Sekundær analyse er en databehandlings- og lagringskrævende proces, især når du behandler hundredvis til tusindvis af genomer. Der findes mange strategier for at undgå flaskehalse i sekundære analyser. Indtil for nylig er behovet for at implementere hardwareacceleration ved hjælp af GPU'er eller FPGA'er forblevet lavt takket være tilpasset software, der kræves af hardwareacceleratorer. Parabricks' genomiksoftware, der blev erhvervet af NVIDIA i 2019, har været banebrydende for en softwarestak, der udfører forskellige genomiske analysearbejdsgange med GPU'er. Vi testede Parabricksfor omkring to år siden. Dell introducerede mange teknologiske fremskridt i sine server- og storageløsninger, og NVIDIA Clara Parabricks har udgivet robuste versioner med forbedret acceleration og tilføjelse af variantopkald. For eksempel så et multi-GPU-serverdesign baseret på Dell EMC DSS 8440-serveren med NVIDIA® Tesla® T4 GPU'er lovende ud til at fremskynde sekundær analyse, samtidig med at det gav en attraktiv balance mellem pris og ydeevne. Denne blog rapporterer om en ny referencearkitektur og benchmarkresultater for NVIDIA Clara Parabricks sekundær analyse på en DSS 8440-server med flere Tesla® T4-GPU og Dell Isilon F800-storage .
Referencearkitektur
Figur 1 illustrerer den testede referencearkitektur. Arkitekturen er modulopbygget og nem at skalere. The NVIDIA Clara Parabricks Programsoftware bruger en eller flere GPU'er, hvilket gør skalering så enkel som muligt. Hardwarebyggestenene består af Dell PowerEdge R640 som administrationsnode, DSS 8440-server til GPU-databehandling og Dell EMC Isilon F800-storage.
Figur 1 Testet referencearkitektur
DSS 8440, 2 sokler, 4U-serveren kan tage op til 10 brancheførende NVIDIA® Tesla® V100S Tensor Core GPU'er, op til 10 NVIDIA® Quadro RTX™ GPU'er eller op til 16 NVIDIA-Tesla T4 GPU'er, der giver en enorm kraft. Den detaljerede konfiguration af DSS 8440 er anført i tabel 1.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
To Z9100-ON-switche leverede sammenkoblingen mellem databehandlingsnoden og Isilon F800-lagringsklyngen. En ekstra switch, N2248X-ON, bruges til administration.
NGS-data
Data til benchmarking af sekundær analysekørsel bestod af tre WGS-datasæt (Human Whole-Genome Sequencing), ERR091571, SRR3124837
og ERR194161
, der repræsenterede henholdsvis 10x, 30x og 50x prøvedækning. Disse datasæt er tilgængelige på European Nucleotide Archive (ENA).
Ydeevneevaluering
Softwareforbedringer reducerer driftstiden.
NVIDIA fortsætter med at introducere softwareforbedringer til NVIDIA Clara Parabricks. Figur 2 viser kørselstidsreduktionen mellem to versioner af Parabricks kørsel af kimlinjerørledningen ved hjælp af testmiljøet Dell PowerEdge C4140-server med 4 x V100 GPU'er. Overgangen fra v2.1.0 til v3.0.0 reducerede driftstiden med 42 %.
Figur 2: Seneste version af Parabricks germline variant kalder pipeline runtime.
Ydeevne for DSS 8440 med 16x T4s
Driftstiden for en NVIDIA Clara Parabricks sekundær analyse med en enkelt T4-GPU er ca. 30 % langsommere end med en V100-GPU. Men to (2) T4 GPU'er giver ca. 10 % mere TFLOPS end én (1) V100 GPU med ca. de halve omkostninger. DSS 8440 har op til 16 PCIe-slots, hvilket giver mulighed for at designe en T4 GPU-baseret server, der leverer samme driftstidsydeevne som et C4140-system med fire V100-GPU'er, men til en lavere pris.
Den Parabricks kimlinjeanalyse blev udført ved hjælp af en PowerEdge DSS 8440 med 16 T4 GPU'er. For hvert WGS-eksempeldatasæt, der er beskrevet tidligere, blev kørselstiden registreret ved hjælp af 1, 2, 4, 8 og 16 T4 GPU'er pr. sekundær analyse. Resultaterne er afbildet i Figur 3 til 5. Overordnet skalerer driftstiden ikke lineært, når antallet af GPU'er pr. analyse øges. Skaleringsmønsteret svarer til øgningen af datamængden pr. prøve fra 10x til 50x dækning.
Selvom den ikke præsenteres her, vil en tidligere Dell EMC-undersøgelse af Parabricks Runtime-resultater med otte eller flere V100 GPU'er pr. analyse blev ikke skaleret så effektivt som T4 GPU'erne. Flere test viste, at 6 T4 GPU'er genererede runtime-resultater, der næsten var identiske med 4 V100 GPU'er.
Figur 3: Sammenligning af ydeevne med 10x WGS
Figur 4 Sammenligning af ydeevne med 30x WGS
Figur 5: Sammenligning af ydeevne med 50 x WGS
Konklusion
En DSS 8440 med seksten T4 GPU'er kan behandle tredive 50x menneskelige genomer om dagen. En tilsvarende daglig analysekapacitet ved brug af en traditionel x86 CPU-arkitektur kræver ti PowerEdge C6420-databehandlingsnoder. Den komplette arkitektur diskuteres i Dell Ready Solution til HPC Life Sciences: BWA-GATK-test af pipelinehastighed med Cascade Lake CPU og Lustre ME4 Refresh.
Men hvis man dedikerer alle 16 T4 GPU'er til at behandle én prøve, er fordelen kun lille, da brugen af 16 GPU'er pr. analyse i bedste fald er 10 % hurtigere end brugen af 8 GPU'er. Designet af DSS 8440 tillader flere parallelle sekundære analyser. Ved at tildele otte T4 GPU'er pr. prøve øges den daglige analysekapacitet til ~50 genomer om dagen. Brug af fire GPU'er pr. prøve øger analysekapaciteten til ~70 genomer om dagen. Endnu vigtigere er, at denne daglige kapacitet ved brug af T4 GPU'er koster under det halve af brugen af et V100 GPU-design.
Ud over hastighed er kompatibilitet med andre analyseværktøjer afgørende for at kunne sammenligne resultaterne. Ikonet Parabricks kimlinjeanalyseresultater er næsten identiske med den velkendte BWA-GATK Haplotype caller-analyse fra tidligere test. Vi ønskede også at sammenligne Parabricks-variantens opkaldsresultater med andre værktøjssæt som samtools/mpileup. Disse to forskellige værktøjer når ~ 90% samlet enighed for identificerede varianter, og variationer i mange velkendte genomiske regioner, der indeholder vigtige gener, er enige mere end 99%.