PowerEdge: Snellere analyse van genoomdata met NVIDIA Clara Parabricks met de Dell EMC DSS 8440 server en NVIDIA T4 GPU's
Summary: Dit artikel bevat informatie over het versnellen van de analyse van genoomdata met behulp van NVIDIA Parabricks op Dell EMC DSS 8440 met NVIDIA T4 GPU's.
Instructions
Overzicht
De eerste stap voor het verwerken van Next Generation Sequencing (NGS)-data wordt primaire analyse genoemd. Deze stap is specifiek voor het sequencing-instrument en genereert meerdere FASTQ-bestanden met sequencing-leesbewerkingen. In de volgende stap, die bekend staat als secundaire analyse, worden de FASTQ-sequencing-uitlezingen toegewezen aan een referentiegenoom of een referentietranscriptoom. Meer verwerking identificeert varianten, of verschillen, tussen de steekproef van belang en een referentie. De varianten worden voorzien van commentaar en geïnterpreteerd in volgende downstream-stappen. De secundaire analysetijd voor een enkel monster varieert van uren tot dagen, afhankelijk van de datagrootte, de beschikbare computerbronnen, software en analytische workflow.
Secundaire analyse is een computer- en storage-intensief proces, vooral bij het verwerken van honderden tot duizenden genomen. Er bestaan veel strategieën om knelpunten bij secundaire analyse te vermijden. Tot voor kort bleef het gebruik van hardwareversnelling met behulp van GPU's of FPGA's laag vanwege aangepaste software die nodig is voor hardwareversnellers. Parabricks' genomics-software die in 2019 door NVIDIA werd overgenomen, is een pionier op het gebied van een softwarestack die verschillende genomische analyseworkflows met GPU's uitvoert. We hebben getest Parabricksongeveer twee jaar geleden. Dell heeft veel technologische verbeteringen doorgevoerd in haar servers en storageoplossingen, en NVIDIA Clara Parabricks heeft robuuste versies uitgebracht met verbeterde acceleratie en de toevoeging van variant-bellers. Een multi-GPU serverontwerp op basis van de Dell EMC DSS 8440 server met NVIDIA® Tesla® T4 GPU's zag er bijvoorbeeld veelbelovend uit voor het versnellen van secundaire analyse en bood tegelijkertijd een aantrekkelijke balans tussen prijs en prestaties. In deze blog worden een nieuwe referentiearchitectuur en benchmarkresultaten voor NVIDIA Clara gerapporteerd Parabricks secundaire analyse op een multi-Tesla® T4 GPU, DSS 8440 server met Dell Isilon F800 storage.
Referentiearchitectuur
Afbeelding 1 illustreert de geteste referentiearchitectuur. De architectuur is modulair en eenvoudig schaalbaar. De NVIDIA Clara Parabricks Applicatiesoftware maakt gebruik van een of meer GPU's, waardoor opschalen zo eenvoudig mogelijk wordt. De hardwarebouwstenen bestaan uit Dell PowerEdge R640 als beheerknooppunt, DSS 8440 server voor GPU-computing en Dell EMC Isilon F800 storage.
Afbeelding 1 Geteste referentiearchitectuur
DSS 8440, 2 sockets, 4U server kan maximaal 10 toonaangevende NVIDIA® Tesla® V100S Tensor Core GPU's, maximaal 10 NVIDIA® Quadro RTX™ GPU's of maximaal 16 NVIDIA Tesla T4 GPU's verwerken, wat een enorm vermogen is. De gedetailleerde configuratie van DSS 8440 wordt vermeld in tabel 1.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
Twee Z9100-ON switches zorgden voor de verbinding tussen het rekenknooppunt en het Isilon F800 storagecluster. Er wordt een extra switch voor het beheer van N2248X gebruikt.
NGS-data
Data voor benchmarking secundaire analyseruntime bestonden uit drie humane, whole-genome sequencing (WGS)-datasets, ERR091571, SRR3124837
en ERR194161
, die respectievelijk 10x, 30x en 50x sampledekking vertegenwoordigen. Deze datasets zijn beschikbaar in het European Nucleotide Archive (ENA).
Prestatie-evaluatie
Softwareverbeteringen verkorten de runtime.
NVIDIA blijft softwareverbeteringen introduceren in NVIDIA Clara Parabricks. Afbeelding 2 toont de runtimereductie tussen twee versies van de Parabricks De kiembaanpijplijn uitvoeren met behulp van de testomgeving van de Dell PowerEdge C4140 server met 4x V100 GPU's. Door over te stappen van v2.1.0 naar v3.0.0 is de runtime met 42% ingekort.
Afbeelding 2: Nieuwste versie van Parabricks kiembaanvariant die pipeline runtime aanroept.
Prestaties van DSS 8440 met 16x T4's
De runtime voor een NVIDIA Clara Parabricks secundaire analyse met één T4 GPU is ongeveer 30% langzamer dan met één V100 GPU. Twee (2) T4 GPU's bieden echter ongeveer 10% meer TFLOPS dan één (1) V100 GPU tegen ongeveer de helft van de kosten. De DSS 8440 biedt maximaal 16 PCIe-slots, wat de mogelijkheid opent om een op T4 GPU gebaseerde server te ontwerpen die vergelijkbare runtime-prestaties levert als een C4140-systeem met vier V100 GPU's, maar tegen lagere kosten.
De Parabricks kiembaananalyse werd uitgevoerd met behulp van een PowerEdge DSS 8440 met 16 T4 GPU's. Voor elke eerder beschreven WGS-monsterdataset werd de runtime geregistreerd met 1, 2, 4, 8 en 16 T4 GPU's per secundaire analyse. De resultaten zijn uitgezet in de afbeeldingen 3 tot en met 5. Over het algemeen daalt de runtime niet lineair met het toenemende aantal GPU's per analyse. Het schaalbaarheidspatroon is vergelijkbaar met de hoeveelheid data die per monster wordt verhoogd van 10x tot 50x-dekking.
Hoewel hier niet gepresenteerd, is een eerder onderzoek van Dell EMC naar Parabricks runtime-resultaten met acht of meer V100 GPU's per analyse werden niet zo efficiënt geschaald als de T4 GPU's. Verdere tests toonden aan dat 6 T4 GPU's runtimeresultaten genereerden die bijna identiek waren aan 4 V100 GPU's.
Afbeelding 3 Prestatievergelijkingen met 10x WGS
Afbeelding 4: Prestatievergelijkingen met 30x WGS
Afbeelding 5 Prestatievergelijkingen met 50x WGS
Conclusie
Een DSS 8440 met zestien T4 GPU's kan dertig 50x menselijke genomen per dag verwerken. Voor een soortgelijke dagelijkse analysedoorvoer met een traditionele x86 CPU-architectuur zijn tien PowerEdge C6420 rekenknooppunten vereist. De volledige architectuur wordt besproken in Dell Ready Solution voor HPC Life Sciences: BWA-GATK Pijplijndoorvoertests met Cascade Lake CPU en Lustre ME4 Refresh.
Het gebruik van alle 16 T4 GPU's om één monster te verwerken biedt echter weinig voordeel, aangezien het gebruik van 16 GPU's per analyse op zijn best 10% sneller is dan het gebruik van 8 GPU's. Het ontwerp van de DSS 8440 biedt de mogelijkheid om meerdere secundaire analyses parallel uit te voeren. Door acht T4 GPU's per monster toe te wijzen, neemt de dagelijkse analysedoorvoer toe tot ~50 genomen per dag. Het gebruik van vier GPU's per monster verhoogt de analysedoorvoer tot ~70 genomen per dag. Wat nog belangrijker is, is dat deze dagelijkse output met T4 GPU's minder dan de helft kost van het gebruik van een V100 GPU-ontwerp.
Naast snelheid is compatibiliteit met andere analysetools essentieel voor de vergelijkbaarheid van de resultaten. De Parabricks De resultaten van de kiembaananalyse zijn bijna identiek aan de bekende BWA-GATK haplotype-calleranalyse uit eerdere tests. We wilden ook de aanroepresultaten van de Parabricks-variant vergelijken met andere toolsets zoals samtools/mpileup. Deze twee verschillende tools bereiken ~90% algemene overeenstemming voor geïdentificeerde varianten, en variaties in veel bekende genomische regio's die belangrijke genen bevatten, komen meer dan 99% overeen.