PowerEdge: Urychlení analýzy genomických dat pomocí sady NVIDIA Clara Parabricks na serveru Dell EMC DSS 8440 s grafickými kartami NVIDIA T4
Summary: Tento článek obsahuje informace o urychlení analýzy genomických dat pomocí modulů NVIDIA Parabricks v systému Dell EMC DSS 8440 s grafickými kartami NVIDIA T4.
Instructions
Přehled
První krok při zpracování dat NGS (Next Generation Sequencing) se nazývá primární analýza. Tento krok je specifický pro nástroj sekvencování a generuje několik souborů FASTQ, které obsahují sekvenční čtení. V dalším kroku, který se označuje jako sekundární analýza, se sekvenční čtení FASTQ mapují na referenční genom či referenční transkriptom. Další zpracování identifikuje varianty nebo rozdíly mezi sledovaným vzorkem a referencí. Varianty se postupně anotují a interpretují v následujících krocích. Sekundární analýza jednoho vzorku trvá několik hodin až dní v závislosti na velikosti dat, dostupných výpočetních zdrojích, softwaru a analytickém pracovním postupu.
Sekundární analýza je proces náročný na výpočetní výkon a úložný prostor, zejména při zpracování stovek až tisíců genomů. K dispozici je mnoho strategií, jak se vyhnout snížení výkonu při sekundární analýze. Až donedávna se hardwarová akcelerace pomocí grafických procesorů nebo polí FPGA příliš nepoužívala, protože hardwarové akcelerátory vyžadovaly přizpůsobený software. Parabricks' genomický software, který společnost NVIDIA získala v roce 2019, je průkopníkem softwarového stacku provádějícího různé pracovní postupy genomické analýzy pomocí GPU. Testovali jsme Parabricksasi před dvěma lety. Společnost Dell představila mnoho technologických pokroků v oblasti serverů a úložných řešení a společnost NVIDIA Clara Parabricks vydala robustní verze s vylepšenou akcelerací a přidáním variant callerů. Například návrh serveru s více grafickými kartami založený na serveru Dell EMC DSS 8440 s grafickými kartami NVIDIA® Tesla® T4 vypadal slibně z hlediska urychlení sekundární analýzy a zároveň nabízel atraktivní rovnováhu mezi cenou a výkonem. Tento blog informuje o nové referenční architektuře a výsledcích srovnávacích testů pro NVIDIA Clara. Parabricks sekundární analýza na grafické kartě T4 s více procesory Tesla® a serveru DSS 8440 s úložištěm Dell Isilon F800 .
Referenční architektura
Obrázek 1 znázorňuje otestovanou referenční architekturu. Architektura je modulární a snadno škálovatelná. Klávesnice NVIDIA Clara Parabricks Aplikační software používá jeden nebo více grafických procesorů, což maximálně zjednodušuje škálování na více instancí. Hardwarové stavební bloky tvoří server Dell PowerEdge R640 jako uzel pro správu, server DSS 8440 pro výpočty s grafickým procesorem a úložiště Dell EMC Isilon F800.
Obrázek 1 Otestovaná referenční architektura
Server DSS 8440 se 2 sockety a výškou 4U může pojmout až 10 špičkových grafických karet NVIDIA® Tesla® V100S Tensor Core, až 10 grafických karet NVIDIA® Quadro RTX™ nebo až 16 grafických karet NVIDIA Tesla T4, které poskytují ohromný výkon. Podrobná konfigurace serveru DSS 8440 je uvedena v tabulce 1.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
Dva přepínače Z9100-ON zajišťují propojení mezi výpočetním uzlem a úložným clusterem Isilon F800. Pro správu se používá další přepínač N2248X-ON.
Data NGS
Data pro benchmarking sekundární analýzy se skládala ze tří datových sad Human, whole-genome sequencing (WGS), ERR091571, SRR3124837
a ERR194161
, což představuje 10x, 30x a 50x pokrytí vzorku. Tyto datové sady jsou k dispozici v Evropském nukleotidovém archivu (ENA).
Vyhodnocení výkonu
Softwarová vylepšení zkracují dobu chodu.
Společnost NVIDIA pokračuje v zavádění softwarových vylepšení pro NVIDIA Clara Parabricks. Obrázek 2 znázorňuje zkrácení modulu runtime mezi dvěma verzemi Parabricks Spuštění kanálu zárodečné linie pomocí serveru Dell PowerEdge C4140 s testovacím prostředím se 4 grafickými kartami V100. Přechod z verze 2.1.0 na verzi 3.0.0 zkrátil dobu běhu o 42 %.
Obrázek 2: Nejnovější verze modulu runtime kanálu volání varianty zárodečné linie Parabricks.
Výkon serveru DSS 8440 s 16 grafickými kartami T4S
Doba běhu pro NVIDIA Clara Parabricks Sekundární analýza s použitím jedné grafické karty T4 je přibližně o 30 % pomalejší než při použití jedné grafické karty V100. Dvě (2) grafické karty T4 však poskytují přibližně o 10 % více TFLOP než jedna (1) grafická karta V100 za přibližně poloviční cenu. DSS 8440 poskytuje až 16 slotů PCIe, což otevírá možnost navrhnout server T4 založený na GPU, který poskytuje podobný provozní výkon jako systém C4140 se čtyřmi GPU V100, ale s nižšími náklady.
Ten Parabricks Analýza zárodečné linie byla provedena pomocí serveru PowerEdge DSS 8440 s 16 grafickými kartami T4. Pro každou ukázkovou datovou sadu WGS popsanou výše byla spuštěná událost zaznamenána pomocí 1, 2, 4, 8 a 16 grafických karet T4 na sekundární analýzu. Výsledky jsou znázorněny na obrázcích 3 až 5. Obecně platí, že doba provozu se se zvyšujícím počtem grafických karet na jednu analýzu neškáluje lineárně. Vzorec škálování se podobá množství dat na vzorek a zvyšuje se z 10- na 50násobné pokrytí.
Ačkoli zde není uvedeno, dřívější šetření společnosti Dell EMC týkající se Parabricks Výsledky za běhu využívající osm nebo více grafických procesorů V100 na analýzu se neškálovaly tak efektivně jako grafické procesory T4. Další testování ukázalo, že 6 grafických karet T4 generovalo za běhu téměř identické výsledky jako 4 grafické karty V100.
Obrázek 3: Srovnání výkonu s 10x WGS
Obrázek 4: Srovnání výkonu s 30x WGS
Obrázek 5: Porovnání výkonu s 50x WGS
Závěr
DSS 8440 se šestnácti grafickými procesory T4 dokáže zpracovat třicet 50násobných lidských genomů za den. Podobná denní propustnost analýzy využívající tradiční architekturu procesorů x86 vyžaduje 10 výpočetních uzlů PowerEdge C6420. Kompletní architektura je popsána v článku Dell Ready Solution for HPC Life Sciences: Testy propustnosti kanálu BWA-GATK s procesorem Cascade Lake a obnovou Lustre ME4
Vyhrazení všech 16 grafických karet T4 pro zpracování jednoho vzorku však nabízí jen málo výhod, jelikož s 16 grafickými kartami na jednu analýzu dosáhnete maximálně o 10 % větší rychlosti než s 8 grafickými kartami. Provedení serveru DSS 8440 umožňuje paralelně provádět několik sekundárních analýz. Přiřazením 8 grafických procesorů T4 na vzorek se propustnost denní analýzy zvýší na přibližně 50 genomů denně. Použití čtyř grafických karet na vzorek zvýší propustnost analýzy na přibližně 70 genomů denně. A co je důležitější, tento denní výstup při použití grafických karet T4 je o polovinu levnější než v případě grafické karty V100.
Kromě rychlosti je pro srovnatelnost výsledků nezbytná kompatibilita s jinými analytickými nástroji. Skript Parabricks Výsledky analýzy zárodečné linie jsou téměř totožné se známou analýzou HAPLOTYPE volajícího BWA-GATK z předchozího testování. Chtěli jsme také porovnat výsledky volání varianty Parabricks s jinými sadami nástrojů, jako je samtools/mpileup. Tyto dva různé nástroje dosahují ~90% celkové shody pro identifikované varianty a variace v mnoha dobře známých oblastech genomu obsahujících důležité geny se shodují více než 99%.