PowerEdge: Snabbare genomisk dataanalys med NVIDIA Clara Parabricks med Dell EMC DSS 8440-servern och NVIDIA T4-GPU:er
Summary: Den här artikeln innehåller information om hur du accelererar genomisk dataanalys med NVIDIA Parabricks på Dell EMC DSS 8440 med NVIDIA T4-GPU:er.
Instructions
Översikt
Det första steget för bearbetning av NGS-data (Next Generation Sequencing) kallas primäranalys. Det här steget är specifikt för sekvenseringsinstrumentet och genererar flera FASTQ-filer som innehåller sekvenseringsläsningar. I nästa steg, som kallas sekundäranalys, mappas FASTQ-sekvenseringsläsningarna till ett referensgenom eller ett referenstranskriptom. Mer bearbetning identifierar varianter, eller skillnader, mellan urvalet av intresse och en referens. Varianterna annoteras och tolkas i efterföljande steg. Tiden för sekundäranalysen för ett enskilt prov sträcker sig från timmar till dagar, beroende på datastorlek, tillgängliga datorresurser, programvara och analytiskt arbetsflöde.
Sekundäranalys är en beräknings- och lagringsintensiv process, särskilt vid bearbetning av hundra till tusentals genom. Det finns många strategier för att undvika flaskhalsar i sekundäranalysen. Tills nyligen var införandet av maskinvaruacceleration med hjälp av GPU:er eller FPGA:er lågt på grund av anpassad programvara som krävs av maskinvaruacceleratorer. Parabricks' genomikprogramvara, som förvärvades av NVIDIA 2019, har banat väg för en mjukvarustack som utför olika genomiska analysarbetsflöden med GPU:er. Vi har testat Parabricksför ungefär två år sedan. Dell introducerade många tekniska framsteg i sina server- och lagringslösningar, och NVIDIA Clara Parabricks har släppt robusta versioner med förbättrad acceleration och tillägg av variantanropare. Till exempel såg en serverdesign med flera GPU:er baserad på Dell EMC DSS 8440-servern med NVIDIA® Tesla® T4-GPU:er lovande ut för att påskynda sekundär analys samtidigt som den erbjöd en attraktiv balans mellan pris och prestanda. Den här bloggen rapporterar om en ny referensarkitektur och prestandatestresultat för NVIDIA Clara Parabricks sekundär analys på en multi-Tesla® T4 GPU, DSS 8440-server med Dell Isilon F800-lagring .
Referensarkitektur
Bild 1 illustrerar den testade referensarkitekturen. Arkitekturen är modulär och enkel att skala. The NVIDIA Clara Parabricks Programprogramvaran använder en eller flera grafikprocessorer för att göra utskalningen så enkel som möjligt. Maskinvarubyggstenarna består av Dell PowerEdge R640 som hanteringsnod, DSS 8440-server för GPU-beräkning och Dell EMC Isilon F800-lagring.
Bild 1: Testad referensarkitektur
DSS 8440, 2 socklar, 4U-server har plats för upp till 10 branschledande NVIDIA® Tesla® V100S Tensor Core GPU:er, upp till 10 NVIDIA® Quadro RTX™ GPU:er eller upp till 16 NVIDIA Tesla T4 GPU:er som ger en otrolig kraft. Den detaljerade konfigurationen av DSS 8440 visas i tabell 1.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
Två Z9100-ON-switchar skapade sammankopplingen mellan beräkningsnoden och Isilon F800-lagringsklustret. En extra switch, N2248X-ON, används för hantering.
NGS-data
Data för benchmarking av sekundär analyskörning bestod av tre WGS-datauppsättningar (Human, whole-genome sequencing), ERR091571, SRR3124837
och ERR194161
, som representerar 10x, 30x respektive 50x, provtäckning. Dessa dataset finns tillgängliga på European Nucleotide Archive (ENA).
Prestandautvärdering
Mjukvaruförbättringar minskar drifttiden.
NVIDIA fortsätter att introducera mjukvaruförbättringar för NVIDIA Clara Parabricks. Bild 2 visar körtidsminskningen mellan två versioner av Parabricks Köra könscellspipelinen med hjälp av testmiljön Dell PowerEdge C4140-servern med 4 GPU:er V100. Att gå från v2.1.0 till v3.0.0 minskade körtiden med 42 %.
Bild 2: Senaste versionen av Parabricks germline variant som anropar pipeline runtime.
Prestanda för DSS 8440 med 16x T4s
Körtiden för en NVIDIA Clara Parabricks sekundär analys med en enda T4-GPU är ungefär 30 % långsammare än att använda en V100-GPU. Men två (2) T4-grafikprocessorer ger ungefär 10 % mer TFLOPS än en (1) V100-grafikprocessor till ungefär halva kostnaden. DSS 8440 har upp till 16 PCIe-kortplatser, vilket gör det möjligt att utforma en T4 GPU-baserad server som ger liknande körtidsprestanda som ett C4140-system med fyra V100-grafikprocessorer men till en lägre kostnad.
Den Parabricks Könscellsanalysen utfördes med en PowerEdge DSS 8440 med 16 T4-GPU:er. För varje WGS-exempeldatauppsättning som beskrevs tidigare registrerades körningen med 1, 2, 4, 8 och 16 T4-GPU:er per sekundär analys. Resultaten visas i bild 3 till 5. Generellt sett skalas inte körtiden linjärt när antalet grafikprocessorer per analys ökar. Skalningsmönstret liknar mängden data per prov som ökar från 10x till 50x täckning.
Även om den inte presenteras här, har en tidigare Dell EMC-undersökning av Parabricks Körningsresultat med åtta eller fler V100-GPU:er per analys skalades inte lika effektivt som T4-GPU:erna. Fler tester visade att 6 T4-grafikprocessorer genererade körtidsresultat som var nästan identiska med 4 V100-grafikprocessorer.
Figur 3 Prestandajämförelser med 10x WGS
Figur 4 Prestandajämförelser med 30x WGS
Bild 5 Prestandajämförelser med 50x WGS
Slutsats
En DSS 8440 med sexton T4-GPU:er kan bearbeta trettio 50x mänskliga genom per dag. En liknande daglig genomströmning av analyser med en traditionell x86-processorarkitektur kräver tio PowerEdge C6420-beräkningsnoder. Hela arkitekturen beskrivs i Dell Ready Solution för biovetenskap med HPC: Dataflödestester för BWA-GATK-pipeline med Cascade Lake CPU och Lustre ME4 Refresh.
Att dedikera alla 16 T4-grafikprocessorer för att bearbeta ett prov gör inte så stor nytta eftersom 16 grafikprocessorer per analys som bäst är 10 % snabbare än med 8 grafikprocessorer. Designen av DSS 8440 möjliggör flera sekundäranalyser parallellt. Genom att tilldela åtta T4-grafikprocessorer per prov ökar den dagliga genomströmningen av analyser till ~50 genom per dag. Med fyra grafikprocessorer per prov ökar genomströmningen av analyser till ~70 genom per dag. Ännu viktigare är att den här dagliga produktionen med T4-grafikprocessorer görs till mindre än halva kostnaden jämfört med om en V100-grafikprocessordesign används.
Förutom hastigheten är kompatibilitet med andra analysverktyg avgörande för resultatjämförelser. Informationen Parabricks Resultaten från könscellsanalysen är nästan identiska med den välkända BWA-GATK Haplotype caller-analysen från tidigare tester. Vi ville också jämföra Parabricks-variantens anropsresultat med andra verktygsuppsättningar som samtools/mpileup. Dessa två olika verktyg når ~90 % total överensstämmelse för identifierade varianter, och variationer i många välkända genomiska regioner som innehåller viktiga gener överensstämmer med mer än 99 %.