PowerEdge: Boost Genomic Sequencing med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC
Summary: Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmable Acceleration Card kan behandle 50x hele menneskelige genomer på mindre end 3 timer gennem Alternative Variant Calling Pipeline. ...
Symptoms
Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmable Acceleration Card kan behandle 50x hele menneskelige genomer på mindre end 3 timer gennem Alternative Variant Calling Pipeline.
Overblik, Markedsudfordring (behov), Falcon løsning svarer til behovet:
Præcisionsmedicin, genomik og epigenetik bruger genomisk sekventering til at udføre forskning, forbedre diagnoser, udvikle lægemidler, øge kvaliteten af plejen til sundhedsudbydere og optimere afgrødeproduktionen. For biovidenskab er genomanalyse nu en nøgleapplikation, delvis på grund af den store omkostningsreduktion af dataindsamling som følge af fremskridt inden for næste generations sekventering (NGS). Ud over øget dataindsamling har der også været en betydelig vækst i rækken af genomiske applikationer, der anvendes på tværs af universiteter, genomiske forskningscentre, farmaceutiske virksomheder og sundhedsorganisationer.
Hver syvende måned fordobles mængden af genomdata (1). Databehandling på en effektiv og omkostningseffektiv måde er blevet kritisk. Beregningskraften i løsninger, der kun indeholder processorer, skaleres ikke hurtigt nok til at holde trit med væksten i genomiske data. Dette har ført til behovet for hardwareacceleration. Acceleratorer som FPGA'er bliver afgørende for at matche beregningskravene i denne genomiske dataeksplosion. Sammenlignet med andre hardwareaccelererede løsninger tilbyder Falcon Accelerated Genomics Pipeline (FAGP) fleksibilitet, høj gennemstrømning og lavere omkostninger pr. prøve.
Hvad tilbyder FPGA, Intel PAC og fordel:
FPGA'er er siliciumenheder, der dynamisk kan omprogrammeres med en datasti, der passer nøjagtigt til dine arbejdsbelastninger, f.eks. genomisk sekventering, dataanalyse eller komprimering som vist i figur 1. Denne alsidighed muliggør levering af hurtigere behandling, mere strømeffektiv beregning og service med lavere ventetid - hvilket reducerer dine samlede ejeromkostninger og maksimerer beregningskapaciteten inden for strøm-, plads- og kølebegrænsningerne i dine datacentre.
Traditionelt kræver FPGA'er dyb domæneekspertise at programmere. For at forenkle udviklingsflowet og muliggøre hurtig implementering på tværs af datacenteret tilbyder Intel en accelerationsplatform, der omfatter PCI Express* (PCIe*) - baserede Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) og Intel® Acceleration Stack til Intel Xeon® CPU med FPGA'er. Disse Intel-platforme er kvalificerede, validerede og udrullet via Dell EMC. Sammen med økosystempartnere som Falcon Computing tilbyder Intel Acceleration Platform en pålidelig og klar til brug løsning med gennemsigtig hardware under motorhjelmen.
Figur 1: Forbedret nøjagtighed og hastighed på standard GATK-rørledning
Falcon Solution Details:
Genome Analysis Toolkit (GATK) er guldstandarden for genomisk databehandling, der accepteres af genomforskningssamfundet (2). Dens Best Practice Workflow (BPW) er kendt for sin langsommelighed i beregning for at generere resultater for store prøver såsom helgenom (WGS). For at løse dette problem har Falcon Computing Solutions udviklet en fleksibel softwarepakke med værktøjer, der følger BPW og kan implementeres i flere platforme og arkitekturer. Det er hurtigt i flere størrelsesordener sammenlignet med CPU-baserede GATK-rørledninger.
FAGP leverer en end-to-end-løsning til omkostningseffektiv analyse af genomiske data ved hjælp af GATK-pipelinen med høj ydeevne, nøjagtighed og reproducerbarhed. Løsningen leverer op til 15x hastighed med samme nøjagtighed som GATK (3). Det betyder, at en analyse, der typisk tager 50 til 60 timer, kan udføres på under 4 timer (3). FAGP leverer exceptionelle niveauer af acceleration og nøjagtighed med højtydende, pålidelige Intel Arria 10 FPGA'er og Intel® Xeon-processorer®.
FAGP følger GATK BPW. Det implementerer acceleration i mange komponenter i rørledningerne fra justering (BWA) til variantkald (HaplotypeCaller) (4). Ud over den accelererede BWA indeholder den også en accelereret version af aligner Minimap2, der er en del af Alternate Genomic Pipeline fra Falcon (5). Den alternative pipeline giver en endnu hurtigere løsning. Det kan gennemføre 50x helgenomsekventering inden for 3 timer. Begge justeringer har funktionen til at generere markerede dubletter og sorterede læsninger uden behov for at bruge yderligere værktøjer.
FAGP opnår høj ydeevne/overførselshastighed ved at accelerere intensiv databehandling i GATK-pipelinen ved hjælp af Intel FPGA PAC-platforme. Dette adskiller sig fra skaleringsløsninger, der opnår høj kapacitet ved at tilføje flere CPU-ressourcer. Sådanne udskaleringsløsninger har begrænset mulighed for at reducere omkostninger eller ventetid pr. prøve.
En anden fordel ved Falcon-løsningen er, at det er en åben pipeline som GATK. Brugere kan styre individuelle trin i pipelines. Mellemliggende data gemmes og kan tilgås.
Tabel 1: Fordele ved Falcon Accelerated Genomics Pipeline
| Falcon Accelerated Genomics Pipeline (FAGP) Fordele | |
|---|---|
| Ægte GATK | Understøttelse af flere GATK-versioner, herunder 4.0 |
| Brancheskala | Kør fem hele genomer eller 24 hele eksomer på en dag. |
| Alternativ variant | < 3-timers ekspeditionstid on-site for WGS (50X) |
| Hastighed | Udfør GATK best-practices pipeline op til >15 gange hurtigere. |
| Udnyt eksisterende | Ingen grund til at omskrive arbejdsalgoritmer. |
Dell-hardwarekonfiguration
Tabel 2: Dell EMC PowerEdge R740xd som prøvebænk
| Dell EMC PowerEdge R740xd | |
|---|---|
| Processor | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| Hukommelse | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| Storage | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| FPGA | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| Systemprofil | Performance |
| BIOS-version | 2.1.3 |
| Hyperthreading | Enabled |
| OPERATIVSYSTEM | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Ydeevneevaluering
I vores benchmarktest brugte vi helhumane genomsekventeringsdata ved 10x, 30x og 50x dækningsdybde.
Tabel 3: Testede helgenomsekventeringsdata
| Kør tiltrædelse | Dækningens dybde | Datalink |
|---|---|---|
| ERR091571 | 10x | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | 30x | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | 50x | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
Resultater:
Tabel 4 opsummerer den tid, det tager at gennemføre GATK 4.0 Best Practices Pipeline over tre testcyklusser med FAGP og Intel FPGA PAC, der findes på DELL EMC PowerEdge R740xd-serveren.
Tabel 4: Samlet antal driftstider fra Best Practice Pipeline version 2.1.1
| Prøve | Dækningens dybde | Prøvning 1 | Kørselstid (minutter) Test 2 |
Prøvning 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
Tabel 5 opsummerer den tid (i minutter), det tager at færdiggøre den alternative rørledning: Falcon Germline over tre testcyklusser med FAGP og Intel FPGA PAC, der er placeret i DELL EMC PowerEdge R740xd-serveren.
Tabel 5: Samlet antal kørselstider fra pipeline for alternative variantopkald
| Prøve | Dækningens dybde | Prøvning 1 | Kørselstid (minutter) Test 2 |
Prøvning 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Opsummering af Falcon Genomic Solution
Falcon Accelerated Genomics Pipeline tilbyder høj gennemstrømning, lave omkostninger / prøve / dag fordel. Sammen med Intel FPGA Programmable Acceleration Card og certificerede DELL-server leverer FAGP en komplet løsning, der kan anvendes til dine genomsekventeringsapplikationer."
Hos TCGB leverer vi genomsekventeringstjenester til vores landsdækkende kunder. Falcon Accelerated Genomics Pipeline* har gjort det muligt for os at reducere vores ekspeditionstid fra dage til et par timer, samtidig med at vi opretholder nøjagtigheden af industristandard GATK-rørledninger."
— Dr. Xinmin Li, direktør for Technology Center for Genomics and Bioinformatics (TCGB) UCLA
Ressourcer
1. Sekventering af genomet skaber så mange data, at vi ikke ved, hvad vi skal gøre med det. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Accelereret genomforskning [Online] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online] https://github.com/lh3/minimap2