PowerEdge: Förstärkning av genomsekvensering med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC
Summary: Falcon Accelerated Genomics Pipeline med ett enda Intel FPGA Programmable Acceleration Card kan bearbeta 50x hela humana genom på mindre än 3 timmar genom Alternative Variant Calling Pipeline. ...
Symptoms
Falcon Accelerated Genomics Pipeline med ett enda Intel FPGA Programmable Acceleration Card kan bearbeta 50x hela humana genom på mindre än 3 timmar genom Alternative Variant Calling Pipeline.
Översikt, Marknadsutmaning (behov), Falcon-lösningen svarar på behovet:
Precisionsmedicin, genomik och epigenetik använder genomsekvensering för att bedriva forskning, förbättra diagnostisering, utveckla läkemedel, öka vårdkvaliteten för vårdgivare och optimera växtproduktionen. För biovetenskap är genomanalys nu en viktig tillämpning, delvis på grund av den stora kostnadsminskningen för datainsamling från framsteg inom nästa generations sekvensering (NGS). Förutom ökad datainsamling har det också skett en betydande tillväxt i antalet genomiska applikationer som används av universitet, genomiska forskningscentra, läkemedelsföretag och hälso- och sjukvårdsorganisationer.
Var sjunde månad fördubblas mängden genomdata (1). Databehandling på ett effektivt och kostnadseffektivt sätt har blivit avgörande. Beräkningskraften hos lösningar med enbart processorer skalas inte tillräckligt snabbt för att hålla jämna steg med tillväxten av genomiska data. Detta har lett till behovet av hårdvaruacceleration. Acceleratorer som FPGA:er blir allt viktigare för att matcha beräkningskraven för den här explosionen av genomiska data. Jämfört med andra hårdvaruaccelererade lösningar erbjuder Falcon Accelerated Genomics Pipeline (FAGP) flexibilitet, hög genomströmning och en lägre kostnad per prov.
Vad erbjuder FPGA, Intel PAC och fördelar:
FPGA:er är kiselenheter som dynamiskt kan omprogrammeras med en datasökväg som exakt matchar dina arbetsbelastningar, t.ex. genomisk sekvensering, dataanalys eller komprimering enligt bild 1. Den här mångsidigheten möjliggör provisionering av snabbare bearbetning, mer energieffektiv beräkning och lägre latens, vilket sänker din totala ägandekostnad och maximerar beräkningskapaciteten inom dina datacenters begränsningarna för ström, utrymme och kylning.
Traditionellt kräver FPGA:er djup domänexpertis för att programmeras. För att förenkla utvecklingsflödet och möjliggöra snabb distribution i datacentret erbjuder Intel en accelerationsplattform som inkluderar PCI Express* (PCIe*) – baserade Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) och Intel® Acceleration Stack för Intel Xeon® CPU med FPGA:er. Dessa Intel-plattformar är kvalificerade, validerade och driftsätts via Dell EMC. Tillsammans med ekosystempartner som Falcon Computing erbjuder Intel Acceleration Platform en tillförlitlig och driftklar lösning med transparent hårdvara under huven.
Figur 1: Förbättrad noggrannhet och hastighet på standard GATK-pipeline
Information om Falcon-lösning:
Genome Analysis Toolkit (GATK) är den gyllene standarden för genomisk databehandling som accepteras av genomiksamfundet (2). Dess Best Practice Workflow (BPW) är välkänt för sin långsamhet i beräkning för att generera resultat för stora prover som Whole-Genome (WGS). För att lösa detta problem har Falcon Computing Solutions utvecklat ett flexibelt programvarupaket med verktyg som följer BPW och kan implementeras i flera plattformar och arkitekturer. Den är snabb med flera storleksordningar jämfört med CPU-baserade GATK-pipelines.
FAGP erbjuder en helhetslösning för att kostnadseffektivt analysera genomiska data med hjälp av GATK-pipelinen med hög prestanda, noggrannhet och reproducerbarhet. Lösningen ger upp till 15 gånger snabbare hastighet med samma noggrannhet som GATK (3). Detta innebär att en analys som vanligtvis tar 50 till 60 timmar kan utföras på under 4 timmar (3). FAGP ger exceptionella nivåer av acceleration och noggrannhet med högpresterande, pålitliga Intel Arria 10 FPGA:er och Intel® Xeon-processorer®.
FAGP följer GATK BPW. Den implementerar acceleration i många komponenter i rörledningarna från justering (BWA) till variantanrop (HaplotypeCaller) (4). Förutom den accelererade BWA innehåller den också en accelererad version av alignern Minimap2 som är en del av Alternate Genomic Pipeline från Falcon (5). Den alternativa pipelinen ger en ännu snabbare lösning. Den kan slutföra 50x helgenomsekvensering inom 3 timmar. Båda aligners har funktionen att generera markerade dubbletter och sorterade avläsningar utan att behöva använda ytterligare verktyg.
FAGP uppnår hög prestanda/genomströmning genom att påskynda intensiv beräkning i GATK-pipelinen med hjälp av Intel FPGA PAC-plattformar. Detta skiljer sig från skalbara lösningar som uppnår högt dataflöde genom att lägga till fler CPU-resurser. Sådana skalbara lösningar har begränsad förmåga att minska kostnaderna eller svarstiden per exempel.
En annan fördel med Falcon-lösningen är att det är en öppen pipeline som GATK. Användare kan styra enskilda steg i pipelines. Mellanliggande data sparas och kan nås.
Tabell 1: Fördelar med Falcon Accelerated Genomics Pipeline
| Fördelar med Falcon Accelerated Genomics Pipeline (FAGP) | |
|---|---|
| Äkta GATK | Stöd för flera GATK-versioner, inklusive 4.0 |
| Branschskala | Kör fem hela genom eller 24 hela exom på en dag. |
| Alternativ variant | < 3 timmars handläggningstid på plats för WGS (50X) |
| Hastighet | Utför GATK-pipeline för bästa praxis upp till >15 gånger snabbare. |
| Utnyttja befintliga | Du behöver inte skriva om arbetsalgoritmer. |
Dells maskinvarukonfiguration
Tabell 2: Dell EMC PowerEdge R740xd som testbädd
| Dell EMC PowerEdge R740xd | |
|---|---|
| Processor | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| Minne | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| Lagring | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| FPGA | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| Systemprofil | Performance |
| BIOS-version | 2.1.3 |
| Hypertrådning | Enabled |
| ÅS | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Prestandautvärdering
I våra benchmark-tester använde vi sekvenseringsdata för hela det mänskliga genomet med 10x, 30x och 50x täckningsdjup.
Tabell 3: Testade helgenomsekvenseringsdata
| Kör anslutning | Täckningsdjup | Datalänk |
|---|---|---|
| ERR091571 | 10x | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | 30ggr | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | 50x | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
Resultat:
Tabell 4 sammanfattar den tid det tar att slutföra GATK 4.0 Best Practices Pipeline över tre testcykler med FAGP och Intel FPGA PAC som finns i DELL EMC PowerEdge R740xd-servern.
Tabell 4: Totalt antal körningar från Best Practice Pipeline version 2.1.1
| Prov | Täckningsdjup | Provning 1 | Körtid (minuter) Test 2 |
Provning 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
I tabell 5 sammanfattas den tid (i minuter) det tar att slutföra den alternativa pipelinen: Falcon Germline under tre testcykler med FAGP och Intel FPGA PAC i DELL EMC PowerEdge R740xd-servern.
Tabell 5: Totalt antal körtider från Alternative Variant Calling Pipeline
| Prov | Täckningsdjup | Provning 1 | Körtid (minuter) Test 2 |
Provning 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Sammanfattning av Falcon Genomic Solution
Falcon Accelerated Genomics Pipeline erbjuder hög genomströmning och låg kostnad/prov/dag. Tillsammans med Intel FPGA Programmable Acceleration Card och en certifierad DELL-server tillhandahåller FAGP en komplett lösning som kan användas för dina genomsekvenseringsapplikationer."
På TCGB tillhandahåller vi genomsekvenseringstjänster till våra rikstäckande kunder. Falcon Accelerated Genomics Pipeline* har gjort det möjligt för oss att minska vår handläggningstid från dagar till några timmar samtidigt som vi bibehåller noggrannheten hos GATK-pipelines av branschstandard."
— Dr Xinmin Li, chef för Technology Center for Genomics and Bioinformatics (TCGB) UCLA
Resurser
1. Sekvenseringen av arvsmassan skapar så mycket data att vi inte vet vad vi ska göra med den. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Accelererad genomik [Online] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [Uppkopplad]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minikarta2. [Uppkopplad] https://github.com/lh3/minimap2