PowerEdge: Boost Genomic Sequencing med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC

Summary: Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmable Acceleration Card kan behandle 50x hele menneskelige genomer på mindre end 3 timer gennem Alternative Variant Calling Pipeline. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmable Acceleration Card kan behandle 50x hele menneskelige genomer på mindre end 3 timer gennem Alternative Variant Calling Pipeline. 

 



Overblik, Markedsudfordring (behov), Falcon løsning svarer til behovet:

Præcisionsmedicin, genomik og epigenetik bruger genomisk sekventering til at udføre forskning, forbedre diagnoser, udvikle lægemidler, øge kvaliteten af plejen til sundhedsudbydere og optimere afgrødeproduktionen. For biovidenskab er genomanalyse nu en nøgleapplikation, delvis på grund af den store omkostningsreduktion af dataindsamling som følge af fremskridt inden for næste generations sekventering (NGS). Ud over øget dataindsamling har der også været en betydelig vækst i rækken af genomiske applikationer, der anvendes på tværs af universiteter, genomiske forskningscentre, farmaceutiske virksomheder og sundhedsorganisationer. 
Hver syvende måned fordobles mængden af genomdata (1). Databehandling på en effektiv og omkostningseffektiv måde er blevet kritisk. Beregningskraften i løsninger, der kun indeholder processorer, skaleres ikke hurtigt nok til at holde trit med væksten i genomiske data. Dette har ført til behovet for hardwareacceleration. Acceleratorer som FPGA'er bliver afgørende for at matche beregningskravene i denne genomiske dataeksplosion. Sammenlignet med andre hardwareaccelererede løsninger tilbyder Falcon Accelerated Genomics Pipeline (FAGP) fleksibilitet, høj gennemstrømning og lavere omkostninger pr. prøve.
 



Hvad tilbyder FPGA, Intel PAC og fordel:

FPGA'er er siliciumenheder, der dynamisk kan omprogrammeres med en datasti, der passer nøjagtigt til dine arbejdsbelastninger, f.eks. genomisk sekventering, dataanalyse eller komprimering som vist i figur 1. Denne alsidighed muliggør levering af hurtigere behandling, mere strømeffektiv beregning og service med lavere ventetid - hvilket reducerer dine samlede ejeromkostninger og maksimerer beregningskapaciteten inden for strøm-, plads- og kølebegrænsningerne i dine datacentre. 
Traditionelt kræver FPGA'er dyb domæneekspertise at programmere. For at forenkle udviklingsflowet og muliggøre hurtig implementering på tværs af datacenteret tilbyder Intel en accelerationsplatform, der omfatter PCI Express* (PCIe*) - baserede Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) og Intel® Acceleration Stack til Intel Xeon® CPU med FPGA'er. Disse Intel-platforme er kvalificerede, validerede og udrullet via Dell EMC. Sammen med økosystempartnere som Falcon Computing tilbyder Intel Acceleration Platform en pålidelig og klar til brug løsning med gennemsigtig hardware under motorhjelmen.

SLN319291_en_US__1image(12669)
Figur 1: Forbedret nøjagtighed og hastighed på standard GATK-rørledning
 



Falcon Solution Details:

Genome Analysis Toolkit (GATK) er guldstandarden for genomisk databehandling, der accepteres af genomforskningssamfundet (2). Dens Best Practice Workflow (BPW) er kendt for sin langsommelighed i beregning for at generere resultater for store prøver såsom helgenom (WGS). For at løse dette problem har Falcon Computing Solutions udviklet en fleksibel softwarepakke med værktøjer, der følger BPW og kan implementeres i flere platforme og arkitekturer. Det er hurtigt i flere størrelsesordener sammenlignet med CPU-baserede GATK-rørledninger.
FAGP leverer en end-to-end-løsning til omkostningseffektiv analyse af genomiske data ved hjælp af GATK-pipelinen med høj ydeevne, nøjagtighed og reproducerbarhed. Løsningen leverer op til 15x hastighed med samme nøjagtighed som GATK (3). Det betyder, at en analyse, der typisk tager 50 til 60 timer, kan udføres på under 4 timer (3). FAGP leverer exceptionelle niveauer af acceleration og nøjagtighed med højtydende, pålidelige Intel Arria 10 FPGA'er og Intel® Xeon-processorer®. 
FAGP følger GATK BPW. Det implementerer acceleration i mange komponenter i rørledningerne fra justering (BWA) til variantkald (HaplotypeCaller) (4). Ud over den accelererede BWA indeholder den også en accelereret version af aligner Minimap2, der er en del af Alternate Genomic Pipeline fra Falcon (5). Den alternative pipeline giver en endnu hurtigere løsning. Det kan gennemføre 50x helgenomsekventering inden for 3 timer. Begge justeringer har funktionen til at generere markerede dubletter og sorterede læsninger uden behov for at bruge yderligere værktøjer. 
FAGP opnår høj ydeevne/overførselshastighed ved at accelerere intensiv databehandling i GATK-pipelinen ved hjælp af Intel FPGA PAC-platforme. Dette adskiller sig fra skaleringsløsninger, der opnår høj kapacitet ved at tilføje flere CPU-ressourcer. Sådanne udskaleringsløsninger har begrænset mulighed for at reducere omkostninger eller ventetid pr. prøve.
En anden fordel ved Falcon-løsningen er, at det er en åben pipeline som GATK. Brugere kan styre individuelle trin i pipelines. Mellemliggende data gemmes og kan tilgås.


Tabel 1: Fordele ved Falcon Accelerated Genomics Pipeline

 

Falcon Accelerated Genomics Pipeline (FAGP) Fordele
Ægte GATK Understøttelse af flere GATK-versioner, herunder 4.0
Brancheskala Kør fem hele genomer eller 24 hele eksomer på en dag.
Alternativ variant < 3-timers ekspeditionstid on-site for WGS (50X)
Hastighed Udfør GATK best-practices pipeline op til >15 gange hurtigere.
Udnyt eksisterende Ingen grund til at omskrive arbejdsalgoritmer.
 



Dell-hardwarekonfiguration

Tabel 2: Dell EMC PowerEdge R740xd som prøvebænk

Dell EMC PowerEdge R740xd
Processor 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
Hukommelse 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank
Storage 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0
FPGA Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Systemprofil Performance
BIOS-version 2.1.3
Hyperthreading Enabled
OPERATIVSYSTEM Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Ydeevneevaluering

I vores benchmarktest brugte vi helhumane genomsekventeringsdata ved 10x, 30x og 50x dækningsdybde.


Tabel 3: Testede helgenomsekventeringsdata
 

Kør tiltrædelse Dækningens dybde Datalink
ERR091571 10x https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30x https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50x https://www.ebi.ac.uk/ena/data/view/ERR194161



 

Resultater:

Tabel 4 opsummerer den tid, det tager at gennemføre GATK 4.0 Best Practices Pipeline over tre testcyklusser med FAGP og Intel FPGA PAC, der findes på DELL EMC PowerEdge R740xd-serveren.


Tabel 4: Samlet antal driftstider fra Best Practice Pipeline version 2.1.1

Prøve Dækningens dybde Prøvning 1 Kørselstid (minutter)
Test 2
Prøvning 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18


Tabel 5 opsummerer den tid (i minutter), det tager at færdiggøre den alternative rørledning: Falcon Germline over tre testcyklusser med FAGP og Intel FPGA PAC, der er placeret i DELL EMC PowerEdge R740xd-serveren.


Tabel 5: Samlet antal kørselstider fra pipeline for alternative variantopkald

Prøve Dækningens dybde Prøvning 1 Kørselstid (minutter)
Test 2
Prøvning 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37

 



Opsummering af Falcon Genomic Solution

Falcon Accelerated Genomics Pipeline tilbyder høj gennemstrømning, lave omkostninger / prøve / dag fordel. Sammen med Intel FPGA Programmable Acceleration Card og certificerede DELL-server leverer FAGP en komplet løsning, der kan anvendes til dine genomsekventeringsapplikationer."
Hos TCGB leverer vi genomsekventeringstjenester til vores landsdækkende kunder. Falcon Accelerated Genomics Pipeline* har gjort det muligt for os at reducere vores ekspeditionstid fra dage til et par timer, samtidig med at vi opretholder nøjagtigheden af industristandard GATK-rørledninger."
— Dr. Xinmin Li, direktør for Technology Center for Genomics and Bioinformatics (TCGB) UCLA



Ressourcer 

1. Sekventering af genomet skaber så mange data, at vi ikke ved, hvad vi skal gøre med det. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Accelereret genomforskning [Online] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online] https://github.com/lh3/minimap2


 

Cause

Boost genomisk sekvensering med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC.

Resolution

Falcon Accelerated Genomics Pipeline med et enkelt Intel FPGA Programmable Acceleration Card kan behandle 50x hele menneskelige genomer på mindre end 3 timer gennem Alternative Variant Calling Pipeline.

Affected Products

Dell EMC Ready Solution Resources, OEMR R740xd, PowerEdge R740XD
Article Properties
Article Number: 000136278
Article Type: Solution
Last Modified: 08 Sep 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.