PowerEdge: Förstärkning av genomsekvensering med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC

Summary: Falcon Accelerated Genomics Pipeline med ett enda Intel FPGA Programmable Acceleration Card kan bearbeta 50x hela humana genom på mindre än 3 timmar genom Alternative Variant Calling Pipeline. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Falcon Accelerated Genomics Pipeline med ett enda Intel FPGA Programmable Acceleration Card kan bearbeta 50x hela humana genom på mindre än 3 timmar genom Alternative Variant Calling Pipeline. 

 



Översikt, Marknadsutmaning (behov), Falcon-lösningen svarar på behovet:

Precisionsmedicin, genomik och epigenetik använder genomsekvensering för att bedriva forskning, förbättra diagnostisering, utveckla läkemedel, öka vårdkvaliteten för vårdgivare och optimera växtproduktionen. För biovetenskap är genomanalys nu en viktig tillämpning, delvis på grund av den stora kostnadsminskningen för datainsamling från framsteg inom nästa generations sekvensering (NGS). Förutom ökad datainsamling har det också skett en betydande tillväxt i antalet genomiska applikationer som används av universitet, genomiska forskningscentra, läkemedelsföretag och hälso- och sjukvårdsorganisationer. 
Var sjunde månad fördubblas mängden genomdata (1). Databehandling på ett effektivt och kostnadseffektivt sätt har blivit avgörande. Beräkningskraften hos lösningar med enbart processorer skalas inte tillräckligt snabbt för att hålla jämna steg med tillväxten av genomiska data. Detta har lett till behovet av hårdvaruacceleration. Acceleratorer som FPGA:er blir allt viktigare för att matcha beräkningskraven för den här explosionen av genomiska data. Jämfört med andra hårdvaruaccelererade lösningar erbjuder Falcon Accelerated Genomics Pipeline (FAGP) flexibilitet, hög genomströmning och en lägre kostnad per prov.
 



Vad erbjuder FPGA, Intel PAC och fördelar:

FPGA:er är kiselenheter som dynamiskt kan omprogrammeras med en datasökväg som exakt matchar dina arbetsbelastningar, t.ex. genomisk sekvensering, dataanalys eller komprimering enligt bild 1. Den här mångsidigheten möjliggör provisionering av snabbare bearbetning, mer energieffektiv beräkning och lägre latens, vilket sänker din totala ägandekostnad och maximerar beräkningskapaciteten inom dina datacenters begränsningarna för ström, utrymme och kylning. 
Traditionellt kräver FPGA:er djup domänexpertis för att programmeras. För att förenkla utvecklingsflödet och möjliggöra snabb distribution i datacentret erbjuder Intel en accelerationsplattform som inkluderar PCI Express* (PCIe*) – baserade Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) och Intel® Acceleration Stack för Intel Xeon® CPU med FPGA:er. Dessa Intel-plattformar är kvalificerade, validerade och driftsätts via Dell EMC. Tillsammans med ekosystempartner som Falcon Computing erbjuder Intel Acceleration Platform en tillförlitlig och driftklar lösning med transparent hårdvara under huven.

SLN319291_en_US__1image(12669)
Figur 1: Förbättrad noggrannhet och hastighet på standard GATK-pipeline
 



Information om Falcon-lösning:

Genome Analysis Toolkit (GATK) är den gyllene standarden för genomisk databehandling som accepteras av genomiksamfundet (2). Dess Best Practice Workflow (BPW) är välkänt för sin långsamhet i beräkning för att generera resultat för stora prover som Whole-Genome (WGS). För att lösa detta problem har Falcon Computing Solutions utvecklat ett flexibelt programvarupaket med verktyg som följer BPW och kan implementeras i flera plattformar och arkitekturer. Den är snabb med flera storleksordningar jämfört med CPU-baserade GATK-pipelines.
FAGP erbjuder en helhetslösning för att kostnadseffektivt analysera genomiska data med hjälp av GATK-pipelinen med hög prestanda, noggrannhet och reproducerbarhet. Lösningen ger upp till 15 gånger snabbare hastighet med samma noggrannhet som GATK (3). Detta innebär att en analys som vanligtvis tar 50 till 60 timmar kan utföras på under 4 timmar (3). FAGP ger exceptionella nivåer av acceleration och noggrannhet med högpresterande, pålitliga Intel Arria 10 FPGA:er och Intel® Xeon-processorer®. 
FAGP följer GATK BPW. Den implementerar acceleration i många komponenter i rörledningarna från justering (BWA) till variantanrop (HaplotypeCaller) (4). Förutom den accelererade BWA innehåller den också en accelererad version av alignern Minimap2 som är en del av Alternate Genomic Pipeline från Falcon (5). Den alternativa pipelinen ger en ännu snabbare lösning. Den kan slutföra 50x helgenomsekvensering inom 3 timmar. Båda aligners har funktionen att generera markerade dubbletter och sorterade avläsningar utan att behöva använda ytterligare verktyg. 
FAGP uppnår hög prestanda/genomströmning genom att påskynda intensiv beräkning i GATK-pipelinen med hjälp av Intel FPGA PAC-plattformar. Detta skiljer sig från skalbara lösningar som uppnår högt dataflöde genom att lägga till fler CPU-resurser. Sådana skalbara lösningar har begränsad förmåga att minska kostnaderna eller svarstiden per exempel.
En annan fördel med Falcon-lösningen är att det är en öppen pipeline som GATK. Användare kan styra enskilda steg i pipelines. Mellanliggande data sparas och kan nås.


Tabell 1: Fördelar med Falcon Accelerated Genomics Pipeline

 

Fördelar med Falcon Accelerated Genomics Pipeline (FAGP)
Äkta GATK Stöd för flera GATK-versioner, inklusive 4.0
Branschskala Kör fem hela genom eller 24 hela exom på en dag.
Alternativ variant < 3 timmars handläggningstid på plats för WGS (50X)
Hastighet Utför GATK-pipeline för bästa praxis upp till >15 gånger snabbare.
Utnyttja befintliga Du behöver inte skriva om arbetsalgoritmer.
 



Dells maskinvarukonfiguration

Tabell 2: Dell EMC PowerEdge R740xd som testbädd

Dell EMC PowerEdge R740xd
Processor 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
Minne 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank
Lagring 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0
FPGA Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Systemprofil Performance
BIOS-version 2.1.3
Hypertrådning Enabled
ÅS Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Prestandautvärdering

I våra benchmark-tester använde vi sekvenseringsdata för hela det mänskliga genomet med 10x, 30x och 50x täckningsdjup.


Tabell 3: Testade helgenomsekvenseringsdata
 



 

Resultat:

Tabell 4 sammanfattar den tid det tar att slutföra GATK 4.0 Best Practices Pipeline över tre testcykler med FAGP och Intel FPGA PAC som finns i DELL EMC PowerEdge R740xd-servern.


Tabell 4: Totalt antal körningar från Best Practice Pipeline version 2.1.1

Prov Täckningsdjup Provning 1 Körtid (minuter)
Test 2
Provning 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18


I tabell 5 sammanfattas den tid (i minuter) det tar att slutföra den alternativa pipelinen: Falcon Germline under tre testcykler med FAGP och Intel FPGA PAC i DELL EMC PowerEdge R740xd-servern.


Tabell 5: Totalt antal körtider från Alternative Variant Calling Pipeline

Prov Täckningsdjup Provning 1 Körtid (minuter)
Test 2
Provning 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37

 



Sammanfattning av Falcon Genomic Solution

Falcon Accelerated Genomics Pipeline erbjuder hög genomströmning och låg kostnad/prov/dag. Tillsammans med Intel FPGA Programmable Acceleration Card och en certifierad DELL-server tillhandahåller FAGP en komplett lösning som kan användas för dina genomsekvenseringsapplikationer."
På TCGB tillhandahåller vi genomsekvenseringstjänster till våra rikstäckande kunder. Falcon Accelerated Genomics Pipeline* har gjort det möjligt för oss att minska vår handläggningstid från dagar till några timmar samtidigt som vi bibehåller noggrannheten hos GATK-pipelines av branschstandard."
— Dr Xinmin Li, chef för Technology Center for Genomics and Bioinformatics (TCGB) UCLA



Resurser 

1. Sekvenseringen av arvsmassan skapar så mycket data att vi inte vet vad vi ska göra med den. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Accelererad genomik [Online] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [Uppkopplad]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minikarta2. [Uppkopplad] https://github.com/lh3/minimap2


 

Cause

Förbättra genomsekvenseringen med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC.

Resolution

Falcon Accelerated Genomics Pipeline med ett enda Intel FPGA Programmable Acceleration Card kan bearbeta 50x hela humana genom på mindre än 3 timmar genom Alternative Variant Calling Pipeline.

Affected Products

Dell EMC Ready Solution Resources, OEMR R740xd, PowerEdge R740XD
Article Properties
Article Number: 000136278
Article Type: Solution
Last Modified: 08 Sep 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.