PowerEdge: De genoomsequentie-bepaling versnellen met Falcon Accelerated Genomics Pipeline (FAGP) op Intel FPGA PAC (in het Engels)

Summary: Falcon Accelerated Genomics Pipeline met een enkele Intel FPGA programmeerbare versnellingskaart kan 50x het hele menselijke genoom in minder dan 3 uur verwerken via de Alternative Variant Calling Pipeline. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Falcon Accelerated Genomics Pipeline met een enkele Intel FPGA programmeerbare versnellingskaart kan 50x het hele menselijke genoom in minder dan 3 uur verwerken via de Alternative Variant Calling Pipeline. 

 



Overzicht, Marktuitdaging (behoefte), Falcon-oplossing beantwoordt aan de behoefte:

Precisiegeneeskunde, genomica en epigenetica gebruiken genomische sequencing om onderzoek te doen, de diagnose te verbeteren, geneesmiddelen te ontwikkelen, de kwaliteit van de zorg voor zorgverleners te verhogen en de gewasproductie te optimaliseren. Voor biowetenschappen is genoomanalyse nu een belangrijke toepassing, deels vanwege de grote kostenreductie van gegevensverzameling door vooruitgang in next-generation sequencing (NGS). Naast de toegenomen gegevensverzameling is er ook een aanzienlijke groei in het scala aan genomische toepassingen dat wordt gebruikt door universiteiten, genomische onderzoekscentra, farmaceutische bedrijven en organisaties in de gezondheidszorg. 
Elke zeven maanden verdubbelt de hoeveelheid genoomgegevens (1). Gegevensverwerking op een efficiënte en kosteneffectieve manier is van cruciaal belang geworden. De rekenkracht van oplossingen die alleen uit processoren bestaan, schaalt niet snel genoeg om de groei van genomische data bij te houden. Dit heeft geleid tot de behoefte aan hardwareversnelling. Versnellers zoals FPGA's worden cruciaal om te voldoen aan de rekenbehoeften van deze explosie van genomische gegevens. Vergeleken met andere hardware-versnelde oplossingen biedt de Falcon Accelerated Genomics Pipeline (FAGP) flexibiliteit, een hoge doorvoer en lagere kosten per monster.
 



Wat is het aanbod en voordeel van FPGA, Intel PAC:

FPGA's zijn siliciumapparaten die dynamisch kunnen worden geherprogrammeerd met een datapad dat exact overeenkomt met uw workloads, zoals genoomsequentiebepaling, data-analyse of compressie, zoals weergegeven in afbeelding 1. Deze veelzijdigheid maakt snellere verwerking, energie-efficiënte berekeningen en service met lagere latentie mogelijk, waardoor uw totale eigendomskosten worden verlaagd en de rekencapaciteit wordt gemaximaliseerd binnen de stroom-, ruimte- en koelingsbeperkingen van uw datacenters. 
Traditioneel vereisen FPGA's diepgaande domeinexpertise om te programmeren. Om het ontwikkelingsproces te vereenvoudigen en snelle implementatie in het datacenter mogelijk te maken, biedt Intel een Acceleration Platform met PCI Express* (PCIe*) - gebaseerde Intel FPGA programmeerbare versnellingskaarten (Intel FPGA PAC) en de Intel® Acceleration Stack voor Intel Xeon® CPU met FPGA's. Deze Intel platforms zijn gekwalificeerd, gevalideerd en geïmplementeerd door Dell EMC. Samen met ecosysteempartners zoals Falcon Computing biedt Intel Acceleration Platform een betrouwbare en kant-en-klare oplossing met transparante hardware onder de motorkap.

SLN319291_en_US__1image(12669)
Figuur 1: Verbeterde nauwkeurigheid en snelheid op standaard GATEK-pijpleiding
 



Details Falcon-oplossing:

Genome Analysis Toolkit (GATK) is de gouden standaard voor genomische gegevensverwerking die wordt geaccepteerd door de genomics-gemeenschap (2). De Best Practice Workflow (BPW) staat bekend om zijn traagheid bij het berekenen om resultaten te genereren voor grote steekproeven zoals Whole-Genome (WGS). Om dit probleem aan te pakken, heeft Falcon Computing Solutions een flexibel softwarepakket van tools ontwikkeld dat de BPW volgt en in meerdere platforms en architecturen kan worden geïmplementeerd. Het is snel in vergelijking met CPU-gebaseerde GATK-pijplijnen.
FAGP biedt een end-to-end oplossing voor het kosteneffectief analyseren van genomische gegevens met behulp van de GATK-pijplijn met hoge prestaties, nauwkeurigheid en reproduceerbaarheid. De oplossing levert tot 15x versnelling met dezelfde nauwkeurigheid als GATK (3). Dit betekent dat een analyse die doorgaans 50 tot 60 uur duurt, in minder dan 4 uur kan worden uitgevoerd (3). FAGP biedt uitzonderlijke niveaus van versnelling en nauwkeurigheid met krachtige, betrouwbare Intel Arria 10 FPGA's en Intel® Xeon-processors®. 
FAGP volgt GATK BPW. Het implementeert versnelling in veel componenten van de pijpleidingen, van uitlijning (BWA) tot het aanroepen van varianten (HaplotypeCaller) (4). Naast de versnelde BWA bevat het ook een versnelde versie van de aligner Minimap2 die deel uitmaakt van de Alternate Genomic Pipeline van Falcon (5). De alternatieve pipeline biedt een nog snellere oplossing. Het kan 50x Whole Genome Sequencing binnen 3 uur voltooien. Beide aligners hebben de functie om gemarkeerde duplicaten en gesorteerde leesbewerkingen te genereren zonder dat er extra tools nodig zijn. 
FAGP behaalt hoge prestaties/doorvoer door intensieve berekeningen in de GATK-pipeline te versnellen met behulp van Intel FPGA PAC-platforms. Dit is anders dan scale-out-oplossingen die een hoge doorvoersnelheid bereiken door meer CPU-resources toe te voegen. Dergelijke scale-out-oplossingen hebben beperkte mogelijkheden om de kosten of latentie per monster te verlagen.
Een ander voordeel van de Falcon oplossing is dat het een open pijpleiding is als GATK. Gebruikers kunnen afzonderlijke stappen in de pijplijnen beheren. Tussentijdse gegevens worden opgeslagen en zijn toegankelijk.


Tabel 1: Voordelen van Falcon Accelerated Genomics Pipeline

 

Voordelen van Falcon Accelerated Genomics Pipeline (FAGP)
Echte GATK Ondersteuning voor meerdere GATK-versies, waaronder 4.0
Industrie-schaal Voer vijf hele genomen of 24 hele exomen uit op één dag.
Alternatieve variant < Doorlooptijd van 3 uur onsite voor WGS (50x)
Snelheid Voer de GATK best-practices pipeline tot >15x sneller uit.
Maak gebruik van bestaande Het is niet nodig om werkende algoritmen te herschrijven.
 



Dell hardwareconfiguratie

Tabel 2: Dell EMC PowerEdge R740xd als testbed

Dell EMC PowerEdge R740xd
Processor 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
Geheugen 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank
Storage 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0
FPGA Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Systeemprofiel Performance
BIOS-versie 2.1.3
Hyperthreading Enabled
BESTURINGSSYSTEEM Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Prestatie-evaluatie

In onze benchmarktests gebruikten we sequentiegegevens van het hele menselijke genoom met een dekkingsgraad van 10x, 30x en 50x.


Tabel 3: Geteste sequentiegegevens van het hele genoom
 

Toetreding uitvoeren Diepte van dekking Datalink
ERR091571 10x https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30x https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50x https://www.ebi.ac.uk/ena/data/view/ERR194161



 

Resultaten:

Tabel 4 geeft een overzicht van de tijd die nodig was om de GATK 4.0 Best Practices Pipeline te voltooien gedurende drie testcycli met behulp van FAGP en de Intel FPGA PAC in de DELL EMC PowerEdge R740xd server.


Tabel 4: Totaal aantal runtimes van Best Practice Pipeline versie 2.1.1

Monster Diepte van dekking Toets 1 Uitvoeringstijd (minuten)
Test 2
Toets 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18


Tabel 5 geeft een overzicht van de tijd (in minuten) die nodig is om de alternatieve pijplijn te voltooien: Falcon Germline in drie testcycli met behulp van FAGP en de Intel FPGA PAC in de DELL EMC PowerEdge R740xd server.


Tabel 5: Totale runtimes van alternatieve variant die pijplijn aanroept

Monster Diepte van dekking Toets 1 Uitvoeringstijd (minuten)
Test 2
Toets 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37

 



Samenvatting van Falcon Genomic Solution

De Falcon Accelerated Genomics Pipeline biedt een hoge doorvoer, lage kosten/steekproef/dag voordeel. Samen met de Intel FPGA programmeerbare versnellingskaart en de gecertificeerde DELL-server biedt FAGP een complete oplossing die kan worden toegepast voor uw genomische sequentietoepassingen."
Bij TCGB bieden we genoomsequentiediensten aan onze landelijke klanten. De Falcon Accelerated Genomics Pipeline* heeft ons in staat gesteld om onze doorlooptijd van dagen terug te brengen tot een paar uur, met behoud van de nauwkeurigheid van industriestandaard GATK-pijpleidingen."
- Dr. Xinmin Li, directeur van het Technology Center for Genomics and Bioinformatics (TCGB) UCLA



Bronnen 

1. Het sequencen van het genoom levert zoveel data op dat we niet weten wat we ermee moeten doen. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Versnelde genomica [Online] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online] https://github.com/lh3/minimap2


 

Cause

Verbeter genomische sequencing met Falcon Accelerated Genomics Pipeline (FAGP) op Intel FPGA PAC.

Resolution

Falcon Accelerated Genomics Pipeline met een enkele Intel FPGA programmeerbare versnellingskaart kan 50x het hele menselijke genoom in minder dan 3 uur verwerken via de Alternative Variant Calling Pipeline.

Affected Products

Dell EMC Ready Solution Resources, OEMR R740xd, PowerEdge R740XD
Article Properties
Article Number: 000136278
Article Type: Solution
Last Modified: 08 Sep 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.