Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Förstärkning av genomsekvensering med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC

Résumé: Falcon Accelerated Genomics Pipeline med ett enda intel FPGA-programmerbart accelerationskort kan bearbeta 50x hela mänskliga genom på mindre än 3 timmar genom en alternativ variant som ringer pipeline. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Falcon Accelerated Genomics Pipeline med ett enda intel FPGA-programmerbart accelerationskort kan bearbeta 50x hela mänskliga genom på mindre än 3 timmar genom en alternativ variant som ringer pipeline. 

 



Översikt, marknadsutmaning (behov), Falcon-lösning svarar på behovet

Precisionsmedicin, -genomik och epgenetik använder genomsekvensering för att genomföra forskning, förbättra diagnosen, utveckla förbättringar, öka kvaliteten på vården för hälso- och sjukvårdsleverantörer och optimera produktionen av produktion. För biovetenskap är genomanalys nu en viktig applikation, delvis på grund av den stora kostnadsreduktionen av datainsamling från framsteg i nästa generations sekvensering (NGS). Utöver ökad datainsamling har det också skett en betydande tillväxt i det utbud av genomiska program som används vid universitet, genomiska forskningscenter, företag och hälso- och sjukvårdsorganisationer. 
Var sjunde månad fördubblas mängden genomdata (1). Därför har databearbetning på ett effektivt och kostnadseffektivt sätt blivit avgörande. Beräkningskraften hos lösningar som endast är för processorer skalanpassas inte tillräckligt snabbt för att hålla jämna problem med genomisk datatillväxt. Det har lett till behovet av maskinvaruacceleration. Acceleratorer som FPGA:er blir avgörande för att matcha beräkningskraven från denna genomiska dataexplosion. Jämfört med andra lösningar med maskinvaruaccelererad teknik erbjuder Falcon Accelerated Genomics Pipeline (ANMÄRKNINGP) flexibilitet, hög genomströmning och en lägre kostnad per exempel.
 



Vad är FPGA, Intel PAC-erbjudande &fördel

FPGA:er är kiselenheter som dynamiskt kan programmeras om med en datasökväg som exakt matchar dina arbetsbelastningar, till exempel genomisk sekvensering, dataanalys eller komprimering som visas i bild 1. Den här mångsidigheten möjliggör provisionering av snabbare bearbetning, mer energieffektiv beräkning och tjänst med lägre latens. Det sänker din totala ägandekostnad och maximerar beräkningskapaciteten i datacentrets ström-, utrymmes- och kylningsbegränsningar. 
Traditionellt sett kräver FPGA omfattande domänexpertis för att programmera. Intel erbjuder en accelerationsplattform med PCI Express* (PCIe*) som är baserad på Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) och Intel® Acceleration Stack för Intel Xeon-processor® med FPGA-processorer, vilket förenklar utvecklingsflödet och möjliggör snabb driftsättning i datacentret. Dessa Intel-plattformar är kvalificerade, validerade och driftsatta via Dell EMC. Intel Acceleration Platform erbjuder tillsammans med ekosystempartner som Falcon Computing en tillförlitlig och färdig lösning med transparent maskinvara under skärmhöljet.



SLN319291_en_US__1image (12669)
Bild 1: Förbättrad noggrannhet och hastighet i standard-GATK-pipeline
 



Detaljer om Falcon-lösningen:

Genome Analysis Toolkit (GATK) är guldstandarden för genomisk databearbetning som accepteras av genomikgruppen (2). Bästa praxis-arbetsflödet (BPW) är välkänt för sin långsamma beräkning för att generera resultat för stora exempel som Whole-Genome (WGS). För att lösa det här problemet har Falcon Computing Solutions utvecklat ett flexibelt programvarupaket med verktyg som följer BPW och som enkelt kan implementeras på flera plattformar och arkitekturer.  Det är snabbt med flera storleksbeställningar jämfört med CPU-baserade GATK-ledningar.
MED GATK-pipelinen får du en heltäckande lösning för att kostnadseffektivt analysera genomiska data med hjälp av GATK-pipelinen med hög prestanda, precision och reproducerbarhet. Lösningen ger upp till 15 gånger snabbare med samma precision som GATK (3). Det innebär att en analys som vanligtvis tar 50 till 60 timmar kan genomföras på under 4 timmar (3). BATP ger exceptionella nivåer av acceleration och noggrannhet i samband med högpresterande, pålitliga Intel Arria 10 FPGA:er och Intel® Xeon-processorer®. 
LAPPP följer GATK BPW. Det implementerar acceleration i många komponenter i pipelines från inriktning (BWA) till variantanrop (HaplotypeCaller) (4). Utöver den accelererade BWA innehåller den även en accelererad version av justerings-Minimap2 som är en del av den alternativa genomiska pipelinen från Falcon (5).  Den alternativa pipelinen är en ännu snabbare lösning. Den kan slutföra 50x hela genomsekvensen inom 3 timmar. Båda inriktningarna har funktionen för att generera markerade dubbletter och sorterade läsningar utan att behöva använda ytterligare verktyg. 
BLINKAP får höga prestanda/genomströmning genom att accelerera intensiv beräkning i GATK-pipelinen med Intel FPGA PAC-plattformar. Det här skiljer sig från skalbara lösningar som ger hög genomströmning genom att lägga till fler processorresurser. Sådana utskalade lösningar har begränsad förmåga att minska kostnader eller latens per prov.
En annan fördel med Falcons lösning är att det är en öppen pipeline som GATK. Användare kan styra enskilda steg i pipelines. Mellanliggande data sparas och kan nås.


Tabell 1: Fördelar med Falcon Accelerated Genomics Pipeline

 
Fördelar med Falcon Accelerated Genomics Pipeline (LAPPP)
Äkta GATK Stöd för flera GATK-versioner, inklusive 4.0
Branschskala Kör fem hela genom eller 24 hela exomes på en dag
Alternativ variant < 3 timmars handläggningstid på plats för WGS (50X)
Hastighet Kör GATK-pipeline med bästa praxis upp till >15 gånger snabbare
Utnyttja befintliga Du behöver inte skriva om arbetsalgoritmer
 



Dells maskinvarukonfiguration

Tabell 2: Dell EMC PowerEdge R740xd som testbädd

Dell EMC PowerEdge R740xd
Processor 2 × Intel(R) Xeon(R) Gold 6148-processor vid 2,40 GHz
Minne 384 GB vid 32 x 16 GB RDIMM, 2 666 MT/s, Dual Rank
Lagring 4x 1,2 TB 10 K RPM SAS 12 Gbit/s 512n 2,5-tums hårddisk som kan kopplas in under drift i RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1,8T i programvaru-RAID 0
FPGA Intel Programmerbart accelerationskort med Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Systemprofil Prestanda
BIOS-version 2.1.3
Hyperthreading Aktiverad
OS Red Hat Enterprise Linux Server version 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Prestandautvärdering

I våra prestandatester använde vi hela mänskliga genomsekvensdata vid 10x, 30x och 50x täckningsdjup.


Tabell 3 Testade hela genomsekvensdata

 
Kör takten Täckningsdjup Datalänk
ERR091571 10 gånger https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30 gånger https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50 gånger https://www.ebi.ac.uk/ena/data/view/ERR194161


 

Resultat:

I tabell 4 sammanfattas den tid det tar att slutföra GATK 4.0-pipelinen med bästa praxis under tre testcykler med HJÄLP av RAIDP och Intel FPGA PAC som finns i DELL EMC PowerEdge R740xd-servern.


Tabell 4 Total körtid från bästa praxis för pipelineversion 2.1.1
Prov Täckningsdjup Test 1 Körtid (minuter)
Test 2
Test 3
ERR091571 10 gånger 75.63 76.67 76.38
SRR3124837 30 gånger 160.00 162.77 161.38
ERR194161 50 gånger 242.97 250.65 247.18

I tabell 5 sammanfattas den tid (i minuter) som tagits för att slutföra den alternativa pipelinen: Falcon Germline i över tre testcykler med HJÄLP AV SIGP och Intel FPGA PAC finns i DELL EMC PowerEdge R740xd-servern.


Tabell 5 Total körtid från alternativ variant som anropar pipeline
Prov Täckningsdjup Test 1 Körtid (minuter)
Test 2
Test 3
ERR091571 10 gånger 62.70 58.21 59.80
SRR3124837 30 gånger 130.38 129.90 129.95
ERR194161 50 gånger 171.52 171.87 171.37
 



Sammanfattning av Falcon Genomic-lösning

Falcon Accelerated Genomics Pipeline ger hög genomströmning, låg kostnad/exempel/dag-fördel. Tillsammans med Intel FPGA Programmable Acceleration Card och certifierad DELL-server ger SIGP en komplett lösning som enkelt kan användas för dina genomsekvensprogram.
" På TCGB tillhandahåller vi genomsekvenstjänster till våra kunder. Falcon Accelerated Genomics Pipeline* har gjort det möjligt för oss att minska vår handläggningstid från dagar till några timmar samtidigt som vi upprätthåller noggrannheten hos GATK-pipelines av branschstandard."
– Dr Xinmin Li, chef för Technology Center for Genomics &Bioinformatics (TCGB) GLO



Resurser 

1. Genom att sekvensera genomet skapas så mycket data att vi inte vet vad vi ska göra med dem. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don'-know-what-to-do-with-it.
2. GATK. [På webben]
https://software.broadinstitute.org/gatk/3. Accelererad genomik. [På webben]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [På webben]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [På webben] https://github.com/lh3/minimap2


Cause

Förstärkning av genomsekvensering med Falcon Accelerated Genomics Pipeline (FAGP) på Intel FPGA PAC

Résolution

Falcon Accelerated Genomics Pipeline med ett enda intel FPGA-programmerbart accelerationskort kan bearbeta 50x hela mänskliga genom på mindre än 3 timmar genom en alternativ variant som ringer pipeline.

Propriétés de l’article


Produit concerné

Dell EMC Ready Solution Resources, PowerEdge R740XD

Dernière date de publication

03 oct. 2023

Version

4

Type d’article

Solution