PowerEdge: Genomien sekvensoinnin tehostaminen FAGP (Falcon Accelerated Genomics Pipeline) -toiminnolla Intel FPGA PAC:ssa
Summary: Falcon Accelerated Genomics Pipeline yhdellä Intel FPGA Programmable Acceleration Card -kortilla voi käsitellä 50x koko ihmisen genomia alle 3 tunnissa Alternative Variant Calling Pipelinen kautta. ...
Symptoms
Falcon Accelerated Genomics Pipeline yhdellä Intel FPGA Programmable Acceleration Card -kortilla voi käsitellä 50x koko ihmisen genomia alle 3 tunnissa Alternative Variant Calling Pipelinen kautta.
Yleiskatsaus, markkinahaaste (tarve), Falcon-ratkaisu vastaa tarpeeseen:
Täsmälääketiede, genomiikka ja epigenetiikka käyttävät genomisekvensointia tutkimuksen tekemiseen, diagnoosin parantamiseen, lääkkeiden kehittämiseen, terveydenhuollon tarjoajien hoidon laadun parantamiseen ja kasvintuotannon optimointiin. Biotieteissä genomianalyysi on nyt keskeinen sovellus, mikä johtuu osittain tiedonkeruun kustannusten huomattavasta alenemisesta seuraavan sukupolven sekvensoinnin (NGS) kehityksen ansiosta. Lisääntyneen tiedonkeruun lisäksi yliopistoissa, genomitutkimuskeskuksissa, lääkeyhtiöissä ja terveydenhuollon organisaatioissa käytettävien genomisovellusten valikoima on kasvanut merkittävästi.
Genomitiedon määrä kaksinkertaistuu seitsemän kuukauden välein (1). Tehokkaasta ja kustannustehokkaasta tietojenkäsittelystä on tullut kriittistä. Vain suorittimille tarkoitettujen ratkaisujen laskentateho ei skaalaudu tarpeeksi nopeasti, jotta se pysyisi genomitiedon kasvun tasalla. Tämä on johtanut laitteistokiihdytyksen tarpeeseen. FPGA: n kaltaisista kiihdyttimistä on tulossa keskeisiä tämän genomitiedon räjähdyksen laskennallisten vaatimusten täyttämisessä. Verrattuna muihin laitteistokiihdytettyihin ratkaisuihin, Falcon Accelerated Genomics Pipeline (FAGP) tarjoaa joustavuutta, suurta läpäisykykyä ja alhaisempia näytekohtaisia kustannuksia.
Mikä on FPGA, Intel PAC -tarjous ja etu:
FPGA: t ovat piilaitteita, jotka voidaan ohjelmoida dynaamisesti uudelleen tietopolulla, joka vastaa täsmälleen työkuormiasi, kuten genomisekvensointi, data-analytiikka tai pakkaus, kuten kuvassa 1 esitetään. Tämä monipuolisuus mahdollistaa nopeamman käsittelyn, energiatehokkaamman laskennan ja pienemmän viiveen palvelun, mikä alentaa kokonaiskäyttökustannuksia ja maksimoi laskentakapasiteetin konesalien virrankäytön, tilan ja jäähdytyksen rajoitusten puitteissa.
Perinteisesti FPGA:t vaativat syvällistä asiantuntemusta ohjelmoidakseen. Kehitystyön yksinkertaistamiseksi ja nopean käyttöönoton mahdollistamiseksi konesalissa Intel tarjoaa kiihdytysalustan, joka sisältää PCI Express* (PCIe*) -pohjaiset ohjelmoitavat Intel FPGA -kiihdytyskortit (Intel FPGA PAC) ja Intel® Acceleration Stack -kiihdytyspinon Intel Xeon® -suorittimille, joissa on FPGA-suorittimet. Nämä Intel-ympäristöt hyväksytään, validoidaan ja otetaan käyttöön Dell EMC:n kautta. Yhdessä ekosysteemikumppaneiden, kuten Falcon Computingin, kanssa Intel Acceleration Platform tarjoaa luotettavan ja käyttövalmiin ratkaisun, jossa on läpinäkyvä laitteisto konepellin alla.
Kuva 1: Parannettu tarkkuus ja nopeus tavallisessa GATK-putkessa
Falcon Ratkaisun tiedot:
Genome Analysis Toolkit (GATK) on genomiyhteisön hyväksymä genomitiedon käsittelyn kultainen standardi (2). Sen parhaiden käytäntöjen työnkulku (BPW) on tunnettu laskennan hitaudesta tuottaa tuloksia suurille näytteille, kuten koko genomille (WGS). Tämän ongelman ratkaisemiseksi Falcon Computing Solutions on kehittänyt joustavan työkalupaketin, joka noudattaa BPW: tä ja joka voidaan toteuttaa useilla alustoilla ja arkkitehtuureilla. Se on nopea useita suuruusluokkia verrattuna CPU-pohjaisiin GATK-putkistoihin.
FAGP tarjoaa kokonaisvaltaisen ratkaisun genomitietojen kustannustehokkaaseen analysointiin GATK-putken avulla korkealla suorituskyvyllä, tarkkuudella ja toistettavuudella. Ratkaisu tarjoaa jopa 15-kertaisen nopeuden samalla tarkkuudella kuin GATK (3). Tämä tarkoittaa, että tyypillisesti 50-60 tuntia kestävä analyysi voidaan suorittaa alle 4 tunnissa (3). FAGP tarjoaa poikkeuksellisen kiihtyvyyden ja tarkkuuden tehokkailla, luotettavilla Intel Arria 10 FPGA- ja Intel® Xeon® -suorittimilla.
FAGP seuraa GATK BPW:tä. Se toteuttaa kiihtyvyyden monissa putkiston komponenteissa kohdistuksesta (BWA) varianttikutsuun (HaplotypeCaller) (4). Nopeutetun BWA: n lisäksi se sisältää myös nopeutetun version oikomiskalvosta Minimap2, joka on osa Falconin vaihtoehtoista genomiputkea (5). Vaihtoehtoinen putkisto tarjoaa vielä nopeamman ratkaisun. Se voi suorittaa 50x koko genomin sekvensoinnin 3 tunnissa. Molemmissa oikomislaitteissa on ominaisuus, joka luo merkittyjä kaksoiskappaleita ja lajiteltuja lukuja ilman lisätyökaluja.
FAGP saavuttaa korkean suorituskyvyn / suorituskyvyn nopeuttamalla intensiivistä laskentaa GATK-putkessa käyttämällä Intel FPGA PAC -alustoja. Tämä eroaa skaalautuvista ratkaisuista, joilla saavutetaan suuri suorituskyky lisäämällä suoritinresursseja. Tällaisilla skaalautuvilla ratkaisuilla on rajallinen kyky vähentää kustannuksia tai näytekohtaista viivettä.
Toinen etu Falcon ratkaisu on, että se on avoin putkilinja GATK: na. Käyttäjät voivat hallita putkilinjan yksittäisiä vaiheita. Välitiedot tallennetaan ja niitä voidaan käyttää.
Taulukko 1: Falcon Accelerated Genomics Pipelinen edut
| Falcon Accelerated Genomics Pipeline (FAGP) -edut | |
|---|---|
| Todellinen GATK | Tuki useille GATK-versioille, mukaan lukien 4.0 |
| Toimialan mittakaavassa | Suorita viisi kokonaista genomia tai 24 kokonaista eksomia yhden päivän aikana. |
| Vaihtoehtoinen vaihtoehto | < WGS:n 3 tunnin toimitusaika paikan päällä (50X) |
| Nopeus | Suorita GATK:n parhaat käytännöt jopa >15 kertaa nopeammin. |
| Hyödynnä olemassa olevia | Työalgoritmeja ei tarvitse kirjoittaa uudelleen. |
Dellin laitteistokokoonpano
Taulukko 2: Dell EMC PowerEdge R740xd testialustana
| Dell EMC PowerEdge R740xd | |
|---|---|
| Suoritin | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| Muisti | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| Tallennustila | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| FPGA | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| Järjestelmän profiili | Performance |
| BIOS-versio | 2.1.3 |
| Hyperthreading | Enabled |
| Käyttöjärjestelmä | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Suorituskyvyn arviointi
Vertailutestauksessamme käytimme koko ihmisen genomin sekvensointidataa 10x, 30x ja 50x peittosyvyydellä.
Taulukko 3: Testatut koko genomin sekvensointitiedot
| Suorita liittyminen | Peiton syvyys | Tietoyhteys |
|---|---|---|
| ERR091571 | 10x | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | 30x | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | 50x | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
Tulokset:
Taulukossa 4 on yhteenveto ajasta, joka kului GATK 4.0:n parhaiden käytäntöjen toteuttamiseen kolmen testisyklin aikana käyttäen FAGP:tä ja DELL EMC PowerEdge R740xd -palvelimessa sijaitsevaa Intel FPGA PAC:tä.
Taulukko 4: Best Practice Pipeline -version 2.1.1 kokonaiskäyttöajat
| Otos | Peiton syvyys | Testi 1 | Suoritusaika (minuuttia) Testi 2 |
Testi 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
Taulukossa 5 on yhteenveto vaihtoehtoisen putkilinjan valmistumiseen kuluneesta ajasta (minuutteina): Haukan iturata kolmen testisyklin ajan käyttäen FAGP:tä ja DELL EMC PowerEdge R740xd -palvelimeen sijoitettua Intel FPGA PAC:tä.
Taulukko 5: Vaihtoehtoisten versioiden kutsujen putken kokonaiskäyttöajat
| Otos | Peiton syvyys | Testi 1 | Suoritusaika (minuuttia) Testi 2 |
Testi 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Yhteenveto Falcon Genomic Solution
Falcon Accelerated Genomics Pipeline tarjoaa korkean suorituskyvyn, alhaiset kustannukset / näyte / päivä. Yhdessä ohjelmoitavan Intel FPGA -kiihdytyskortin ja sertifioidun DELL-palvelimen kanssa FAGP tarjoaa täydellisen ratkaisun, joka voidaan ottaa käyttöön genomisekvensointisovelluksissa."
TCGB tarjoaa genomin sekvensointipalveluita valtakunnallisille asiakkaillemme. Falcon Accelerated Genomics Pipeline* -putkilinjan avulla olemme pystyneet lyhentämään läpimenoaikamme päivistä muutamaan tuntiin säilyttäen samalla alan standardien mukaisten GATK-putkistojen tarkkuuden."
— Dr. Xinmin Li, johtaja, genomiikan ja bioinformatiikan teknologiakeskus (TCGB) UCLA
Resursseja
1. Genomin sekvensointi tuottaa niin paljon dataa, että emme tiedä mitä sillä pitäisi tehdä. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Nopeutettu genomiikka [verkossa] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minikartta2. [Online] https://github.com/lh3/minimap2