Dell EMC Ready Solution -ratkaisu HPC-biotieteille: BWA-GATK-putkilinjan suoritustehotestit Cascade Lake -suorittimella ja Lustre ME4 Refreshillä
Summary: Arkistointi artikkelina perustuu HPC-dokumentaatioon, jota ei enää isännöidä verkossa, eikä artikkelia voi muokata niin, että se läpäisee tietämyskannan odotukset Dell EMC Ready Solution -ratkaisu HPC-biotieteille: BWA-GATK-putkilinjan suoritustehotestit Cascade Lake -suorittimella ja Lustre ME4 Refreshillä ...
Symptoms
Biotieteiden Dell EMC Ready Solutions -ratkaisujen 64 laskentasolmun kokoonpano voi käsitellä 194 genomia päivässä (50-kertainen kattavuus).
Yleiskuvaus
Vaihtoehtoiset puhelut on prosessi, jolla tunnistamme variantit sekvenssitiedoista. Tämä prosessi auttaa määrittämään, onko yksittäisessä genomissa tai transkriptomissa yksittäisessä genomissa tai transkriptomissa yksittäisiä nukleotidipolymorfismeja (SNP), insertioita ja deleetioita (indels) ja/tai rakenteellisia variantteja (SV). Genomivariaatioiden tunnistamisen päätavoite on yhteys ihmisen sairauksiin. Vaikka kaikki ihmisen sairaudet eivät liity geneettisiin vaihteluihin, varianttien kutsuminen voi tarjota arvokkaan ohjeen geneetikoille, jotka työskentelevät tietyn geneettisten vaihtelujen aiheuttaman sairauden parissa. BWA-GATK on yksi seuraavan sukupolven sekvensoinnin (NGS) laskentatyökaluista, jotka on suunniteltu tunnistamaan ituradan ja somaattiset mutaatiot ihmisen NGS-datasta. Varianttien tunnistustyökaluja on kourallinen, ja ymmärrämme, että ei ole olemassa yhtä työkalua, joka toimisi täydellisesti (1). Valitsimme kuitenkin GATK:n, joka on yksi suosituimmista työkaluista, vertailutyökaluksi osoittamaan, miten hyvin Dell EMC Ready Solutions for HPC Life Sciences pystyy käsittelemään monimutkaisia ja massiivisia NGS-työkuormia.
Tämän blogin tarkoituksena on antaa arvokasta suorituskykytietoa Intel® Xeon® Gold 6248 -suorittimesta BWA-GATK-vertailutestissä Dell EMC Ready Solutions for HPC Lustre Storage (ME4-sarjan päivitys) (2) -vertailussa. Xeon® Gold 6248 -suorittimessa on 20 fyysistä ydintä tai 40 loogista ydintä hyperlangoitusta käytettäessä. Taulukossa 1 on yhteenveto testiklusterin konfiguraatioista.
| Dell EMC PowerEdge C6420 | |
|---|---|
| Suoritin | 2 x Xeon® Gold 6248, 20 ydintä, 2,5 GHz (Cascade Lake) |
| RAM | 12 x 16 Gt, 2 933 MTps |
| Käyttöjärjestelmä | RHEL 7,6 |
| Verkon liitäntä | Intel® Omni-Path |
| BIOS-järjestelmän profiili | Optimoitu suorituskyky |
| Looginen suoritin | Ei käytössä |
| Virtualisointitekniikka | Ei käytössä |
| BWA | 0.7.15-R1140 |
| Samtools | 1.6 |
| GATK | 3.6-0-g89b7209 |
Testatut laskentasolmut yhdistettiin Dell EMC Ready Solutions for HPC Lustre Storage -ratkaisuihin Intel® Omni-Path -polun kautta. Tallennusvälineen yhteenvetokokoonpano on lueteltu taulukossa 2.
Taulukko 2 Ratkaisun laitteisto- ja ohjelmistotiedot
| Dell EMC:n valmis ratkaisu Luster-tallennukseen | |
|---|---|
| solmujen määrä | 1 x Dell EMC PowerEdge R640 Lustren integroituna hallinnoijana (IML) 2 x Dell EMC PowerEdge R740 metatietopalvelimena (MDS) 2 x Dell EMC PowerEdge R740 objektitallennuspalvelimena (OSS) |
| Suorittimet | IML-palvelin: Kaksi Intel Xeon Gold 5118 @ 2.3 GHz MDS- ja OSS-palvelinta: Kaksi Intel Xeon Gold 6136 @ 3.00 GHz |
| Muisti | IML-palvelin: 12 x 8 Gt, 2 666 MT/s, DDR4 RDIMM -muistit , MDS- ja OSS-palvelimet: 24 x 16 GiB, 2 666 MT/s:n DDR4 RDIMM -muistia |
| Ulkoiset tallennusohjaimet |
2 x Dell 12 Gb/s:n SAS HBA:ta (kussakin MDS:ssä) 4 x Dell 12 Gb/s:n SAS HBA:ta (kussakin OSS:ssä) |
| Objektitallennuskehikot |
4 x ME4084, yhteensä 336 x 8 Tt:n NL SAS HDD, 7 200 RPM |
| Metatietojen tallennuskehikko |
1 x ME4024 ja 24 x 960 Gt:n SAS SSD -asemat. Tukee jopa 4,68 B-inodeja |
| RAID-ohjaimet | Duplex SAS RAID -ohjaimet ME4084- ja ME4024-kehyksissä |
| Käyttöjärjestelmä | CentOS 7,5 x86_64 Red Hat Enterprise Linux (RHEL) 7,5 x86_64 |
| BIOS-versio | 1.4.5 |
| Intel Omni-Path IFS -versio |
10.8.0.0 |
| Lustren tiedostojärjestelmäversio |
2.10.4 |
| IML-versio | 4.0.7.0 |
Testitiedot valittiin yhdestä Illuminan platinagenomista. ERR194161 käsiteltiin Illuminan toimittamalla Illumina HiSeq 2000:lla ja sen voi saada EMBL-EBI:ltä. Tämän henkilön DNA-tunniste on NA12878. Linkitetyn verkkosivuston tietojen kuvaus osoittaa, että tämän näytteen kattavuus on >30-kertainen.
Suorituskyvyn arviointi
Yksi näyte, useiden solmujen suorituskyky
Kuvassa 1 on yhteenveto ajoajasta eri näytemäärissä ja laskentasolmuissa, joissa on 50x koko genomin sekvensointia (WGS) koskevia tietoja. Tässä tehtävät testit on suunniteltu osoittamaan palvelimen suorituskyky, ei yksittäisten komponenttien vertailuun. Kuvan 1 arvopisteet lasketaan samanaikaisesti käsiteltävien näytteiden kokonaismäärän perusteella, yksi näyte kutakin laskentasolmua kohden (kuvan X-akseli). Lisätietoja BWA-GATK-putkilinjasta saa Broad Instituten verkkosivustolta (3). Testeissä käytettävien laskentasolmujen enimmäismäärä on 64 x C6420-solmuja. C6420s, jossa on Lustre ME4, skaalautuu paremmin kuin Lustre MD3.
Kuva 1: Lustre MD3:n ja Lustre ME4:n suorituskyvyn vertailu
Usean esimerkin useiden solmujen suorituskyky
Tyypillinen tapa suorittaa NGS-putki on suorittaa useita näytteitä laskentasolmussa ja käyttää useita laskentasolmuja NGS-dataprosessin läpimenon maksimoimiseksi. Testeissä käytetään 64 laskentasolmua C6420-laskentasolmuista, ja näytteiden määrä solmua kohden on viisi näytettä. Jopa 320 näytettä käsitellään samanaikaisesti, jotta voidaan arvioida genomien enimmäismäärä päivässä ilman työn epäonnistumista.Kuten kuvasta 2 näkyy, yksittäinen C6420-laskentasolmu voi käsitellä 3,24 ihmisen 50x kokonaisesta genomista päivässä, kun 5 näytettä käsitellään samanaikaisesti. Jokaiselle näytteelle varataan 7 ydintä ja 30 Gt muistia.
Kuva 2: Suoritustehotestit jopa 64 C6420-laitteella ja Lustre ME4
:llä320 ihmisen 50x kokonaisesta genomista voidaan käsitellä 64 C6420-laskentasolmulla 40 tunnissa. Toisin sanoen testikonfiguraation suorituskyky on yhteenveto 194 genomista päivässä koko ihmisen genomille 50x peittosyvyydellä.
Johtopäätös
Koska WGS: n tietokoko on kasvanut jatkuvasti. WGS: n nykyinen keskimääräinen koko on 50x. Tämä on 5 kertaa suurempi kuin tyypillinen WGS 4 vuotta sitten, kun aloimme vertailla BWA-GATK-putkea. Lisääntyvä data ei rasita tallennuspuolen kapasiteettia, koska suorittimen kellonopeus rajoittaa myös useimpia kehitteillä olevia sovelluksia. Kun tietokoko kasvaa, putki kestää kauemmin sen sijaan, että se tuottaisi enemmän kirjoituksia.Prosessin aikana luodaan kuitenkin enemmän väliaikaisia tiedostoja, koska tietoja on rinnakkaistettava enemmän, ja tämä lisääntynyt samanaikaisesti avattujen väliaikaisten tiedostojen määrä tyhjentää Linux-käyttöjärjestelmän avoimen tiedostorajan. Yksi sovelluksista epäonnistuu hiljaa lyömällä avoimien tiedostojen määrän rajaa. Yksinkertainen ratkaisu on nostaa raja 150K: iin >.
Siitä huolimatta Ready Solutionilla, jossa Lustre ME4 on naarmuuntumistila, on parempi läpäisykapasiteetti kuin edellisellä versiolla. Nyt 64 solmua Ready Solution merkitsee 194 genomia päivässä prosessointitehoa 50x WGS: lle.
Resursseja
1. Tutkimus työkaluista seuraavan sukupolven genomin sekvensointitietojen varianttianalyysiin. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Brief Bioinform, 2014 maaliskuu, vol. 15 (2). 10.1093/BIB/BBS086.2. Dell EMC -valmis ratkaisu HPC:n Luster-tallennukseen. (Artikkeli ei ole enää saatavilla viitteeksi, HPC-tiimin vetämä)
3. Genomianalyysin työkalupakki. https://software.broadinstitute.org/gatk/
Cause
Arkistointi artikkelina perustuu HPC-dokumentaatioon, jota ei enää isännöidä verkossa, eikä artikkelia voi muokata niin, että se läpäisee tietämyskannan odotukset
Resolution
Arkistointi artikkelina perustuu HPC-dokumentaatioon, jota ei enää isännöidä verkossa, eikä artikkelia voi muokata niin, että se läpäisee tietämyskannan odotukset