Dell EMC Ready Solution -ratkaisu HPC-biotieteille: BWA-GATK-putkilinjan suoritustehotestit Cascade Lake -suorittimella ja Lustre ME4 Refreshillä

Summary: Arkistointi artikkelina perustuu HPC-dokumentaatioon, jota ei enää isännöidä verkossa, eikä artikkelia voi muokata niin, että se läpäisee tietämyskannan odotukset Dell EMC Ready Solution -ratkaisu HPC-biotieteille: BWA-GATK-putkilinjan suoritustehotestit Cascade Lake -suorittimella ja Lustre ME4 Refreshillä ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Biotieteiden Dell EMC Ready Solutions -ratkaisujen 64 laskentasolmun kokoonpano voi käsitellä 194 genomia päivässä (50-kertainen kattavuus).

Yleiskuvaus

Vaihtoehtoiset puhelutTämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon. on prosessi, jolla tunnistamme variantit sekvenssitiedoista. Tämä prosessi auttaa määrittämään, onko yksittäisessä genomissa tai transkriptomissa yksittäisessä genomissa tai transkriptomissa yksittäisiä nukleotidipolymorfismeja (SNP), insertioita ja deleetioita (indels) ja/tai rakenteellisia variantteja (SV). Genomivariaatioiden tunnistamisen päätavoite on yhteys ihmisen sairauksiin. Vaikka kaikki ihmisen sairaudet eivät liity geneettisiin vaihteluihin, varianttien kutsuminen voi tarjota arvokkaan ohjeen geneetikoille, jotka työskentelevät tietyn geneettisten vaihtelujen aiheuttaman sairauden parissa. BWA-GATK on yksi seuraavan sukupolven sekvensoinnin (NGS) laskentatyökaluista, jotka on suunniteltu tunnistamaan ituradan ja somaattiset mutaatiot ihmisen NGS-datasta. Varianttien tunnistustyökaluja on kourallinen, ja ymmärrämme, että ei ole olemassa yhtä työkalua, joka toimisi täydellisesti (1). Valitsimme kuitenkin GATK:n, joka on yksi suosituimmista työkaluista, vertailutyökaluksi osoittamaan, miten hyvin Dell EMC Ready Solutions for HPC Life Sciences pystyy käsittelemään monimutkaisia ja massiivisia NGS-työkuormia. 
Tämän blogin tarkoituksena on antaa arvokasta suorituskykytietoa Intel® Xeon® Gold 6248 -suorittimesta BWA-GATK-vertailutestissä Dell EMC Ready Solutions for HPC Lustre Storage (ME4-sarjan päivitys) (2) -vertailussa. Xeon® Gold 6248 -suorittimessa on 20 fyysistä ydintä tai 40 loogista ydintä hyperlangoitusta käytettäessä. Taulukossa 1 on yhteenveto testiklusterin konfiguraatioista.

Taulukko 1 Testattu laskentasolmun kokoonpano
 
Dell EMC PowerEdge C6420
Suoritin 2 x Xeon® Gold 6248, 20 ydintä, 2,5 GHz (Cascade Lake)
RAM 12 x 16 Gt, 2 933 MTps
Käyttöjärjestelmä RHEL 7,6
Verkon liitäntä Intel® Omni-Path
BIOS-järjestelmän profiili Optimoitu suorituskyky
Looginen suoritin Ei käytössä
Virtualisointitekniikka Ei käytössä
BWA 0.7.15-R1140
Samtools 1.6
GATK 3.6-0-g89b7209

Testatut laskentasolmut yhdistettiin Dell EMC Ready Solutions for HPC Lustre Storage -ratkaisuihin Intel® Omni-Path -polun kautta. Tallennusvälineen yhteenvetokokoonpano on lueteltu taulukossa 2.
Taulukko 2 Ratkaisun laitteisto- ja ohjelmistotiedot
 
Dell EMC:n valmis ratkaisu Luster-tallennukseen
solmujen määrä 1 x Dell EMC PowerEdge R640 Lustren integroituna hallinnoijana (IML)
2 x Dell EMC PowerEdge R740 metatietopalvelimena (MDS)
2 x Dell EMC PowerEdge R740 objektitallennuspalvelimena (OSS)
Suorittimet IML-palvelin: Kaksi Intel Xeon Gold 5118 @ 2.3 GHz
MDS- ja OSS-palvelinta: Kaksi Intel Xeon Gold 6136 @ 3.00 GHz
Muisti IML-palvelin: 12 x 8 Gt, 2 666 MT/s, DDR4 RDIMM -muistit
, MDS- ja OSS-palvelimet: 24 x 16 GiB, 2 666 MT/s:n DDR4 RDIMM -muistia
Ulkoiset tallennusohjaimet
2 x Dell 12 Gb/s:n SAS HBA:ta (kussakin MDS:ssä)
4 x Dell 12 Gb/s:n SAS HBA:ta (kussakin OSS:ssä)
Objektitallennuskehikot
4 x ME4084, yhteensä 336 x 8 Tt:n NL SAS HDD, 7 200 RPM
Metatietojen tallennuskehikko
1 x ME4024 ja 24 x 960 Gt:n SAS SSD -asemat. Tukee jopa 4,68 B-inodeja
RAID-ohjaimet Duplex SAS RAID -ohjaimet ME4084- ja ME4024-kehyksissä
Käyttöjärjestelmä CentOS 7,5 x86_64
Red Hat Enterprise Linux (RHEL) 7,5 x86_64
BIOS-versio 1.4.5
Intel Omni-Path
IFS -versio
10.8.0.0
Lustren tiedostojärjestelmäversio
2.10.4
IML-versio 4.0.7.0

Testitiedot valittiin yhdestä Illuminan platinagenomista. ERR194161 käsiteltiin Illuminan toimittamalla Illumina HiSeq 2000:lla ja sen voi saada EMBL-EBI:ltä. Tämän henkilön DNA-tunniste on NA12878. Linkitetyn verkkosivuston tietojen kuvaus osoittaa, että tämän näytteen kattavuus on >30-kertainen.

Suorituskyvyn arviointi

Yksi näyte, useiden solmujen suorituskyky

Kuvassa 1 on yhteenveto ajoajasta eri näytemäärissä ja laskentasolmuissa, joissa on 50x koko genomin sekvensointia (WGS) koskevia tietoja. Tässä tehtävät testit on suunniteltu osoittamaan palvelimen suorituskyky, ei yksittäisten komponenttien vertailuun. Kuvan 1 arvopisteet lasketaan samanaikaisesti käsiteltävien näytteiden kokonaismäärän perusteella, yksi näyte kutakin laskentasolmua kohden (kuvan X-akseli). Lisätietoja BWA-GATK-putkilinjasta saa Broad Instituten verkkosivustolta (3). Testeissä käytettävien laskentasolmujen enimmäismäärä on 64 x C6420-solmuja. C6420s, jossa on Lustre ME4, skaalautuu paremmin kuin Lustre MD3.

 Lustre MD3:n ja Lustre ME4:n suorituskykyvertailut
Kuva 1: Lustre MD3:n ja Lustre ME4:n suorituskyvyn vertailu

Usean esimerkin useiden solmujen suorituskyky

Tyypillinen tapa suorittaa NGS-putki on suorittaa useita näytteitä laskentasolmussa ja käyttää useita laskentasolmuja NGS-dataprosessin läpimenon maksimoimiseksi. Testeissä käytetään 64 laskentasolmua C6420-laskentasolmuista, ja näytteiden määrä solmua kohden on viisi näytettä. Jopa 320 näytettä käsitellään samanaikaisesti, jotta voidaan arvioida genomien enimmäismäärä päivässä ilman työn epäonnistumista.
Kuten kuvasta 2 näkyy, yksittäinen C6420-laskentasolmu voi käsitellä 3,24 ihmisen 50x kokonaisesta genomista päivässä, kun 5 näytettä käsitellään samanaikaisesti. Jokaiselle näytteelle varataan 7 ydintä ja 30 Gt muistia. 

 Suorituskykytestit jopa 64 C6420-laitteella ja Lustre ME4:llä
Kuva 2: Suoritustehotestit jopa 64 C6420-laitteella ja Lustre ME4

:llä320 ihmisen 50x kokonaisesta genomista voidaan käsitellä 64 C6420-laskentasolmulla 40 tunnissa.  Toisin sanoen testikonfiguraation suorituskyky on yhteenveto 194 genomista päivässä koko ihmisen genomille 50x peittosyvyydellä.

Johtopäätös

Koska WGS: n tietokoko on kasvanut jatkuvasti. WGS: n nykyinen keskimääräinen koko on 50x. Tämä on 5 kertaa suurempi kuin tyypillinen WGS 4 vuotta sitten, kun aloimme vertailla BWA-GATK-putkea. Lisääntyvä data ei rasita tallennuspuolen kapasiteettia, koska suorittimen kellonopeus rajoittaa myös useimpia kehitteillä olevia sovelluksia. Kun tietokoko kasvaa, putki kestää kauemmin sen sijaan, että se tuottaisi enemmän kirjoituksia.
Prosessin aikana luodaan kuitenkin enemmän väliaikaisia tiedostoja, koska tietoja on rinnakkaistettava enemmän, ja tämä lisääntynyt samanaikaisesti avattujen väliaikaisten tiedostojen määrä tyhjentää Linux-käyttöjärjestelmän avoimen tiedostorajan. Yksi sovelluksista epäonnistuu hiljaa lyömällä avoimien tiedostojen määrän rajaa. Yksinkertainen ratkaisu on nostaa raja 150K: iin >. 
Siitä huolimatta Ready Solutionilla, jossa Lustre ME4 on naarmuuntumistila, on parempi läpäisykapasiteetti kuin edellisellä versiolla. Nyt 64 solmua Ready Solution merkitsee 194 genomia päivässä prosessointitehoa 50x WGS: lle.

Resursseja 

1. Tutkimus työkaluista seuraavan sukupolven genomin sekvensointitietojen varianttianalyysiin. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Brief Bioinform, 2014 maaliskuu, vol. 15 (2). 10.1093/BIB/BBS086.
2. Dell EMC -valmis ratkaisu HPC:n Luster-tallennukseen.  (Artikkeli ei ole enää saatavilla viitteeksi, HPC-tiimin vetämä)
3. Genomianalyysin työkalupakki. https://software.broadinstitute.org/gatk/Tämä hyperlinkki johtaa Dell Technologiesin ulkopuoliseen sivustoon.

Cause

Arkistointi artikkelina perustuu HPC-dokumentaatioon, jota ei enää isännöidä verkossa, eikä artikkelia voi muokata niin, että se läpäisee tietämyskannan odotukset

Resolution

Arkistointi artikkelina perustuu HPC-dokumentaatioon, jota ei enää isännöidä verkossa, eikä artikkelia voi muokata niin, että se läpäisee tietämyskannan odotukset

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sep 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.