Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC Ready -ratkaisu biotieteille: BWA-GATK Pipeline -siirtotestit Cascade Lake -suorittimella ja Lustre ME4 -päivityksellä

Résumé: Dell EMC Ready -ratkaisu biotieteille: BWA-GATK Pipeline -siirtotestit Cascade Lake -suorittimella ja Lustre ME4 -päivityksellä

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Dell EMC Ready Solutions for HPC -biotieteiden 64 tietojenkäsittelyn solmukokoonpano voi käsitellä 194 genomia päivässä (50-kertainen kattavuussyvyys).

Yleiskuvaus

VersiopuhelutTämä hyperlinkki vie sinut Dell Technologiesin ulkopuoliseen sivustoon. on prosessi, jossa eriytetään versioita järjestystiedoista. Tämän prosessin avulla voit määrittää, onko yksittäisen osioinnin polymorfismeja (SNP), asennuksia ja poistoja (indels) ja tai rakenneversioita (SV) samassa asennossa yksittäisessä genomessa tai genomissa. Genomivaihtelujen pääasiallinen tavoite on yhdistää ihmisen ilmenemistekijät. Vaikka kaikki ihmisen ilmeneminen ei liity olemassa oleviin muunnelmiin, varianttien kutsuminen voi olla hyödyllinen ohje, joka koskee keltaisten muunnoksen aiheuttamia oireita. BWA-GATK on yksi seuraavan sukupolven sekvensointityökaluista (NGS), jotka on suunniteltu tunnistamaan ihmisen NGS-tiedoista peräisin olevia komentorivi- ja somaattisia mutaatioita. Versioiden tunnistustyökaluja on runsaasti, ja ymmärrämme, että kaikki työkalut eivät toimi täydellisesti (1). Olemme kuitenkin valinneet vertailutyökaluksemme GATK:n, joka on yksi suosituimmista työkaluista. Se osoittaa, miten hyvin Dell EMC Ready -ratkaisut HPC-biotieteille pystyvät käsittelemään monimutkaisia ja valtavia NGS-kuormituksia. 
Blogin tarkoituksena on tarjota arvokkaita suorituskykytietoja Intel® Xeon® Gold 6248 -suorittimesta BWA-GATK-pipeline-suorituskykytestauksessa Dell EMC Ready Solutions for HPC Lustre Storage -ratkaisuilla (ME4-sarjan päivitys) (2). Xeon® Gold 6248 -suoritin sisältää 20 fyysistä ydintä tai 40 loogista ydintä käytettäessä hypersäikeitä. Testiklusterikokoonpanojen yhteenveto on taulukossa 1.

Taulukko 1 Testattu laskentasolmukokoonpano
 
Dell EMC PowerEdge C6420
Suoritin 2 x Xeon® Gold 6248 20 ydintä, 2,5 GHz (Cascade Lake)
RAM 12 x 16 Gt, 2 933 MT/s
Käyttöjärjestelmä RHEL 7.6
Verkon liitäntä Intel® Omni-Path
BIOS-järjestelmän profiili Optimoitu suorituskyky
Looginen suoritin Ei käytössä
Virtualisointitekniikka Ei käytössä
BWA 0,7,15-r1140
Samtools 1.6
GATK (GATK) 3,6-0-g89b7209

Testatut laskentasolmut yhdistettiin Dell EMC Ready Solutions -ratkaisuihin HPC Lustre -tallennusta varten Intel® Omni-Pathin kautta. Tallennustilan yhteenvetokokoonpano on taulukossa 2.
Taulukko 2 Ratkaisujen laitteisto- ja ohjelmistotiedot
 
Dell EMC Ready -ratkaisu Lustre-tallennukseen
solmujen määrä 1x Dell EMC PowerEdge R640 Integrated Manager for Lustre (IML)
2x Dell EMC PowerEdge R740 as Metadata Server (MDS)
2x Dell EMC PowerEdge R740 as Object Storage Server (OSS)
Suorittimet IML-palvelin: Kaksi Intel Xeon Gold 5118 (2,3 GHz:n
MDS- ja OSS-palvelinta): Kaksi Intel Xeon Gold 6136 -näytönohjainta, 3,00 GHz
Muisti IML-palvelin: 12 x 8 Gt:n 2 666 MT/s:n DDR4 RDIMM
MDS- ja OSS-palvelimet: 24 x 16 GiB 2 666 MT/s DDR4 RDIMM -muistia
Ulkoiset tallennusohjaimet
2 x Dell 12 Gb/s SAS HBA :ta (kussakin MDS-järjestelmässä)
4 x Dellin 12 Gt/s:n SAS HBA -väylää (kussakin käyttöjärjestelmässä)
Objektitallennuskehikot
4 x ME4084, yhteensä 336 x 8 Tt:n SAS-kiintolevyä (7 200 kierr./min)
Metatietojen tallennuskehikko
1 x ME4024, jossa 24 x 960 Gt:n SAS SSD -asemaa. Tukee jopa 4,68 B:n inodeja
RAID-ohjaimet Kaksipuoliset SAS RAID -ohjaimet ME4084- ja ME4024-koteloissa
Käyttöjärjestelmä CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS-versio 1.4.5
Intel Omni-Path
IFS -versio
10.8.0.0
Lustre-tiedostojärjestelmäversio
2.10.4
IML-versio 4.0.7.0

Testitiedot valittiin yhdestä Platinum-genomista. ERR194161 käsitettiin Iiiuminan lähettämällä Iiiumina HiSeq 2000:lla, ja se voidaan hankkia EMBL-EBI:stä. Tämän henkilön DNA-tunniste on NA12878. Linkitetyn verkkosivuston tietojen kuvaus osoittaa, että tämän esimerkin kattavuus on >30 kertaa suurempi.

Suorituskyvyn arviointi

Yksi esimerkki usean solmun suorituskyvystä

Kuvassa 1 on yhteenveto useista näytteistä ja laskentasolmuista, joissa on 50 WGS (Whole Genome Sequencing) -tiedon suoritusaika. Nämä testit on suunniteltu osoittamaan palvelintason suorituskykyä, ei yksittäisten osien vertailua. Kuvan 1 tietopisteet lasketaan samanaikaisesti käsiteltävien näytteiden kokonaismäärän perusteella, yksi näyte laskentasolmua kohden (kuvan X-akseli). BWA-GATK-pipeline-tiedot ovat saatavilla Broad Instituten sivustosta (3). Testeissä käytettyjen laskentasolmujen enimmäismäärä on 64 x C6420s. Lustre ME4 :n C6420-skaalaustoiminto on parempi kuin Lustre MD3:n.

  Lustre MD3:n ja Lustre ME4:n suorituskykyvertailut
Kuva 1: Lustre MD3:n ja Lustre ME4:n suorituskykyvertailut

Useiden esimerkkisolmujen suorituskyky

NGS-pipeline voidaan tavallisesti suorittaa suorittamalla useita otoksia laskentasolmussa ja käyttämällä useita laskentasolmuja NGS-tietoprosessin siirtonopeuden maksimoimiseksi. Testeissä käytettyjä laskentasolmuja on 64 C6420-laskentasolmua ja solmukohtaisia otoksia on viisi. Samanaikaisesti käsitellään enintään 320 näytettä, joiden avulla voidaan arvioida enintään genomien enimmäismäärä päivässä ilman työn epäonnistumista.
Kuten kuvasta 2 näkyy, yksittäinen C6420-laskentasolmu pystyy käsittelemään 3,24 000 kokonaista ihmisen genomia päivässä, kun 5 näytettä käsitellään samanaikaisesti. Kullekin mallille varataan 7 ydintä ja 30 Gt muistia. 

  Jopa 64 C6420:n ja Lustre ME4:n läpimenotestit
Kuva 2: Jopa 64 C6420:n ja Lustre ME4

:n siirtotestit320 kokonaista 50 kertaa ihmisen genomia voidaan käsitellä 64 C6420-laskentasolmulla 40 tunnissa.  Toisin sanoen testikokoonpanon suorituskyky tekee yhteenvedon 194:stä ihmisen genomista päivässä 50-kertaisella peittosyvyyteen.

Johtopäätös

WGS:n tietokoko kasvaa jatkuvasti. Tällä hetkellä keskimääräinen WGS-koko on 50 kertaa suurempi. Se on viisi kertaa suurempi kuin tavallinen WGS 4 vuotta sitten, kun aloitettiin BWA-GATK-putken vertailu. Tietojen lisääminen ei kuormita tallennuksen sivukapasiteettia, koska useimpiin pipeline-sovelluksiin liittyy myös suorittimen kellotaajuus. Siksi tietokoko kasvaa, eikä kirjoituskertymiä luoda.
Prosessin aikana luodaan kuitenkin tavallista enemmän tilapäistiedostoja, koska tietoja on rinnakkaistettava enemmän, ja tämä suurempi määrä tilapäistiedostoja, jotka avataan samanaikaisesti, poistaa avoimen tiedostorajoituksen Linux-käyttöjärjestelmässä. Yksi sovelluksista epäonnistuu vaivihkaa määrittämällä avoimien tiedostojen enimmäismäärän. Helppo ratkaisu on nostaa raja 150 000 000:een >. 
Lustre ME4 :n ja raaputettavana tilana sisältävän Ready Solution -ratkaisun siirtokapasiteetti on kuitenkin parempi kuin aiemman version. Nyt 64 solmun Ready Solution -ratkaisu merkitsee 194 genomia päivässä 50x WGS -suorittimella.

Resursseja 

1. Työkalututkimus seuraavan sukupolven genomin sekvensointitietojen muunnelmien analyysiin. Pabzh S, Ainader A, Aina Dell Enterprise M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Lyhyt Bioinform, 2014.3., 15. v (2). 10,1093/bib/bbs086.
2. Dell EMC Ready -ratkaisu HPC Lustre -tallennukseen.  (Artikkeli ei ole enää saatavilla viitteeksi, HPC-tiimin vetämä)
3. Genomin analysointityökalut. https://software.broadinstitute.org/gatk/ Tämä hyperlinkki vie sinut Dell Technologiesin ulkopuoliseen sivustoon.

Propriétés de l’article


Produit concerné

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Dernière date de publication

11 janv. 2024

Version

6

Type d’article

Solution