Řešení Dell EMC Ready pro superpočítače v přírodních vědách Testy propustnosti kanálu BWA-GATK s procesorem Cascade Lake a Lustre ME4 Refresh

Summary: Archivace článku je založena na dokumentaci k HPC, která již není hostována online, a článek nelze upravit tak, aby splňoval očekávání znalostní báze Dell EMC Ready Solution for HPC Life Sciences: Testy propustnosti kanálu BWA-GATK s procesorem Cascade Lake a Lustre ME4 Refresh ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Konfigurace 64výpočetních uzlů řešení Dell EMC Ready Solutions for HPC Life Sciences dokáže zpracovat 194 genomů za den (50násobná hloubka pokrytí).

Přehled

VoláníTento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies. variant je proces, při kterém identifikujeme varianty ze sekvenčních dat. Tento proces pomáhá určit, zda na dané pozici v individuálním genomu nebo transkriptomu existují jednonukleotidové polymorfismy (SNP), inzerce a delece (indely) nebo strukturní varianty (SV). Hlavním cílem identifikace genomických variací je souvislost s lidskými chorobami. Ačkoli ne všechny lidské nemoci jsou spojeny s genetickými variacemi, variantní volání může poskytnout cenné vodítko pro genetiky pracující na konkrétním onemocnění způsobeném genetickými variacemi. BWA-GATK je jedním z výpočetních nástrojů nové generace sekvenování (NGS), které jsou navrženy tak, aby identifikovaly zárodečné a somatické mutace z lidských dat NGS. Existuje několik nástrojů pro identifikaci variant a chápeme, že neexistuje jediný nástroj, který by fungoval dokonale (1). My jsme však jako srovnávací test zvolili jeden z nejoblíbenějších nástrojů, abychom ukázali, jak skvěle dokážou řešení Dell EMC Ready Solutions for HPC Life Sciences zpracovat složité a masivní úlohy NGS. 
Účelem tohoto blogu je poskytnout cenné informace o výkonu procesoru Intel® Xeon® Gold 6248 pro srovnávací test BWA-GATK s řešeními Dell EMC Ready Solutions pro úložiště HPC Lustre (obnovení řady ME4) (2). Procesor Xeon® Gold 6248 má 20 fyzických jader nebo 40 logických jader při použití hyper threadingu. Konfigurace testovacího clusteru jsou shrnuty v tabulce 1.

Tabulka 1: Testovaná konfigurace výpočetního uzlu
 
Dell EMC PowerEdge C6420
Procesor 2x Xeon® Gold 6248, 20 jader, 2,5 GHz (Cascade Lake)
RAM 12× 16 GB s rychlostí 2 933 MT/s
Operační systém RHEL 7.6
Interconnect Intel® Omni-Path
Profil systému BIOS Performance Optimized
Logický procesor Zakázáno
Technologie virtualizace Zakázáno
BWA 0.7.15-R1140
Samtools 1.6
GATK 3.6-0-G89B7209

Testované výpočetní uzly byly připojeny k řešením Dell EMC Ready Solutions for HPC Lustre Storage prostřednictvím® Intel Omni-Path. Souhrnná konfigurace úložiště je uvedená v tabulce 2.
Tabulka 2: Specifikace hardwaru a softwaru řešení
 
Řešení Dell EMC Ready pro úložiště Lustre
Počet uzlů 1× Dell EMC PowerEdge R640 jako integrovaný manažer pro lustraci (IML)
2× Dell EMC PowerEdge R740 jako server metadat (MDS)
2× Dell EMC PowerEdge R740 jako server úložiště objektů (OSS)
Procesory Server IML: Dva servery Intel Xeon Gold 5118 @ 2,3 GHz
MDS a OSS: Dva procesory Intel Xeon Gold 6136 při frekvenci 3,00 GHz
Paměť Server IML: 12 × 8 GB, 2 666 MT/s, DDR4 RDIMM MDS
a servery OSS: 24x 16 GiB, 2 666 MT/s, DDR4 RDIMM
Externí řadiče úložiště
2× Dell 12 Gb/s SAS HBA (na každém MDS)
4× Dell 12 Gb/s SAS HBA (na každém OSS)
Objektové
skříně
4x ME4084 s celkem 336x 8TB pevnými disky SAS NL, 7 200 ot/min
Skříň pro úložiště
metadat
1x ME4024 s 24x 960GB disky SAS SSD Podporuje až 4,68 B inodů
Řadiče RAID Duplexní řadiče SAS RAID ve skříních ME4084 a ME4024
Operační systém CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Verze systému BIOS 1.4.5
Verze Intel Omni-Path
IFS
10.8.0.0
Verze systému
souborů Lustre
2.10.4
Verze IML 4.0.7.0

Testovací data byla vybrána z jednoho z platinových genomů společnosti Illumina. ERR194161 byl zpracován pomocí Illumina HiSeq 2000 předložený společností Illumina a lze jej získat od EMBL-EBI. Identifikátor DNA tohoto jedince je NA12878. Popis dat z odkazovaného webu ukazuje, že tento vzorek má 30násobnou >hloubku pokrytí.

Vyhodnocení výkonu

Jeden vzorek, výkon více uzlů

Na obrázku 1 je shrnuta doba běhu v různém počtu vzorků a výpočetních uzlů s 50násobnými daty WGS (Whole Genome Sequencing). Provedené testy jsou navrženy tak, aby demonstrovaly výkon na úrovni serveru, nikoli pro porovnání jednotlivých komponent. Datové body na obrázku 1 se počítají na základě celkového počtu vzorků, jeden vzorek na výpočetní uzel (osa X na obrázku), které jsou zpracovávány souběžně. Podrobnosti o plynovodech BWA-GATK lze získat na webových stránkách Broad Institute (3). Maximální počet výpočetních uzlů použitých pro testy je 64x C6420. Servery C6420 s technologií Lustre ME4 vykazují lepší škálovací chování než model Lustre MD3.

 Srovnání výkonu mezi Lustre MD3 a Lustre ME4
Obrázek 1: Porovnání výkonu mezi Lustre MD3 a Lustre ME4

Více ukázek, výkon více uzlů

Typickým způsobem spuštění kanálu NGS je spuštění více vzorků na výpočetním uzlu a použití více výpočetních uzlů k maximalizaci propustnosti datového procesu NGS. Počet výpočetních uzlů používaných pro testy je 64 výpočetních uzlů C6420 a počet vzorků na uzel je pět vzorků. Současně se zpracovává až 320 vzorků, aby se odhadl maximální počet genomů za den bez selhání úlohy.
Jak je znázorněno na obrázku 2, jeden výpočetní uzel C6420 dokáže zpracovat 3,24 z 50násobku celého lidského genomu za den, když se současně zpracovává 5 vzorků. Pro každý vzorek je přiděleno 7 jader a 30 GB paměti. 

 Testy propustnosti s až 64 skenery C6420 a Lustre ME4
Obrázek 2: Testy propustnosti s až 64 počítači C6420 a snímačem Lustre ME4

320 z 50x celých lidských genomů lze zpracovat pomocí 64 výpočetních uzlů C6420 za 40 hodin.  Jinými slovy, výkon konfigurace testu se shrnuje jako 194 genomů za den pro celý lidský genom s 50násobnou hloubkou pokrytí.

Závěr

Vzhledem k tomu, že velikost dat WGS neustále roste. Aktuální průměrná velikost WGS je 50x. To je 5krát větší než typický WGS před 4 lety, kdy jsme začali srovnávat potrubí BWA-GATK. Rostoucí objem dat nezatěžuje kapacitu na straně úložiště, protože většina aplikací v potrubí je také omezena taktovací rychlostí procesoru. Proto s rostoucí velikostí dat kanál běží déle, místo aby generoval další zápisy.
Během procesu se však generuje větší počet dočasných souborů, protože je potřeba paralelizovat více dat, a tento zvýšený počet dočasných souborů otevřených současně vyčerpává limit otevřených souborů v operačním systému Linux. Jedné z aplikací se bezobslužně nedaří dokončit se dosažením limitu počtu otevřených souborů. Jednoduchým řešením je zvýšení limitu na >150K. 
Nicméně Ready Solution s Lustre ME4 jako pomocným prostorem má lepší propustnost než předchozí verze. Nyní 64 uzlů Ready Solution znamená 194 genomů denně výpočetního výkonu pro 50x WGS.

Zdroje 

1. Přehled nástrojů pro variantní analýzu dat sekvenování genomu nové generace. Pabinger S, Dander A, Fischer M, Snajder R, Šperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Stručný Bioinform, březen 2014, roč. 15 (2). 10.1093/bib/bbs086.
2. Řešení Dell EMC Ready pro úložiště HPC Lustre.  (Článek již není k dispozici pro referenci, stáhl si ho tým HPC)
3. Sada nástrojů pro analýzu genomu. https://software.broadinstitute.org/gatk/Tento hypertextový odkaz vás zavede na webové stránky mimo společnost Dell Technologies.

Cause

Archivace článku je založena na dokumentaci k HPC, která již není hostována online, a článek nelze upravit tak, aby splňoval očekávání znalostní báze

Resolution

Archivace článku je založena na dokumentaci k HPC, která již není hostována online, a článek nelze upravit tak, aby splňoval očekávání znalostní báze

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sept 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.