HPC Life Sciences için Dell EMC Ready Solution: Cascade Lake CPU ve Lustre ME4 Refresh ile BWA-GATK Hattı verim testleri

Summary: Makale olarak arşivleme, artık çevrimiçi olarak barındırılmayan HPC belgelerini temel alır ve makale, KB beklentilerini karşılayacak şekilde düzenlenemez HPC Yaşam Bilimleri için Dell EMC Ready Çözümü: Cascade Lake CPU ve Lustre ME4 Refresh ile BWA-GATK Hattı verim testleri ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

HPC Yaşam Bilimleri için Dell EMC Ready Çözümlerinin 64 bilgi işlemli düğüm yapılandırması, günde 194 genom işleyebilir (kapsamın 50 katı derinlik).

Genel Bakış

Varyant çağrısıBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir. dizi verilerinden varyantları tanımladığımız bir süreçtir. Bu işlem, tek bir genom veya transkriptomda belirli bir pozisyonda tek nükleotid polimorfizmleri (SNP'ler), eklemeler ve delesyonlar (indels) ve/veya yapısal varyantlar (SV'ler) olup olmadığını belirlemeye yardımcı olur. Genomik varyasyonları tanımlamanın temel amacı, insan hastalıklarıyla bağlantı kurmaktır. Tüm insan hastalıkları genetik varyasyonlarla ilişkili olmasa da, varyant çağrısı, genetik varyasyonların neden olduğu belirli bir hastalık üzerinde çalışan genetikçiler için değerli bir kılavuz sağlayabilir. BWA-GATK, insan NGS verilerinden germ hattı ve somatik mutasyonları tanımlamak için tasarlanmış Yeni Nesil Dizileme (NGS) hesaplama araçlarından biridir. Bir avuç varyant tanımlama aracı vardır ve mükemmel performans gösteren tek bir araç olmadığını anlıyoruz (1). Bununla birlikte, HPC Yaşam Bilimleri için Dell EMC Ready Çözümlerinin karmaşık ve büyük NGS iş yüklerini ne kadar iyi işleyebildiğini göstermek için kıyaslama aracımız olarak en popüler araçlardan biri olan GATK yi seçtik. 
Bu blog yazısının amacı, HPC Lustre Storage (ME4 serisi yenileme) için Dell EMC Ready Solutions ile BWA-GATK ardışık düzen karşılaştırması için Intel® Xeon® Gold 6248 işlemci hakkında değerli performans bilgileri sağlamaktır (2). Xeon® Gold 6248 CPU, hiper iş parçacığı kullanırken 20 fiziksel çekirdeğe veya 40 mantıksal çekirdeğe sahiptir. Test kümesi yapılandırmaları Tablo 1 de özetlenmiştir.

Tablo 1: Test edilen bilgi işlem düğümü yapılandırması
 
Dell EMC PowerEdge C6420
CPU 2x Xeon® Gold 6248, 20 çekirdek, 2,5 GHz (Cascade Lake)
RAM 2933 MTps'de 12x 16 GB
İşletim Sistemi RHEL 7.6
Interconnect Intel® Omni-Path
BIOS Sistem Profili Optimize Edilmiş Performans
Mantıksal İşlemci Disabled
Sanallaştırma Teknolojisi Disabled
BWA (Türkçe) 0.7.15-R1140
Samtools (Samtools) 1.6
GATK (Türkçe) 3.6-0-G89B7209

Test edilen bilgi işlem düğümleri, Intel® Omni-Path aracılığıyla HPC Lustre Depolaması için Dell EMC Ready Solutions'a bağlandı. Depolamanın özet yapılandırması Tablo 2'de listelenmiştir.
Tablo 2: Çözüm donanım ve yazılım teknik özellikleri
 
Lustre Depolaması için Dell EMC Ready Solution
Düğüm sayısı 1 x Lustre (IML)
için Entegre Yönetici olarak Dell EMC PowerEdge R640 Meta Veri Sunucusu (MDS)
olarak 2x Dell EMC PowerEdge R740 Nesne Depolama Sunucusu (OSS) olarak 2x Dell EMC PowerEdge R740
İşlemciler IML sunucusu: Çift Intel Xeon Gold 5118 @ 2,3 GHz
MDS ve OSS sunucuları: Çift Intel Xeon Gold 6136 @ 3,00 GHz
Bellek IML sunucusu: 12 x 8 GB, 2.666 MT/sn DDR4, RDIMM,
MDS ve OSS sunucuları: 24 x 16 GiB 2.666 MT/sn DDR4 RDIMM
Harici depolama
denetleyicileri
2 x Dell 12 Gb/sn SAS HBA (her MDS de)
4 x Dell 12 Gb/sn SAS HBA (her OSS de)
Nesne depolama
muhafazaları
Toplam 336 x 8 TB NL 7.2K rpm SAS HDD ile 4x ME4084
Meta veri depolama
muhafazası
24x 960 GB SAS SSD ile 1x ME4024. 4.68 B inode'a kadar destekler
RAID denetleyicileri ME4084 ve ME4024 muhafazalarında çift yönlü SAS RAID denetleyicileri
İşletim sistemi CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS sürümü 1.4.5
Intel Omni-Path
IFS sürümü
10.8.0.0
Lustre dosya sistemi
sürümü
2.10.4
IML sürümü 4.0.7.0

Test verileri, Illumina'nın Platin Genomlarından birinden seçildi. ERR194161, Illumina tarafından sunulan Illumina HiSeq 2000 ile işlenmiştir ve EMBL-EBI'den edinilebilir. Bu bireyin DNA tanımlayıcısı NA12878'dir. Bağlantılı web sitesinden alınan verilerin açıklaması, bu örneğin 30 kat kapsama derinliğine sahip >olduğunu gösterir.

Performans Değerlendirmesi

Tek Örnek Çoklu Düğüm Performansı

Şekil 1'de, 50x Tam Genom Dizileme (WGS) verilerine sahip çeşitli sayıda örnek ve hesaplama düğümündeki çalışma zamanı özetlenmiştir. Burada gerçekleştirilen testler, tek tek bileşenleri karşılaştırmak için değil, sunucu düzeyinde performans göstermek için tasarlanmıştır. Şekil 1'deki veri noktaları, aynı anda işlenen hesaplama düğümü başına bir örnek (şekilde X ekseni) olmak üzere toplam örnek sayısına göre hesaplanır. BWA-GATK boru hattı bilgilerinin ayrıntıları Broad Institute web sitesinden edinilebilir (3). Testler için kullanılan maksimum bilgi işlem düğümü sayısı 64x C6420'dir. Lustre ME4'e sahip C6420'ler, Lustre MD3'ten daha iyi ölçekleme davranışı gösterir.

 Lustre MD3 ve Lustre ME4 arasındaki performans karşılaştırmaları
Şekil 1 Lustre MD3 ve Lustre ME4 arasındaki performans karşılaştırmaları

Çoklu Örnek Çoklu Düğüm Performansı

NGS işlem hattını çalıştırmanın tipik bir yolu, bir hesaplama düğümünde birden çok örnek çalıştırmak ve NGS veri işleminin aktarım hızını en üst düzeye çıkarmak için birden çok hesaplama düğümü kullanmaktır. Testler için kullanılan hesaplama düğümü sayısı C6420 hesaplama düğümlerinin 64'üdür ve düğüm başına örnek sayısı beş örnektir. Bir iş hatası olmadan günde maksimum genom sayısını tahmin etmek için aynı anda 320'ye kadar örnek işlenir.
Şekil 2'de gösterildiği gibi, tek bir C6420 hesaplama düğümü, 5 örnek aynı anda işlendiğinde günde 50x tam insan genomunun 3,24'ünü işleyebilir. Her örnek için 7 çekirdek ve 30 GB bellek ayrılır. 

 64 adede kadar C6420 ve Lustre ME4 ile Verim Testleri
Şekil 2: 64 adede kadar C6420 ve Lustre ME4

ile Verim Testleri50x tam insan genomunun 320'si, 64 C6420 hesaplama düğümü ile 40 saat içinde işlenebilir.  Başka bir deyişle, test konfigürasyonunun performansı, 50x kapsama derinliği ile tüm insan genomu için günde 194 genom olarak özetlenir.

Sonuç

WGS'nin veri boyutu sürekli büyüdüğü için. WGS'nin mevcut ortalama boyutu 50x'tir. Bu, 4 yıl önce BWA-GATK boru hattını kıyaslamaya başladığımızda tipik bir WGS'den 5 kat daha büyük. İşlem hattındaki uygulamaların çoğu CPU saat hızıyla da sınırlandığından, artan veriler depolama tarafı kapasitesini zorlamaz. Bu nedenle, artan veri boyutuyla işlem hattı daha fazla yazma işlemi oluşturmak yerine daha uzun süre çalışır.
Ancak daha fazla verinin paralelleştirilmesi gerektiğinden işlem sırasında daha fazla sayıda geçici dosya oluşturulur ve aynı anda açılan bu geçici dosya sayısındaki artış, Linux işletim sistemindeki açık dosya sınırını tüketir. Uygulamalardan biri açık dosya sayısı sınırına ulaşarak sessizce tamamlanamıyor. Basit bir çözüm, sınırı 150K'ya >çıkarmaktır. 
Bununla birlikte, çizilme alanı olarak Lustre ME4'e sahip Hazır Çözüm, önceki versiyona göre daha iyi bir verim kapasitesine sahiptir. Şu anda 64 düğüm Hazır Çözüm, 50x WGS için günde 194 genom işleme gücüne işaret ediyor.

Kaynaklar 

1. Yeni nesil genom dizileme verilerinin varyant analizi için bir araç araştırması. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Kısa Biyoinform, 2014 Mart, Cilt 15 (2). 10.1093/bib/bbs086.
2. HPC Lustre Depolaması için Dell EMC Ready Solution (İngilizce).  (Makale artık referans için mevcut değil, HPC ekibi tarafından alınmıştır)
3. Genom Analizi Araç Seti. https://software.broadinstitute.org/gatk/Bu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.

Cause

Makale olarak arşivleme, artık çevrimiçi olarak barındırılmayan HPC belgelerini temel alır ve makale, KB beklentilerini karşılayacak şekilde düzenlenemez

Resolution

Makale olarak arşivleme, artık çevrimiçi olarak barındırılmayan HPC belgelerini temel alır ve makale, KB beklentilerini karşılayacak şekilde düzenlenemez

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sep 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.