Omitir para ir al contenido principal
  • Hacer pedidos rápida y fácilmente
  • Ver pedidos y realizar seguimiento al estado del envío
  • Cree y acceda a una lista de sus productos
  • Administre sus sitios, productos y contactos de nivel de producto de Dell EMC con Administración de la empresa.

HPC Yaşam Bilimleri için Dell EMC Ready Çözümü: Cascade Lake CPU ve Lustre ME4 Yenileme ile BWA-GATK Ardışık Düzeni aktarım hızı testleri

Resumen: HPC Yaşam Bilimleri için Dell EMC Ready Çözümü: Cascade Lake CPU ve Lustre ME4 Yenileme ile BWA-GATK Ardışık Düzeni aktarım hızı testleri

Es posible que este artículo se traduzca automáticamente. Si tiene comentarios sobre su calidad, háganoslo saber mediante el formulario en la parte inferior de esta página.

Contenido del artículo


Síntomas

HPC Yaşam Bilimleri için Dell EMC Ready Çözümlerinin 64 bilgi işlem düğümü yapılandırması, günde 194 genom işleyin (50x kapsam derinliği).

Genel Bakış

Değişken aramaBu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir. sıra verilerine göre değişkenlerini tanımlayan bir süreçtir. Bu işlem, tek bir genom veya dekstride belirli bir konumda tek nükleotid poli morfin (SNP'ler), eklemeler ve silmeler (indel'ler) ve yapısal varyantlar (SVs) olup olmadığını belirlemeye yardımcı olur. Genom varyasyonlarını belirlemenin ana amacı, insanla bağlantı oluşturmaktır. Her insan hatasını, değişken arama, çeşit çeşitlemelerle ilişkilendirilmese de değişken arama, çeşitlemelerden kaynaklanan belirli bir yanlışlık üzerinde çalışan, varlıklı müşteriler için değerli bir kılavuz sağlar. BWA-GATK, insan NGS verilerinden germline ve somatik sapmaları tanımlamak için tasarlanmış Yeni Nesil Sıralama (NGS) hesaplama araçlarından biri. Çeşitli değişken tanımlama araçları vardır ve mükemmel performans sergileyen tek bir araç olmadığını anlarız (1). Ancak HPC Yaşam Bilimleri için Dell EMC Ready Çözümlerinin karmaşık ve devasa NGS iş yüklerini ne kadar iyi işleyecği olduğunu göstermek için karşılaştırma aracımız olarak en popüler araçlardan biri olan GATK'yi seçtik. 
Bu blogun amacı, HPC Lustre Depolaması (ME4 serisi yenileme) için Dell EMC Ready Solutions ile BWA-GATK hattı karşılaştırmalı testi için Intel® Xeon® Gold 6248 işlemci hakkında değerli performans bilgileri sağlamaktır (2). Xeon® Gold 6248 CPU, hiper iş parçacığı kullanırken 20 fiziksel çekirdeğe veya 40 mantıksal çekirdeğe sahiptir. Test kümesi yapılandırmaları Tablo 1'de özetlenmiştir.

Tablo 1 Test edilmiş bilgi işlem düğümü yapılandırması
 
Dell EMC PowerEdge C6420
CPU 2x Xeon® Gold 6248 20 çekirdek 2,5 GHz (Cascade Lake)
RAM 2933 MTp'de 12x 16 GB
İşletim Sistemi RHEL 7.6
Interconnect Intel Omni-Path (Intel® Omni-Path)
BIOS Sistem Profili Optimize Edilmiş Performans
Mantıksal İşlemci Disabled
Sanallaştırma Teknolojisi Disabled
BWA 0.7.15-r1140
Samtool'lar 1.6
GATK 3,6-0-g89b7209

Test edilen bilgi işlem düğümleri, Intel® Omni-Path aracılığıyla HPC Lustre Depolaması için Dell EMC Ready Çözümlerine bağlandı. Depolamanın özet yapılandırması Tablo 2'de listelenmiştir.
Tablo 2 Çözüm donanım ve yazılım teknik özellikleri
 
Lustre Depolaması için Dell EMC Ready Çözümü
Düğüm sayısı 1x Dell EMC PowerEdge R640, Nesne Depolama Sunucusu (OSS) olarak Metadata Server (MDS) 2x Dell EMC PowerEdge R740 olarak Lustre (IML)

2x Dell EMC PowerEdge R740 için Integrated Manager olarak
İşlemciler IML sunucusu: 2,3 GHz
MDS ve işletim sistemi sunucularında çift Intel Xeon Gold 5118: 3,00 GHz'de Çift Intel Xeon Gold 6136
Bellek IML sunucusu: 12 x 8 GB 2.666 MT/sn DDR4 RDIMM
MDS ve OSS sunucuları: 24 x 16 GiB 2.666 MT/s DDR4 RDIMM
Harici depolama
denetleyicileri
2 x Dell 12 Gb/sn SAS HBA'lar (her MDS'de)
4 x Dell 12 Gb/sn SAS HBA'lar (her bir işletim sisteminde)
Nesne depolama
muhafazaları
Toplam 336 x 8 TB NL 7,2K rpm SAS HDD'ler ile 4x ME4084
Meta veri depolama muhafazası
24x 960 GB SAS SSD ile 1x ME4024. 4,68 B'ye kadar inod'ları destekler
RAID denetleyicileri ME4084 ve ME4024 muhafazalarda çift yönlü SAS RAID denetleyicileri
İşletim sistemi CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
BIOS sürümü 1.4.5
Intel Omni-Path
IFS sürümü
10.8.0.0
Lustre dosya sistemi
sürümü
2.10.4
IML sürümü 4.0.7.0

Test verileri, Illumina'nın Platinum Genom'undan seçildi. ERR194161, Illumina tarafından gönderilen Illumina HiSeq 2000 ile işlendi ve EMBL-EBI'den elde edildi. Bu birenin DNA tanımlayıcısı NA12878. Bağlantılı web sitesinden gelen verilerin açıklaması, bu örnekte >30x kapsam derinliği olduğunu gösteriyor.

Performans Değerlendirmesi

Tek Örnek Çoklu Düğüm Performansı

Şekil 1'de, 50x Tüm Genom Sıralama (WGS) verilerine sahip çeşitli örnek ve bilgi işlem düğümlerdeki çalışma süresi özetlenmiştir. Burada gerçekleştirilir testler, sunucu düzeyinde performansı göstermek için tasarlanmıştır, ayrı bileşenlerle karşılaştırmalar için değildir. Şekil 1'deki veri noktaları, eş zamanlı olarak işlenen bilgi işlem düğümü başına bir örnek (şekilde X ekseni) olmak üzere toplam örnek sayısına göre hesaplanır. BWA-GATK ardışık düzeni bilgilerini Broad Institute web sitesinden (3) edinebilirsiniz. Testler için kullanılan maksimum bilgi işlem düğümü sayısı 64x C6420s'tir. Lustre ME4 özellikli C6420s, Lustre MD3'ten daha iyi bir ölçeklendirme davranışı gösterir.

  Lustre MD3 ve Lustre ME4 arasındaki performans karşılaştırmaları
Şekil 1 Lustre MD3 ve Lustre ME4 arasındaki performans karşılaştırmaları

Birden Çok Örnek Çoklu Düğüm Performansı

NGS ardışık düzeni çalıştırmanın tipik bir yolu, bir bilgi işlem düğümü üzerinde birden fazla örnek çalıştırmak ve NGS veri işleminin performansını en üst düzeye çıkarmak için birden fazla bilgi işlem düğümü kullanmaktır. Testler için kullanılan bilgi işlem düğümü sayısı C6420 bilgi işlem düğümünün 64'ünü ve düğüm başına örnek sayısını beş örnektir. İş hatası olmadan günde maksimum genom sayısını tahmin etmek için 320'ye kadar örnek eş zamanlı olarak işlenir.
Şekil 2'de gösterildiği gibi tek C6420 bilgi işlem düğümü, 5 örneklerin eş zamanlı olarak işlendiğinde günde 50 x 50'den fazla insan genomünün 3,24'ünü işlenebilir. Her bir örnek için 7 çekirdek ve 30 GB bellek ayrılır. 

  64 Adede kadar C6420s ve Lustre ME4 ile Üretilen İş Testleri
Şekil 2: En fazla 64 C6420s ve Lustre ME4 ile Üretilen İş Testleri

40 saat içinde 64 C6420 bilgi işlem düğümü ile 50x'in 320'si tüm insan genomları işlenebilir.  Başka bir deyişle, test yapılandırmasının performansı, 50x kapsama alanına sahip tüm insan genomları için günde 194 genom olarak özetlenmiştir.

Sonuç

WGS'nin veri boyutu sürekli olarak artmaktadır. WGS'nin mevcut ortalama boyutu 50 x'dir. Bu, 4 yıl önce BWA-GATK hattı karşılaştırması yapılan tipik bir WGS'den 5 kat daha büyüktür. Ardışık düzendeki çoğu uygulama CPU saat hızına bağlı olduğundan artan veriler depolama tarafı kapasitesini zorlar. Bu nedenle, artan veri boyutuyla, ardışık düzen daha fazla yazma oluşturmak yerine daha uzun çalışır.
Ancak, daha fazla verinin paralel hale getirilmiş olması gerektiğinden işlem sırasında daha fazla geçici dosya oluşturulur ve bu artırılmış sayıda geçici dosya aynı anda açılır ve bir Linux işletim sisteminde açık dosya sınırını tüketer. Uygulamalardan biri, açık dosya sayısı sınırına ulaşarak sessizce tamamlayamıyor. Basit bir çözüm, sınırı 150.000'e >çıkarmak için geçerlidir. 
Bununla birlikte, karalama alanı olarak Lustre ME4 özellikli Ready Solution, önceki sürüme göre daha iyi bir aktarım hızı kapasitesine sahip. Artık 64 düğüm Hazır Çözüm, 50x WGS için günlük işleme gücü başına 194 genom olarak işaret ediyor.

Kaynaklar 

1. Yeni nesil genom sıralama verisinin değişken analizi için araçlar anketi. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Npjanoski Z. 2, s.l. : Kısa Biyoinform, 2014 Mart, Vol. 15 (2). 10.1093/bib/bbs086.
2. HPC Lustre Depolaması için Dell EMC Ready Çözümü.  (Makale artık referans olarak mevcut değil, HPC ekibi tarafından çekilecektir)
3. Genom Analizi Araç Seti. https://software.broadinstitute.org/gatk/ Bu köprü bağlantı sizi Dell Technologies dışındaki bir web sitesine yönlendirir.

Propiedades del artículo


Producto comprometido

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Fecha de la última publicación

11 ene 2024

Versión

6

Tipo de artículo

Solution