PowerEdge: Dell EMC DSS 8440 Sunucu ve NVIDIA T4 GPU'lar ile NVIDIA Clara Parabricks Genom Veri Analizini Hızlandırma
Summary: Bu makalede, NVIDIA T4 GPU'lara sahip Dell EMC DSS 8440'ta NVIDIA Parabricks kullanarak genomik veri analizini hızlandırma hakkında bilgiler yer almaktadır.
Instructions
Genel Bakış
Yeni Nesil Dizileme (NGS) verilerini işlemenin ilk adımı, Birincil Analiz olarak adlandırılır. Bu adım dizileme aracına özeldir ve dizileme okumalarını içeren birden fazla FASTQ dosyası oluşturur. İkincil Analiz olarak bilinen bir sonraki adımda, FASTQ dizileme okumaları bir referans genom veya referans transkriptom ile eşlenir. Daha fazla işlem, ilgilenilen örnek ile bir referans arasındaki varyantları veya farklılıkları tanımlar. Bu varyantlar sonraki adımlarda açıklanmakta ve yorumlanmaktadır. Tek bir örnek için ikincil analiz süresi; veri boyutuna, mevcut bilgi işlem kaynaklarına, yazılıma ve analitik iş akışına bağlı olarak saatler ile günler arasında değişiklik gösterir.
İkincil analiz, özellikle yüzlerce veya binlerce genom işlenirken yoğun bilgi işlem ve depolama gerektiren bir işlemdir. İkincil analiz sorunlarını önlemeye yönelik pek çok strateji mevcuttur. Yakın zamana kadar, donanım hızlandırıcıların özel yazılım gerektirmesi nedeniyle GPU'lar veya FPGA'lar ile donanım hızlandırması kullanımı düşük seviyelerdeydi. ParabricksNVIDIA tarafından 2019 yılında satın alınan genomik yazılımı, GPU'larla çeşitli genomik analiz iş akışları gerçekleştiren bir yazılım yığınına öncülük etti. Test ettik Parabricksyaklaşık iki yıl önce. Dell, sunucularında ve depolama çözümlerinde birçok teknolojik gelişmeyi tanıttı ve NVIDIA Clara Parabricks gelişmiş hızlandırma ve varyant arayanların eklenmesiyle sağlam sürümler yayınladı. Örneğin, NVIDIA® Tesla® T4 GPU'lara sahip Dell EMC DSS 8440 sunucusunu temel alan çok GPU'lu bir sunucu tasarımı, fiyat ve performans arasında cazip bir denge sunarken ikincil analizi hızlandırmak için umut verici görünüyordu. Bu blog, NVIDIA Clara için yeni bir referans mimarisi ve kıyaslama sonuçları bildirmektedir Parabricks Dell Isilon F800 depolamalı çoklu Tesla® T4 GPU, DSS 8440 sunucusu üzerinde ikincil analiz.
Referans Mimarisi
Şekil 1, test edilen referans mimarisini göstermektedir. Mimari modülerdir ve ölçeklendirilmesi kolaydır. The NVIDIA Clara Parabricks uygulama yazılımı, ölçeği genişletmeyi olabildiğince basit hale getiren bir veya daha fazla GPU kullanır. Donanım yapı taşları, yönetim düğümü olarak Dell PowerEdge R640 , GPU bilgi işlem için DSS 8440 sunucusu ve Dell EMC Isilon F800 depolamadan oluşur.
Şekil 1. Test edilen referans mimarisi
DSS 8440, 2 soket, 4U sunucu en fazla 10 adet sektör lideri NVIDIA® Tesla® V100S Tensor Core GPU, en fazla 10 adet NVIDIA® Quadro RTX™ GPU veya en fazla 16 adet NVIDIA Tesla T4 GPU alabilir ve bu sayede çok yüksek düzeyde güç sağlar. DSS 8440'ın ayrıntılı yapılandırması Tablo 1' de listelenmiştir.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
İki adet Z9100-ON anahtarı, bilgi işlem düğümü ile Isilon F800 depolama kümesi arasında bağlantı sağlar. Ek anahtar N2248X-ON yönetim için kullanılır.
NGS Verileri
İkincil analiz çalışma zamanının kıyaslanmasına yönelik veriler, sırasıyla 10x, 30x ve 50x örneklem kapsamını temsil eden üç İnsan, tüm genom dizileme (WGS) veri kümesinden ERR091571, SRR3124837
ve ERR194161'den
oluşuyordu. Bu veri kümeleri Avrupa Nükleotid Arşivi'nde (ENA)
mevcuttur.
Performans Değerlendirmesi
Yazılım iyileştirmeleri çalışma süresini azaltır.
NVIDIA, NVIDIA Clara için yazılım iyileştirmeleri sunmaya devam ediyor Parabricks. Şekil 2'de, iki sürüm arasındaki çalışma zamanı azaltımı gösterilmektedir. Parabricks 4x V100 GPU test ortamına sahip Dell PowerEdge C4140 sunucusunu kullanarak germ hattı ardışık düzenini çalıştırma. v2.1.0'dan v3.0.0'a geçmek çalışma zamanını %42 oranında azalttı.
Şekil 2: İşlem hattı çalışma zamanını çağıran Parabricks germ hattı varyantının en son sürümü.
16x T4'a sahip DSS 8440'ın performansları
NVIDIA Clara için çalışma zamanı Parabricks Tek bir T4 GPU kullanan ikincil analiz, bir V100 GPU kullanmaktan yaklaşık %30 daha yavaştır. Ancak iki (2) T4 GPU, yaklaşık yarısı kadar maliyetle bir (1) V100 GPU'dan %10 daha fazla TFLOPS sağlar. DSS 8440, dört V100 GPU'ya sahip bir C4140 sistemiyle benzer çalışma zamanı performansını daha düşük bir maliyetle sunan T4 GPU tabanlı bir T4 GPU tabanlı sunucu tasarlama olanağını açan 16 adede kadar PCIe yuvası sağlar.
bu Parabricks germ hattı analizi, 16 adet T4 GPU'lu bir PowerEdge DSS 8440 kullanılarak gerçekleştirildi. Daha önce açıklanan her WGS örnek veri kümesi için çalışma zamanı, ikincil analiz başına 1, 2, 4, 8 ve 16 T4 GPU kullanılarak kaydedildi. Sonuçlar Şekil 3, 4 ve 5'te gösterilmektedir. Genel olarak, analiz başına GPU sayısı arttıkça çalışma zamanı da doğrusal olarak ölçeklendirilmez. Ölçeklendirme deseni, örnek başına veri miktarının 10x'ten 50x'e artışına benzer.
Burada yer almasa da, daha önceki bir Dell EMC araştırması Parabricks analiz başına sekiz veya daha fazla V100 GPU kullanılan çalışma zamanı sonuçları, T4 GPU'lar kadar verimli bir şekilde ölçeklendirilmedi. Daha fazla test, 6 T4 GPU'nun 4 V100 GPU ile neredeyse aynı çalışma zamanı sonuçları ürettiğini gösterdi.
Şekil 3 10x WGS ile performans karşılaştırmaları
Şekil 4 30x WGS ile performans karşılaştırmaları
Şekil 5 50x WGS ile performans karşılaştırmaları
Sonuç
On altı adet T4 GPU'ya sahip bir DSS 8440, günde otuz adet 50x İnsan genomu işleyebilir. Geleneksel x86 CPU mimarisinin kullanıldığı benzer bir günlük analiz performansı, on PowerEdge C6420 bilgi işlem düğümü gerektirmektedir. HPC Yaşam Bilimleri için Dell Ready Solution'da mimarinin tamamı ele alınmıştır: Cascade Lake CPU ve Lustre ME4 Refresh ile BWA-GATK Boru Hattı verim testleri.
Bununla birlikte, 16 adet T4 GPU'nun tamamının tek bir örneği işlemek için kullanılması çok az fayda sağlar. Bunun nedeni, analiz başına 16 GPU kullanmanın 8 GPU kullanmaya kıyasla en fazla %10 daha hız sunmasıdır. DSS 8440'ın tasarımı, birden fazla ikincil analizin paralel olarak gerçekleştirilmesini sağlar. Örnek başına sekiz T4 GPU atandığında günlük analiz performansı gün başına yaklaşık 50 genom artar. Örnek başına dört GPU kullanımı, analiz performansını günde ~70 genoma yükseltir. Daha da önemlisi, T4 GPU kullanıldığında bu günlük performans, V100 GPU tasarımını kullanmanın yarısından daha az maliyetle elde edilir.
Hızın yanı sıra diğer analiz araçlarıyla uyumluluk da sonuçların karşılaştırılabilmesi bakımından önem taşımaktadır. Komutta Parabricks germ hattı analiz sonuçları, önceki testlerden elde edilen iyi bilinen BWA-GATK Haplotip arayan analizi ile neredeyse aynıdır. Parabricks varyantı çağırma sonuçlarını aşağıdakiler gibi diğer araç setleriyle de karşılaştırmak istedik: samtools/mpileup. Bu iki farklı araç, tanımlanmış varyantlar için ~%90 genel anlaşmaya ulaşır ve önemli genler içeren birçok iyi bilinen genomik bölgedeki varyasyonlar %99'dan fazla uyum sağlar.