PowerEdge: Intel FPGA PAC'de Falcon Accelerated Genomics Pipeline (FAGP) ile Genom Sıralamayı Güçlendirme (İngilizce)
Summary: Tek bir Intel FPGA Programlanabilir Hızlandırma Kartına sahip Falcon Hızlandırılmış Genomik Boru Hattı, Alternatif Varyant Çağırma Boru Hattı aracılığıyla 3 saatten daha kısa sürede 50x tüm insan genomunu işleyebilir. ...
Symptoms
Tek bir Intel FPGA Programlanabilir Hızlandırma Kartına sahip Falcon Hızlandırılmış Genomik Boru Hattı, Alternatif Varyant Çağırma Boru Hattı aracılığıyla 3 saatten daha kısa sürede 50x tüm insan genomunu işleyebilir.
Genel Bakış, Pazar Zorluğu (ihtiyaç), Falcon çözümü ihtiyaca cevap verir:
Hassas tıp, genomik ve epigenetik, araştırma yapmak, teşhisi iyileştirmek, ilaç geliştirmek, sağlık hizmeti sağlayıcıları için bakım kalitesini artırmak ve mahsul üretimini optimize etmek için genomik dizilemeyi kullanıyor. Yaşam bilimleri için genom analizi, kısmen yeni nesil dizilemedeki (NGS) gelişmelerden veri toplamanın büyük maliyet düşüşü nedeniyle artık önemli bir uygulamadır. Artan veri toplamaya ek olarak, üniversiteler, genomik araştırma merkezleri, ilaç şirketleri ve sağlık kuruluşları arasında kullanılan genomik uygulama yelpazesinde de önemli bir büyüme olmuştur.
Her yedi ayda bir genom verisi miktarı iki katına çıkıyor (1). Verimli ve uygun maliyetli bir şekilde veri işleme kritik hale geldi. Yalnızca işlemci çözümlerinin bilgi işlem gücü, genomik veri büyümesine ayak uyduracak kadar hızlı ölçeklenemiyor. Bu, donanım hızlandırma ihtiyacına yol açmıştır. FPGA'lar gibi hızlandırıcılar, bu genomik veri patlamasının hesaplama taleplerini karşılamada çok önemli hale geliyor. Diğer donanım hızlandırmalı çözümlerle karşılaştırıldığında, Falcon Hızlandırılmış Genomik Boru Hattı (FAGP) esneklik, yüksek verim ve numune başına daha düşük maliyet sunar.
FPGA, Intel PAC teklifi ve Avantajı nedir:
FPGA'lar, Şekil 1'de gösterildiği gibi Genomik Dizileme, Veri Analizi veya Sıkıştırma gibi iş yüklerinizle tam olarak eşleşen bir veri yoluyla dinamik olarak yeniden programlanabilen silikon cihazlardır. Bu çok yönlülük, daha hızlı işleme, güç açısından daha verimli bilgi işlem ve daha düşük gecikme süreli hizmet sağlanmasına olanak tanıyarak toplam sahip olma maliyetinizi düşürür ve veri merkezlerinizin güç, alan ve soğutma kısıtlamaları dahilinde bilgi işlem kapasitesini en üst düzeye çıkarır.
Geleneksel olarak, FPGA'lar programlamak için derin alan uzmanlığı gerektirir. Intel, geliştirme akışını basitleştirmek ve veri merkezi genelinde hızlı dağıtımı mümkün kılmak için PCI Express* (PCIe*) tabanlı Intel FPGA Programlanabilir Hızlandırma Kartları (Intel FPGA PAC) ve FPGA'lı Intel Xeon® CPU için Intel® Hızlandırma Yığını'nı içeren bir Hızlandırma Platformu sunar. Bu Intel platformları Dell EMC aracılığıyla uygun, doğrulanmış ve dağıtılmıştır. Intel Hızlandırma Platformu, Falcon Computing gibi ekosistem iş ortaklarıyla birlikte kaputun altında şeffaf donanım ile güvenilir ve kullanıma hazır bir çözüm sunar.
Şekil 1: Standart GATK ardışık düzeninde geliştirilmiş doğruluk ve hız
Falcon Çözüm Ayrıntıları:
Genom Analiz Araç Seti (GATK), genomik topluluğu tarafından kabul edilen genomik veri işleme için altın standarttır (2). En İyi Uygulama İş Akışı (BPW), Tüm Genom (WGS) gibi büyük örnekler için sonuçlar üretmek için hesaplamadaki yavaşlığı ile bilinir. Bu sorunu çözmek için Falcon Computing Solutions, BPW'yi takip eden ve birden fazla platform ve mimaride uygulanabilen esnek bir yazılım paketi geliştirdi. CPU tabanlı GATK işlem hatlarıyla karşılaştırıldığında birkaç büyüklük sırasına göre hızlıdır.
FAGP, GATK boru hattını kullanarak genomik verileri yüksek performans, doğruluk ve tekrarlanabilirlik ile uygun maliyetli bir şekilde analiz etmek için uçtan uca bir çözüm sunar. Çözüm, GATK (3) ile aynı doğrulukla 15 kata kadar hızlanma sağlar. Bu, tipik olarak 50 ila 60 saat süren bir analizin 4 saatin altında yapılabileceği anlamına gelir (3). FAGP, yüksek performanslı, güvenilir Intel Arria 10 FPGA'lar ve Intel® Xeon® işlemcilerle olağanüstü düzeyde hızlandırma ve doğruluk sağlar.
FAGP, GATK BW'yi takip eder. Hizalamadan (BWA) varyant çağrısına (HaplotypeCaller) kadar boru hatlarının birçok bileşeninde hızlandırma uygular (4). Hızlandırılmış BWA'ya ek olarak, Falcon'dan Alternatif Genomik Boru Hattı'nın bir parçası olan hizalayıcı Minimap2'nin hızlandırılmış bir versiyonunu da içerir (5). Alternatif işlem hattı daha da hızlı bir çözüm sağlar. 50x Tüm Genom Dizilimini 3 saat içinde tamamlayabilir. Her iki hizalayıcı da ek araçlar kullanmaya gerek kalmadan işaretli kopyalar ve sıralanmış okumalar oluşturma özelliğine sahiptir.
FAGP, Intel FPGA PAC platformlarını kullanarak GATK işlem hattında yoğun hesaplamayı hızlandırarak yüksek performans/verim elde eder. Bu, daha fazla CPU kaynağı ekleyerek yüksek aktarım hızı elde eden ölçeği genişletme çözümlerinden farklıdır. Bu tür ölçeği genişletme çözümleri, maliyetleri veya örnek başına gecikme süresini azaltma konusunda sınırlı yeteneğe sahiptir.
Falcon çözümünün bir diğer avantajı da GATK olarak açık bir boru hattı olmasıdır. Kullanıcılar işlem hatlarındaki tek tek adımları denetleyebilir. Ara veriler kaydedilir ve erişilebilir.
Tablo 1: Falcon Hızlandırılmış Genomik Boru Hattının Avantajları
| Falcon Hızlandırılmış Genomik Boru Hattı (FAGP) Avantajları | |
|---|---|
| Gerçek GATK | 4.0 dahil olmak üzere birden fazla GATK sürümü için destek |
| Sektör ölçeğinde | Bir günde beş tam genom veya 24 tam ekzom çalıştırın. |
| Alternatif varyant | < WGS için sahada 3 saatlik geri dönüş süresi (50X) |
| Hız | GATK en iyi uygulamaları ardışık düzenini 15 kata kadar >daha hızlı gerçekleştirin. |
| Mevcut kaldıraç | Çalışma algoritmalarını yeniden yazmaya gerek yok. |
Dell Donanım Yapılandırması
Tablo 2: Test yatağı olarak Dell EMC PowerEdge R740xd
| Dell EMC PowerEdge R740xd | |
|---|---|
| İşlemci | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| Bellek | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| Depolama | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| FPGA (FPGA) | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| Sistem Profili | Performance |
| BIOS sürümü | 2.1.3 |
| Hyperthreading (Hyperthreading) | Enabled |
| İşletim Sistemi | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Performans Değerlendirmesi
Kıyaslama testimizde, 10x, 30x ve 50x kapsama derinliğinde tüm insan genom dizileme verilerini kullandık.
Tablo 3: Test edilmiş tüm genom dizileme verileri
| Katılımı Çalıştır | Kapsama Derinliği | Veri Bağlantısı |
|---|---|---|
| ERR091571 | 10 kat | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | 30 kat | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | 50 kat | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
Sonuçlar:
Tablo 4, DELL EMC PowerEdge R740xd sunucusunda bulunan FAGP ve Intel FPGA PAC kullanarak üç test döngüsü boyunca GATK 4.0 En İyi Uygulamalar Ardışık Düzenini tamamlamak için geçen süreyi özetlemektedir.
Tablo 4: Best Practice Pipeline sürüm 2.1.1'den toplam çalışma süresi
| Örnek | Kapsama Derinliği | Ölçek 1 | Çalışma zamanı (dakika) Test 2 |
Test 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
Tablo 5, alternatif işlem hattını tamamlamak için geçen süreyi (dakika cinsinden) özetlemektedir: FAGP ve DELL EMC PowerEdge R740xd sunucusunda bulunan Intel FPGA PAC kullanılarak üç test döngüsü boyunca Falcon Germline.
Tablo 5: Alternatif Varyant Çağırma İşlem Hattı'ndan toplam çalışma süreleri
| Örnek | Kapsama Derinliği | Ölçek 1 | Çalışma zamanı (dakika) Test 2 |
Test 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Falcon Genomic Solution'ın Özeti
Falcon Hızlandırılmış Genomik Boru Hattı, yüksek verim, düşük maliyet/örnek/gün avantajı sunar. Intel FPGA Programlanabilir Hızlandırma Kartı ve sertifikalı DELL sunucusu ile birlikte FAGP, genomik dizileme uygulamalarınız için benimsenebilecek eksiksiz bir çözüm sunar.
TCGB olarak, ülke çapındaki müşterilerimize genom dizileme hizmetleri sunuyoruz. Falcon Hızlandırılmış Genomik Boru Hattı*, endüstri standardı GATK boru hatlarının doğruluğunu korurken, geri dönüşümüzü günlerden birkaç saate indirmemizi sağladı."
— Dr. Xinmin Li, UCLA Genomik ve Biyoinformatik Teknoloji Merkezi (TCGB) Direktörü
Kaynaklar
1. Genom dizilimi o kadar çok veri oluşturur ki, onunla ne yapacağımızı bilemeyiz. [Çevrimiçi] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Çevrimiçi] https://software.broadinstitute.org/gatk/
3. Hızlandırılmış Genomik [Çevrimiçi] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [İnternet üzerinden]
http://bio-bwa.sourceforge.net/bwa.shtml5. Mini harita2. [İnternet üzerinden] https://github.com/lh3/minimap2