PowerEdge: Szybsze sekwencjonowanie genomu dzięki rozwiązaniu Falcon Accelerated Genomics Pipeline (FAGP) z Intel FPGA PAC
Summary: Falcon Accelerated Genomics Pipeline z pojedynczą programowalną kartą akceleracyjną Intel FPGA może przetwarzać 50-krotnie całe ludzkie genomy w mniej niż 3 godziny za pośrednictwem potoku Alternative Variant Calling. ...
Symptoms
Falcon Accelerated Genomics Pipeline z pojedynczą programowalną kartą akceleracyjną Intel FPGA może przetwarzać 50-krotnie całe ludzkie genomy w mniej niż 3 godziny za pośrednictwem potoku Alternative Variant Calling.
Przegląd, Wyzwanie rynkowe (potrzeba), rozwiązanie Falcon odpowiada na potrzeby:
Medycyna precyzyjna, genomika i epigenetyka wykorzystują sekwencjonowanie genomu do prowadzenia badań, ulepszania diagnostyki, opracowywania farmaceutyków, podnoszenia jakości opieki zdrowotnej i optymalizacji produkcji roślinnej. Dla nauk przyrodniczych analiza genomu jest obecnie kluczowym zastosowaniem, częściowo ze względu na dużą redukcję kosztów gromadzenia danych dzięki postępom w sekwencjonowaniu nowej generacji (NGS). Oprócz zwiększonego gromadzenia danych, nastąpił również znaczny wzrost zakresu zastosowań genomicznych wykorzystywanych na uniwersytetach, w ośrodkach badań genomicznych, firmach farmaceutycznych i organizacjach opieki zdrowotnej.
Co siedem miesięcy ilość danych genomowych podwaja się (1). Wydajne i opłacalne przetwarzanie danych stało się krytyczne. Moc obliczeniowa rozwiązań opartych wyłącznie na procesorach nie skaluje się wystarczająco szybko, aby nadążyć za wzrostem ilości danych genomowych. Doprowadziło to do zapotrzebowania na akcelerację sprzętową. Akceleratory, takie jak FPGA, stają się kluczowe w spełnianiu wymagań obliczeniowych tej eksplozji danych genomowych. W porównaniu z innymi rozwiązaniami z akceleracją sprzętową Falcon Accelerated Genomics Pipeline (FAGP) oferuje elastyczność, wysoką przepustowość i niższy koszt w przeliczeniu na próbkę.
Co to jest FPGA, oferta Intel PAC i zaleta:
Układy FPGA to urządzenia krzemowe, które można dynamicznie przeprogramowywać przy użyciu ścieżki danych dokładnie odpowiadającej obciążeniom roboczym, takim jak sekwencjonowanie genomu, analiza danych lub kompresja, jak pokazano na rysunku 1. Ta wszechstronność umożliwia przydzielanie szybszego przetwarzania, bardziej energooszczędnych obliczeń i usług o mniejszych opóźnieniach w celu obniżenia całkowitego kosztu posiadania i maksymalizacji mocy obliczeniowej w ramach ograniczeń mocy, przestrzeni i chłodzenia centrów przetwarzania danych.
Tradycyjnie układy FPGA wymagają głębokiej wiedzy specjalistycznej do programowania. Aby uprościć proces rozwoju i umożliwić szybkie wdrożenie w centrum danych, firma Intel oferuje platformę akceleracyjną, która obejmuje programowalne karty akceleracyjne Intel FPGA oparte na PCI Express* (PCIe*) oraz® Intel Acceleration Stack dla procesorów Intel Xeon® z układami FPGA. Te platformy firmy Intel są kwalifikowane, weryfikowane i wdrażane przez firmę Dell EMC. Wraz z partnerami ekosystemu, takimi jak Falcon Computing, platforma Intel Acceleration Platform oferuje niezawodne i gotowe do pracy rozwiązanie z przezroczystym sprzętem pod maską.
Rysunek 1: Poprawiono dokładność i szybkość w standardowym potoku GATK
Szczegóły rozwiązania Falcon:
Genome Analysis Toolkit (GATK) to złoty standard przetwarzania danych genomowych akceptowany przez społeczność genomiczną (2). Jego Best Practice Workflow (BPW) jest dobrze znany z powolności w obliczeniach w celu generowania wyników dla dużych próbek, takich jak cały genom (WGS). Aby rozwiązać ten problem, firma Falcon Computing Solutions opracowała elastyczny pakiet narzędzi, który jest zgodny z BPW i może być wdrażany na wielu platformach i architekturach. Jest szybki o kilka rzędów wielkości w porównaniu z potokami GATK opartymi na procesorze CPU.
FAGP zapewnia kompleksowe rozwiązanie do ekonomicznej analizy danych genomowych przy użyciu potoku GATK z wysoką wydajnością, dokładnością i powtarzalnością. Rozwiązanie zapewnia do 15-krotnego przyspieszenia przy takiej samej dokładności jak GATK (3). Oznacza to, że analizę, która zwykle trwa od 50 do 60 godzin, można przeprowadzić w mniej niż 4 godziny (3). FAGP zapewnia wyjątkowy poziom przyspieszenia i dokładności dzięki wysokowydajnym, niezawodnym układom FPGA Intel Arria 10 i procesorom Intel® Xeon®.
FAGP podąża za GATK BPW. Implementuje przyspieszenie w wielu komponentach potoków od wyrównania (BWA) do wywołania wariantu (HaplotypeCaller) (4). Oprócz przyspieszonego BWA zawiera również przyspieszoną wersję nakładki Minimap2, która jest częścią alternatywnego rurociągu genomicznego firmy Falcon (5). Alternatywny potok zapewnia jeszcze szybsze rozwiązanie. Może wykonać 50-krotne sekwencjonowanie całego genomu w ciągu 3 godzin. Oba alignery posiadają funkcję generowania oznaczonych duplikatów i posortowanych odczytów bez konieczności używania dodatkowych narzędzi.
FAGP osiąga wysoką wydajność/przepustowość poprzez przyspieszenie intensywnych obliczeń w potoku GATK przy użyciu platform Intel FPGA PAC. Różni się to od rozwiązań skalowalnych w poziomie, które osiągają wysoką przepływność przez dodanie większej liczby zasobów procesora CPU. Takie skalowalne w poziomie rozwiązania mają ograniczoną zdolność do zmniejszania kosztów lub opóźnień na próbkę.
Kolejną zaletą rozwiązania Falcon jest to, że jest to otwarty pipeline jak GATK. Użytkownicy mogą kontrolować poszczególne kroki w potokach. Dane pośrednie są zapisywane i można uzyskać do nich dostęp.
Tabela 1: Zalety rozwiązania Falcon Accelerated Genomics Pipeline
| Zalety rozwiązania Falcon Accelerated Genomics Pipeline (FAGP) | |
|---|---|
| Prawdziwy GATK | Obsługa wielu wersji GATK, w tym 4.0 |
| Skala przemysłowa | Uruchom pięć całych genomów lub 24 całe eksomy w ciągu jednego dnia. |
| Wariant alternatywny | < 3-godzinny czas realizacji na miejscu dla WGS (50X) |
| Szybkość | Nawet 15 razy szybciej wykonuj potok >najlepszych praktyk GATK. |
| Wykorzystanie istniejących rozwiązań | Nie ma potrzeby przepisywania działających algorytmów. |
Konfiguracja sprzętu firmy Dell
Tabela 2: Dell EMC PowerEdge R740xd jako stanowisko testowe
| Dell EMC PowerEdge R740xd | |
|---|---|
| Procesor | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| Pamięć | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| Pamięć masowa | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| Układ FPGA | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| Profil systemu | Performance |
| Wersja systemu BIOS | 2.1.3 |
| Technologia wielowątkowości | Enabled |
| System operacyjny | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Ocena wydajności
W naszych testach porównawczych wykorzystaliśmy dane sekwencjonowania całego ludzkiego genomu przy 10-, 30-krotnej i 50-krotnej głębokości pokrycia.
Tabela 3: Przetestowane dane sekwencjonowania całego genomu
| Uruchom akcesję | Głębokość pokrycia | Łącze danych |
|---|---|---|
| ERR091571 | 10x | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | 30x | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | 50-krotnie | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
Wyniki:
Tabela 4 zawiera podsumowanie czasu potrzebnego na ukończenie procesu opracowywania najlepszych praktyk GATK 4.0 w trzech cyklach testowych przy użyciu narzędzia FAGP i układu Intel FPGA PAC umieszczonego w serwerze DELL EMC PowerEdge R740xd.
Tabela 4: Łączne środowiska uruchomieniowe z potoku najlepszych praktyk w wersji 2.1.1
| Próbka | Głębokość pokrycia | Badanie 1 | Czas działania (w minutach) Test 2 |
Test 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
W tabeli 5 podsumowano czas (w minutach) potrzebny do ukończenia alternatywnego potoku: Falcon Germline w trzech cyklach testowych z wykorzystaniem FAGP i Intel FPGA PAC umieszczonego w serwerze DELL EMC PowerEdge R740xd.
Tabela 5: Łączne środowiska uruchomieniowe z potoku wywołania alternatywnego wariantu
| Próbka | Głębokość pokrycia | Badanie 1 | Czas działania (w minutach) Test 2 |
Test 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Podsumowanie rozwiązania Falcon Genomic
Rozwiązanie Falcon Accelerated Genomics Pipeline zapewnia wysoką przepustowość i niski koszt w stosunku do liczby próbek na dzień. Wraz z programowalną kartą akceleracyjną Intel FPGA i certyfikowanym serwerem DELL, FAGP zapewnia kompletne rozwiązanie, które można zastosować w aplikacjach sekwencjonowania genomu".
W TCGB świadczymy usługi sekwencjonowania genomu dla naszych klientów w całym kraju. Falcon Accelerated Genomics Pipeline* umożliwił nam skrócenie czasu realizacji z kilku dni do kilku godzin przy jednoczesnym zachowaniu dokładności standardowych rurociągów GATK".
— Dr Xinmin Li, dyrektor Centrum Technologii Genomiki i Bioinformatyki (TCGB) na Uniwersytecie Kalifornijskim w Los Angeles
Resources
1. Sekwencjonowanie genomu tworzy tak dużo danych, że nie wiemy, co z nimi zrobić. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Przyspieszona genomika [online] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimapa 2. [Online] https://github.com/lh3/minimap2