Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Szybsze sekwencjonowanie genomu dzięki rozwiązaniu Falcon Accelerated Genomics Pipeline (FAGP) z Intel FPGA PAC

Résumé: Falcon Accelerated Genomics Pipeline z jedną programowalną kartą akceleracji Intel FPGA może przetwarzać 50x cały genom w mniej niż 3 godziny za pośrednictwem alternatywnego potoku wywoływania wariantów. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Falcon Accelerated Genomics Pipeline z jedną programowalną kartą akceleracji Intel FPGA może przetwarzać 50x cały genom w mniej niż 3 godziny za pośrednictwem alternatywnego potoku wywoływania wariantów. 

 



Omówienie, wyzwanie rynkowe (potrzeba), rozwiązanie Falcon odpowiada na potrzeby

Medycyna precyzyjna, genomika i epigenetyka wykorzystują sekwencje genomiczne do prowadzenia badań, doskonalenia diagnostyki, opracowywania produktów, zwiększania jakości opieki nad pracownikami służby zdrowia oraz optymalizacji produkcji. W przypadku nauk przyrodniczych analiza genomu jest obecnie kluczowym zastosowaniem, wynikającym częściowo z dużej redukcji kosztów gromadzenia danych z postępów w sekwencjonowaniu nowej generacji (NGS). Oprócz zwiększonego gromadzenia danych zaobserwowano również znaczny wzrost zakresu zastosowań genomicznych używanych na uniwersytetach, w centrach badań genomicznych, firmach zajmujących się zagięciami i organizacjach opieki zdrowotnej. 
Co siedem miesięcy ilość danych genomu podwaja się (1). W związku z tym przetwarzanie danych w efektywny i opłacalny sposób staje się krytyczne. Moc obliczeniowa rozwiązań opartych tylko na procesorach nie skaluje się wystarczająco szybko, aby utrzymać wzrost ilości danych genomicznych. Doprowadziło to do potrzeby przyspieszenia sprzętowego. Akceleratory, takie jak układy FPGA, stają się pivotal w zakresie dopasowywania wymagań obliczeniowych tej genomicznej eksplozji danych. W porównaniu z innymi rozwiązaniami przyspieszania sprzętowego, falcon accelerated genomics Pipeline (FAGP) zapewnia elastyczność, wysoką przepustowość i niższy koszt próbek.
 



Co to jest FPGA, oferta Intel PAC & Advantage

UKŁADY FPGA to urządzenia silikonowe, które można dynamicznie przeprogramować za pomocą ścieżki danych dokładnie odpowiadającej obciążeniu roboczemu, takiej jak sekwencjonowanie genomiczne, analiza danych lub kompresja, jak pokazano na rysunku 1. Ta wszechstronność umożliwia przydzielanie szybszego przetwarzania, bardziej energooszczędne obliczenia i obsługę z mniejszymi opóźnieniami — obniża całkowity koszt użytkowania i maksymalizuje moc obliczeniową w obrębie ograniczeń zasilania, przestrzeni i chłodzenia centrów danych. 
Tradycyjnie układy FPGA wymagają głębokiej wiedzy specjalistycznej w zakresie programowania. Aby uprościć przepływ rozwoju i umożliwić szybkie wdrożenie w centrum przetwarzania danych, firma Intel oferuje platformę przyspieszania obejmującą karty PCI Express* (PCIe*) oparte na technologii Intel FPGA Programmable Acceleration Card (Intel FPGA PAC) oraz intel® acceleration stack dla procesorów Intel Xeon® z układami FPGA. Te platformy Intel są kwalifikowane, zatwierdzone i wdrożone za pośrednictwem Dell EMC. Platforma akceleracji Intel, podobnie jak partnerzy ekosystemu, tacy jak Falcon Computing, oferuje niezawodne i gotowe do pracy rozwiązanie z przezroczystym sprzętem pod osłoną.



SLN319291_en_US__1image (12669)
Rysunek 1. Zwiększona dokładność i szybkość standardowego potoku GATK
 



Szczegóły rozwiązania Falcon:

Zestaw narzędzi do analizy genomu (GATK) to gold standard przetwarzania danych genomicznych akceptowany przez społeczność genomiki (2). Przepływ pracy w najlepszej praktyce (BPW) jest dobrze znany ze swojej wolnej obliczeń w celu generowania wyników dla dużych próbek, takich jak cały genom (WGS). Aby rozwiązać ten problem, falcon computing solutions opracował elastyczny pakiet narzędzi, które są zgodne z BPW i można go łatwo wdrożyć na wielu platformach i architekturach.  W porównaniu z potokami GATK opartymi na procesorach
jest on szybki o kilka zamówień o wielkości.FaGP to kompleksowe rozwiązanie umożliwiające opłacalną analizę danych genomicznych przy użyciu potoku GATK z wysoką wydajnością, dokładnością i powtarzalnością. Rozwiązanie zapewnia szybkość do 15x z taką samą dokładnością jak GATK (3). Oznacza to, że analizę, która zwykle trwa od 50 do 60 godzin, można przeprowadzić w mniej niż 4 godziny (3). Technologia FAGP zapewnia wyjątkowy poziom przyspieszenia i dokładności w połączeniu z wydajnymi, niezawodnymi procesorami Intel Arria 10 FPGA i Intel® Xeon®. 
FaGP jest zgodny z GATK BPW. Implementuje przyspieszenie w wielu elementach potoków, od wyrównania (BWA) do wywołania wariantu (HaplotypeCaller) (4). Oprócz przyspieszonego BWA zawiera również przyspieszoną wersję minimapy 2, która jest częścią alternatywnego potoku genomicznego firmy Falcon (5).  Alternatywny potok zapewnia jeszcze szybsze rozwiązanie. Sekwencjonowanie całego genomu 50x w ciągu 3 godzin. Oba programy wyrównywania mają funkcję generowania oznaczonych duplikatów i sortowania odczytów bez konieczności korzystania z dodatkowych narzędzi. 
FaGP osiąga wysoką wydajność/przepustowość poprzez przyspieszenie intensywnej obliczeń w potoku GATK przy użyciu platform Intel FPGA PAC. Różni się to od skalowalnych rozwiązań, które zapewniają wysoką przepustowość poprzez dodanie większej liczby zasobów procesora. Takie skalowane rozwiązania mają ograniczone możliwości redukcji kosztów lub przykładowych opóźnień.
Kolejną zaletą rozwiązania Falcon jest to, że jest to otwarty potok jako GATK. Użytkownicy mogą kontrolować poszczególne etapy w potokach. Dane pośrednie są zapisywane i dostępne.


Tabela 1 Zalety narzędzia Falcon Accelerated Genomics Pipeline

 
Zalety protokołu Falcon Accelerated Genomics Pipeline (FAGP)
True GATK Obsługa wielu wersji GATK, w tym 4.0
Skala branżowa Uruchamianie pięciu całych genomów lub 24 całych exomes w ciągu jednego dnia
Alternatywny wariant < 3-godzinny czas realizacji w trybie fabrycznym dla WGS (50x)
Szybkość Uruchamianie potoku najlepszych praktyk GATK nawet >15 razy szybciej
Wykorzystaj istniejące Nie trzeba nadpisywać działających algorytmów
 



Konfiguracja sprzętu firmy Dell

Tabela 2: Dell EMC PowerEdge R740xd jako gniazdo testowe

Dell EMC PowerEdge R740xd
Procesor 2 procesory Intel(R) Xeon(R) Gold 6148 przy 2,40 GHz
Pamięć 384 GB przy 32 modułach RDIMM 16 GB, 2666 MT/s, pamięć dwuwarstwowe
Pamięć masowa 4 dyski twarde 1,2 TB 10 tys. obr./min SAS 12 Gb/s 512n 2,5" z funkcją hot-plug w macierzy RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1,8T w programowej macierzy RAID 0
FPGA Programowalna karta akceleracji Intel Z technologią Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Profil systemu Performance (Wydajność).
Wersja systemu BIOS 2.1.3
Hyperthreading Enabled
System operacyjny Red Hat Enterprise Linux Server w wersji 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Ocena wydajności

W naszych testach porównawczych użyliśmy danych sekwencjonowania całego genomu ludzkiego na 10x, 30x i 50x głębokości.


Tabela 3 Przetestowano dane sekwencjonowania całego genomu

 
Run Emisja Głębokość zakresu Łącze danych
ERR091571 10x https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30x https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50x https://www.ebi.ac.uk/ena/data/view/ERR194161


 

Wyniki:

Tabela 4 podsumowuje czas potrzebny na ukończenie potoku najlepszych praktyk GATK 4.0 w ciągu trzech cykli testowych przy użyciu protokołu FAGP i interfejsu PAC Intel FPGA umieszczonego w serwerze DELL EMC PowerEdge R740xd.


Tabela 4. Łączny czas wykonywania z potoku najlepszych praktyk w wersji 2.1.1
Przykładowe Głębokość zakresu Test 1 Czas wykonywania (minuty)
Test 2
Test 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18

Tabela 5 podsumowuje czas (w minutach) potrzebny na ukończenie alternatywnego potoku: Falcon Germline w ciągu trzech cykli testowych z wykorzystaniem FAGP i Intel FPGA PAC umieszczone w serwerze DELL EMC PowerEdge R740xd.


Tabela 5 Łączny czas wykonywania z alternatywnego potoku wywoływania wariantów
Przykładowe Głębokość zakresu Test 1 Czas wykonywania (minuty)
Test 2
Test 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37
 



Podsumowanie rozwiązania Falcon Genomic

Potok Falcon Accelerated Genomics Pipeline zapewnia wysoką przepustowość, niski koszt/próbkę/korzyści dzienne. Wraz z programową kartą akceleracji Intel FPGA i certyfikowanym serwerem DELL, FAGP zapewnia kompletne rozwiązanie, które można łatwo wdrożyć w zastosowaniach sekwencjonowania genomu"
. W ramach usługi TCGB oferujemy usługi sekwencjonowania genomu dla naszych klientów terminali. Układ Falcon Accelerated Genomics Pipeline* umożliwił nam skrócenie czasu realizacji z kilku dni do kilku godzin przy zachowaniu dokładności standardowych potoków GATK".
— Dr Xinmin Li, dyrektor Centrum technologii genomiki i bioinformatyki (TCGB)



Resources 

1. Sekwencjonowanie genomu tworzy tyle danych, że nie wiemy, co z nim zrobić. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK. [Online]
https://software.broadinstitute.org/gatk/3. Przyspieszona genomika. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online] https://github.com/lh3/minimap2


Cause

Szybsze sekwencjonowanie genomu dzięki rozwiązaniu Falcon Accelerated Genomics Pipeline (FAGP) z Intel FPGA PAC

Résolution

Falcon Accelerated Genomics Pipeline z jedną programowalną kartą akceleracji Intel FPGA może przetwarzać 50x cały genom w mniej niż 3 godziny za pośrednictwem alternatywnego potoku wywoływania wariantów.

Propriétés de l’article


Produit concerné

Dell EMC Ready Solution Resources, PowerEdge R740XD

Dernière date de publication

03 oct. 2023

Version

4

Type d’article

Solution