Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Beschleunigung genomischer Sequenzierung mit Falcon Accelerated Genomics Pipeline (FAGP) auf Intel FPGA PAC

Résumé: Falcon Accelerated Genomics Pipeline mit einer einzigen intel FPGA Programmable Acceleration Card kann 50-mal ganzes menschliches Genom in weniger als 3 Stunden über die Alternative Variant Calling Pipeline verarbeiten. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Falcon Accelerated Genomics Pipeline mit einer einzigen intel FPGA Programmable Acceleration Card kann 50-mal ganzes menschliches Genom in weniger als 3 Stunden über die Alternative Variant Calling Pipeline verarbeiten. 

 



Übersicht, Markt-Herausforderung (Erforderlich), Falcon-Lösung erfüllt die Anforderungen

Präzisionsmedizin, Genomforschung und Epigenetik verwenden Genomsequenzierung, um Forschungen durchzuführen, die Diagnose zu verbessern, Pharmazeutika zu entwickeln, die Behandlungsqualität für Gesundheitsdienstleister zu verbessern und die Ernteproduktion zu optimieren. Für Life Sciences ist die Genomanalyse jetzt eine wichtige Anwendung, die teilweise auf die große Kostenreduzierung der Datenerfassung durch Fortschritte bei der Sequenzierung der nächsten Generation (NGS) zurückzuführen ist. Zusätzlich zur verstärkten Datenerfassung hat sich auch die Palette der genomischen Anwendungen, die an Universitäten, in Genomforschungszentren, in Pharmaunternehmen und in Gesundheitsorganisationen verwendet werden, deutlich erhöht. 
Alle sieben Monate verdoppelt sich die Menge der Genomdaten (1). Folglich ist die effiziente und kostengünstige Datenverarbeitung von entscheidender Bedeutung. Die Rechenleistung von reinen Prozessorlösungen lässt sich nicht schnell genug skalieren, um mit dem Wachstum genomischer Daten Schritt zu halten. Dies hat dazu geführt, dass hardwarebeschleunigung erforderlich ist. Beschleuniger wie FPGAs werden zu einer zentralen Rolle bei der Anpassung an die Rechenanforderungen dieser explosionsartigen Genomdaten. Im Vergleich zu anderen hardwarebeschleunigte Lösungen bietet die Falcon Accelerated Genomics Pipeline (FAGP) Flexibilität, hohen Durchsatz und niedrigere Kosten pro Beispiel.
 



Was ist FPGA, Intel PAC-Angebot > Advantage

FPGAs sind Siliziumgeräte, die dynamisch mit einem Datenpfad neu programmiert werden können, der genau zu Ihren Workloads passt, z. B. Genomsequenzierung, Datenanalyse oder Komprimierung, wie in Abbildung 1 dargestellt. Diese Vielseitigkeit ermöglicht die Bereitstellung einer schnelleren Verarbeitung, energieeffizienterer Berechnungen und eines Service mit niedrigerer Latenz . So können Sie Ihre Gesamtbetriebskosten senken und die Compute-Kapazität innerhalb der Leistungs-, Platz- und Kühlungsbeschränkungen Ihrer Rechenzentren maximieren. 
Traditionell erfordern FPGAs fundiertes Fachwissen zum Programmieren. Um den Entwicklungsablauf zu vereinfachen und eine schnelle Bereitstellung im gesamten Rechenzentrum zu ermöglichen, bietet Intel eine Beschleunigungsplattform, die PCI Express* (PCIe*) -basierte Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) und den Intel® Acceleration Stack für Intel Xeon® CPU mit FPGAs umfasst. Diese Intel Plattformen sind qualifiziert, validiert und werden über Dell EMC bereitgestellt. Zusammen mit Ökosystempartnern wie Falcon Computing bietet die Intel Acceleration Platform eine zuverlässige und einsatzbereite Lösung mit transparenter Hardware unter der Haube.



SLN319291_en_US__1image (12669)
Abbildung 1: Verbesserte Genauigkeit und Geschwindigkeit der Standardmäßigen GATK-Pipeline
 



Falcon Lösungsdetails:

Das Genomanalyse-Toolkit (GATK) ist der Goldstandard für die Verarbeitung genomischer Daten, der von der Genomik-Community akzeptiert wird (2). Der Best Practice-Workflow (BPW) ist bekannt für seine Langsamkeit bei der Berechnung, um Ergebnisse für große Stichproben wie das gesamte Genom (Whole-Genome, WGS) zu erzeugen. Um dieses Problem zu beheben, hat Falcon Computing Solutions ein flexibles Softwarepaket mit Tools entwickelt, das der BPW folgt und einfach in mehreren Plattformen und Architekturen implementiert werden kann.  Sie ist im Vergleich zu CPU-basierten GATK-Pipelines um mehrere Größenordnungen schnell.
FAGP bietet eine End-to-End-Lösung zur kosteneffizienten Analyse genomischer Daten mithilfe der GATK-Pipeline mit hoher Performance, Genauigkeit und Reproduzierbarkeit. Die Lösung bietet eine bis zu 15-fache Beschleunigung mit der gleichen Genauigkeit wie GATK (3). Das bedeutet, dass eine Analyse, die in der Regel 50 bis 60 Stunden dauert, in weniger als 4 Stunden (3) durchgeführt werden kann. FAGP bietet ein außergewöhnliches Maß an Beschleunigung und Genauigkeit in Verbindung mit leistungsfähigen, zuverlässigen Intel Arria 10 FPGAs und Intel® Xeon® Prozessoren. 
FAGP folgt GATK BPW. Es implementiert die Beschleunigung in vielen Komponenten der Pipelines von der Ausrichtung (BWA) bis hin zum Variantenaufruf (HaplotypeCaller) (4). Neben dem beschleunigten BWA umfasst er auch eine beschleunigte Version des Aligners Minimap2, die Teil der alternativen Genom-Pipeline von Falcon (5) ist.  Die alternative Pipeline bietet eine noch schnellere Lösung. Es kann innerhalb von 3 Stunden die 50-fache vollständige Genomsequenzierung abschließen. Beide Aligner verfügen über die Funktion, markierte Duplikate zu erzeugen und Lesevorgänge zu sortieren, ohne dass zusätzliche Tools verwendet werden müssen. 
FAGP erreicht hohe Performance/hohen Durchsatz durch schnellere intensive Berechnungen in der GATK-Pipeline mit Intel FPGA PAC-Plattformen. Dies unterscheidet sich von Scale-out-Lösungen, die einen hohen Durchsatz durch Hinzufügen von mehr CPU-Ressourcen erreichen. Solche Scale-out-Lösungen sind nur begrenzt in der Lage, Kosten oder Latenz pro Beispiel zu reduzieren.
Ein weiterer Vorteil der Falcon-Lösung ist, dass es sich um eine offene Pipeline als GATK handelt. Benutzer können einzelne Schritte in den Pipelines steuern. Zwischendaten werden gespeichert und können aufgerufen werden.


Tabelle 1: Vorteile der Falcon Accelerated Genomik-Pipeline

 
Vorteile der Falcon Accelerated Genomics Pipeline (FAGP)
Echter GATK Unterstützung für mehrere GATK-Versionen, einschließlich 4.0
Branchenweit Ausführen von fünf ganzen Genomen oder 24 kompletten Exomes an einem Tag
Alternative Variante < 3-Stunden-Bearbeitungszeit vor Ort für WGS (50x)
Geschwindigkeit Bis zu >15-mal schnellere Ausführung der GATK-Best-Practices-Pipeline
Nutzung vorhandener Arbeitsalgorithmen müssen nicht neu geschrieben werden
 



Dell Hardwarekonfiguration

Tabelle 2: Dell EMC PowerEdge R740xd als Testumgebung

Dell EMC PowerEdge R740xd
Prozessor 2 x Intel(R) Xeon(R) Gold 6148 CPU bei 2,40 GHz
Arbeitsspeicher 384 GB bei 32 x 16-GB-RDIMM, 2.666 MT/s, Dual Rank
Storage Hot-Plug-fähige 2,5"-SAS-Festplatte mit 4 x 1,2 TB, 10.000 1/min und 12 Gbit/s, 512n, 2,5" 2 x INTEL SSDPEDMD020T4 DC P3700, 1,8 TB in Software-RAID 0
FPGA Intel Programmable Acceleration Card mit Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Systemprofil Leistung
BIOS-Version 2.1.3
Hyperthreading Enabled
Betriebssystem Red Hat Enterprise Linux Server Version 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Performance-Bewertung

In unseren Benchmarktests verwendeten wir die gesamten menschlichen Genomsequenzdaten mit einer 10-, 30- und 50-fachen Abdeckungstiefe.


Tabelle 3 Getestete Daten zur Sequenzierung des gesamten Genoms

 

 

Ergebnisse:

In Tabelle 4 ist die Zeit für den Abschluss der GATK 4.0-Best-Practices-Pipeline über drei Testzyklen mit FAGP und intel FPGA PAC im Dell EMC PowerEdge R740xd-Server zusammengefasst.


Tabelle 4: Gesamtlaufzeiten von Best Practice Pipeline Version 2.1.1
Beispiel Abdeckungstiefe Test 1 Laufzeit (Minuten)
Test 2
Test 3
ERR091571 10 x 75.63 76.67 76.38
SRR3124837 30 x 160.00 162.77 161.38
ERR194161 50 x 242.97 250.65 247.18

Tabelle 5 fasst die Zeit (in Minuten) zusammen, die zum Abschließen der alternativen Pipeline erforderlich ist: Falcon Falcon Falcon über 3 Testzyklen mit FAGP und Intel FPGA PAC, die im Dell EMC PowerEdge R740xd-Server untergebracht sind.


Tabelle 5: Gesamtlaufzeiten aus der Pipeline für den Aufruf alternativer Varianten
Beispiel Abdeckungstiefe Test 1 Laufzeit (Minuten)
Test 2
Test 3
ERR091571 10 x 62.70 58.21 59.80
SRR3124837 30 x 130.38 129.90 129.95
ERR194161 50 x 171.52 171.87 171.37
 



Zusammenfassung der Falcon Genomic-Lösung

Die Falcon Accelerated Genomics Pipeline bietet hohen Durchsatz, geringe Kosten/Stichproben-/Tagesvorteile. Zusammen mit der intel FPGA Programmable Acceleration Card und dem zertifizierten Dell Server bietet FAGP eine umfassende Lösung, die sich problemlos für Ihre Genomsequenzierungsanwendungen einsetzen lässt.
" Bei TCGB bieten wir unseren nationalen Kunden Genomsequenzierungsservices an. Mit der Falcon Accelerated Genomics Pipeline* konnten wir unsere Bearbeitungszeit von Tagen auf wenige Stunden reduzieren und gleichzeitig die Genauigkeit von GATK-Pipelines nach Branchenstandard aufrechterhalten."
— Dr. Xinmin Li, Director of Technology Center for Genomics & Bioinformatics (TCGB) UCLA



Ressourcen 

1. Die Sequenzierung des Genoms erzeugt so viele Daten, dass wir nicht wissen, was wir damit tun sollen. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK. [Online]
https://software.broadinstitute.org/gatk/3. Beschleunigte Genomik. [Online]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [Online] https://github.com/lh3/minimap2


Cause

Beschleunigung genomischer Sequenzierung mit Falcon Accelerated Genomics Pipeline (FAGP) auf Intel FPGA PAC

Résolution

Falcon Accelerated Genomics Pipeline mit einer einzigen intel FPGA Programmable Acceleration Card kann 50-mal ganzes menschliches Genom in weniger als 3 Stunden über die Alternative Variant Calling Pipeline verarbeiten.

Propriétés de l’article


Produit concerné

Dell EMC Ready Solution Resources, PowerEdge R740XD

Dernière date de publication

03 oct. 2023

Version

4

Type d’article

Solution