PowerEdge: Beschleunigung genomischer Sequenzierung mit Falcon Accelerated Genomics Pipeline (FAGP) auf Intel FPGA PAC

Summary: Die Falcon Accelerated Genomics Pipeline mit einer einzigen programmierbaren Intel FPGA Acceleration Card kann 50-fache menschliche Genome in weniger als 3 Stunden über Alternative Variant Calling Pipeline verarbeiten. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Die Falcon Accelerated Genomics Pipeline mit einer einzigen programmierbaren Intel FPGA Acceleration Card kann 50-fache menschliche Genome in weniger als 3 Stunden über Alternative Variant Calling Pipeline verarbeiten. 

 



Übersicht, Marktherausforderung (Bedarf), Falcon-Lösung ist die Antwort auf den Bedarf:

Präzisionsmedizin, Genomik und Epigenetik nutzen die Genomsequenzierung, um Forschung zu betreiben, Diagnosen zu verbessern, Arzneimittel zu entwickeln, die Qualität der Gesundheitsversorgung zu verbessern und die Pflanzenproduktion zu optimieren. Für die Biowissenschaften ist die Genomanalyse heute eine Schlüsselanwendung, was zum Teil auf die erheblichen Kostensenkungen bei der Datenerfassung durch Fortschritte bei der Sequenzierung der nächsten Generation (Next Generation Sequencing, NGS) zurückzuführen ist. Neben der verstärkten Datenerfassung hat auch das Angebot an genomischen Anwendungen, die von Universitäten, Genomforschungszentren, Pharmaunternehmen und Gesundheitsorganisationen verwendet werden, erheblich zugenommen. 
Alle sieben Monate verdoppelt sich die Menge der Genomdaten (1). Eine effiziente und kostengünstige Datenverarbeitung ist von entscheidender Bedeutung. Die Rechenleistung von reinen Prozessorlösungen skaliert nicht schnell genug, um mit dem Wachstum genomischer Daten Schritt zu halten. Dies hat dazu geführt, dass die Hardware beschleunigt werden muss. Accelerators wie FPGAs spielen eine entscheidende Rolle, wenn es darum geht, die Rechenanforderungen dieser explosionsartigen Zunahme genomischer Daten zu erfüllen. Im Vergleich zu anderen hardwarebeschleunigten Lösungen bietet die Falcon Accelerated Genomics Pipeline (FAGP) Flexibilität, hohen Durchsatz und niedrigere Kosten pro Probe.
 



Was ist FPGA, Intel PAC Angebot und Vorteil:

FPGAs sind Siliziumgeräte, die dynamisch mit einem Datenpfad neu programmiert werden können, der genau Ihren Workloads entspricht, z. B. Genomsequenzierung, Data Analytics oder Komprimierung, wie in Abbildung 1 dargestellt. Dank dieser Flexibilität können Sie schnellere Verarbeitungen, energieeffizientere Berechnungen und Services mit geringerer Latenz bereitstellen. So senken Sie Ihre Gesamtbetriebskosten und maximieren die Compute-Kapazität unter den Energie-, Platz- und Kühlungsbeschränkungen Ihrer Rechenzentren. 
Traditionell erfordern FPGAs tiefgreifendes Fachwissen in der jeweiligen Domäne, um programmiert zu werden. Um den Entwicklungsablauf zu vereinfachen und eine schnelle Bereitstellung im gesamten Rechenzentrum zu ermöglichen, bietet Intel eine Acceleration Platform an, die PCI Express* (PCIe*)-basierte Intel FPGA Programmable Accelerator Cards (Intel FPGA PAC) und den Intel® Acceleration Stack für Intel Xeon® CPU mit FPGAs umfasst. Diese Intel Plattformen werden von Dell EMC qualifiziert, validiert und bereitgestellt. Zusammen mit Ökosystempartnern wie Falcon Computing bietet die Intel Acceleration Platform eine zuverlässige und sofort einsatzbereite Lösung mit transparenter Hardware unter der Haube.

SLN319291_en_US__1image(12669)
Abbildung 1: Verbesserte Genauigkeit und Geschwindigkeit bei Standard-GATK-Pipelines
 



Details zur Falcon-Lösung:

Das Genome Analysis Toolkit (GATK) ist der von der Genomik-Community akzeptierte Goldstandard für die Verarbeitung genomischer Daten (2). Der Best Practice Workflow (BPW) ist bekannt für seine langsame Berechnung, um Ergebnisse für große Stichproben wie Whole-Genome (WGS) zu generieren. Um dieses Problem zu lösen, hat Falcon Computing Solutions ein flexibles Softwarepaket von Tools entwickelt, das dem BPW folgt und in mehreren Plattformen und Architekturen implementiert werden kann. Sie ist im Vergleich zu CPU-basierten GATK-Pipelines um mehrere Größenordnungen schneller.
FAGP bietet eine End-to-End-Lösung zur kostengünstigen Analyse genomischer Daten unter Verwendung der GATK-Pipeline mit hoher Leistung, Genauigkeit und Reproduzierbarkeit. Die Lösung bietet eine bis zu 15-fache Beschleunigung mit der gleichen Genauigkeit wie GATK (3). Das bedeutet, dass eine Analyse, die normalerweise 50 bis 60 Stunden dauert, in weniger als 4 Stunden durchgeführt werden kann (3). FAGP bietet ein außergewöhnliches Maß an Beschleunigung und Genauigkeit mit leistungsstarken, zuverlässigen Intel Arria 10 FPGAs und Intel® Xeon® Prozessoren. 
FAGP folgt GATK BPW. Es implementiert die Beschleunigung in vielen Komponenten der Pipelines vom Alignment (BWA) zum Variantenaufruf (HaplotypeCaller) (4). Neben der beschleunigten BWA enthält es auch eine beschleunigte Version des Aligners Minimap2, der Teil der alternativen Genompipeline von Falcon (5) ist. Die alternative Pipeline bietet eine noch schnellere Lösung. Es kann die 50-fache Sequenzierung des gesamten Genoms innerhalb von 3 Stunden abschließen. Beide Aligner verfügen über die Funktion, markierte Duplikate und sortierte Lesevorgänge zu erzeugen, ohne dass zusätzliche Werkzeuge verwendet werden müssen. 
FAGP erzielt eine hohe Performance/einen hohen Durchsatz durch die Beschleunigung intensiver Berechnungen in der GATK-Pipeline mithilfe von Intel FPGA PAC-Plattformen. Dies unterscheidet sich von Scale-out-Lösungen, die durch Hinzufügen weiterer CPU-Ressourcen einen hohen Durchsatz erzielen. Solche Scale-out-Lösungen sind nur begrenzt in der Lage, Kosten oder die Latenz pro Stichprobe zu reduzieren.
Ein weiterer Vorteil der Falcon-Lösung ist, dass es sich um eine offene Pipeline wie GATK handelt. Nutzer können einzelne Schritte in den Pipelines steuern. Zwischendaten werden gespeichert und können abgerufen werden.


Tabelle 1: Vorteile der Falcon Accelerated Genomics Pipeline

 

Vorteile der Falcon Accelerated Genomics Pipeline (FAGP)
Echtes GATK Unterstützung für mehrere GATK-Versionen, einschließlich 4.0
Branchenweit Führen Sie fünf ganze Genome oder 24 ganze Exome an einem Tag aus.
Alternative Variante < 3 Stunden Bearbeitungszeit vor Ort für WGS (50X)
Geschwindigkeit Führen Sie die GATK-Best-Practices-Pipeline bis zu >15-mal schneller aus.
Nutzung vorhandener Es ist nicht erforderlich, Arbeitsalgorithmen neu zu schreiben.
 



Dell Hardwarekonfiguration

Tabelle 2: Dell EMC PowerEdge R740xd als Testumgebung

Dell EMC PowerEdge R740xd
Prozessor 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
Arbeitsspeicher 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank
Storage 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0
FPGA Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Systemprofil Performance
BIOS-Version 2.1.3
Hyperthreading Enabled
Betriebssystem Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Performance-Bewertung

In unseren Benchmarktests haben wir Sequenzierungsdaten des gesamten menschlichen Genoms mit einer 10-fachen, 30-fachen und 50-fachen Abdeckungstiefe verwendet.


Tabelle 3: Getestete Daten zur Sequenzierung des gesamten Genoms
 

Zugriff ausführen Tiefe der Abdeckung Sicherungsdienst
ERR091571 10-fach https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30-fach https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50-fach https://www.ebi.ac.uk/ena/data/view/ERR194161



 

Ergebnisse:

In Tabelle 4 ist der Zeitaufwand für die Umsetzung der GATK 4.0-Best-Practices-Pipeline über drei Testzyklen mit FAGP und dem Intel FPGA-PAC im DELL EMC PowerEdge R740xd-Server zusammengefasst.


Tabelle 4: Gesamtlaufzeiten von Best Practice Pipeline Version 2.1.1

Probe Tiefe der Abdeckung Test 1 Laufzeit (Minuten)
Test 2
Test 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18


In Tabelle 5 ist die Zeit (in Minuten) zusammengefasst, die zum Abschließen der alternativen Pipeline erforderlich ist: Falcon Germline über drei Testzyklen mit FAGP und dem Intel FPGA PAC im DELL EMC PowerEdge R740xd-Server.


Tabelle 5: Gesamtlaufzeiten der Pipeline für alternative Variantenaufrufe

Probe Tiefe der Abdeckung Test 1 Laufzeit (Minuten)
Test 2
Test 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37

 



Zusammenfassung der Falcon Genomic Solution

Die Falcon Accelerated Genomics Pipeline bietet einen hohen Durchsatz bei niedrigen Kosten pro Probe und Tag. Zusammen mit der programmierbaren Intel FPGA-Beschleunigungskarte und dem zertifizierten DELL-Server bietet FAGP eine Komplettlösung, die für Ihre Anwendungen zur Genomsequenzierung eingesetzt werden kann."
Bei TCGB bieten wir unseren landesweiten Kunden Genomsequenzierungsdienste an. Die Falcon Accelerated Genomics Pipeline* hat es uns ermöglicht, unsere Bearbeitungszeit von Tagen auf wenige Stunden zu verkürzen und gleichzeitig die Genauigkeit von branchenüblichen GATK-Pipelines beizubehalten."
— Dr. Xinmin Li, Direktor des Technologiezentrums für Genomik und Bioinformatik (TCGB) UCLA



Ressourcen 

1. Bei der Sequenzierung des Genoms fallen so viele Daten an, dass wir nicht wissen, was wir damit anfangen sollen. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Beschleunigte Genomik [Online] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minikarte2. [Online] https://github.com/lh3/minimap2


 

Cause

Beschleunigung genomischer Sequenzierung mit FAGP (Falcon Accelerated Genomics Pipeline) auf Intel FPGA PAC

Resolution

Die Falcon Accelerated Genomics Pipeline mit einer einzigen programmierbaren Intel FPGA Acceleration Card kann 50-fache menschliche Genome in weniger als 3 Stunden über Alternative Variant Calling Pipeline verarbeiten.

Affected Products

Dell EMC Ready Solution Resources, OEMR R740xd, PowerEdge R740XD
Article Properties
Article Number: 000136278
Article Type: Solution
Last Modified: 08 Sep 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.