PowerEdge: Beschleunigung genomischer Sequenzierung mit Falcon Accelerated Genomics Pipeline (FAGP) auf Intel FPGA PAC
Summary: Die Falcon Accelerated Genomics Pipeline mit einer einzigen programmierbaren Intel FPGA Acceleration Card kann 50-fache menschliche Genome in weniger als 3 Stunden über Alternative Variant Calling Pipeline verarbeiten. ...
Symptoms
Die Falcon Accelerated Genomics Pipeline mit einer einzigen programmierbaren Intel FPGA Acceleration Card kann 50-fache menschliche Genome in weniger als 3 Stunden über Alternative Variant Calling Pipeline verarbeiten.
Übersicht, Marktherausforderung (Bedarf), Falcon-Lösung ist die Antwort auf den Bedarf:
Präzisionsmedizin, Genomik und Epigenetik nutzen die Genomsequenzierung, um Forschung zu betreiben, Diagnosen zu verbessern, Arzneimittel zu entwickeln, die Qualität der Gesundheitsversorgung zu verbessern und die Pflanzenproduktion zu optimieren. Für die Biowissenschaften ist die Genomanalyse heute eine Schlüsselanwendung, was zum Teil auf die erheblichen Kostensenkungen bei der Datenerfassung durch Fortschritte bei der Sequenzierung der nächsten Generation (Next Generation Sequencing, NGS) zurückzuführen ist. Neben der verstärkten Datenerfassung hat auch das Angebot an genomischen Anwendungen, die von Universitäten, Genomforschungszentren, Pharmaunternehmen und Gesundheitsorganisationen verwendet werden, erheblich zugenommen.
Alle sieben Monate verdoppelt sich die Menge der Genomdaten (1). Eine effiziente und kostengünstige Datenverarbeitung ist von entscheidender Bedeutung. Die Rechenleistung von reinen Prozessorlösungen skaliert nicht schnell genug, um mit dem Wachstum genomischer Daten Schritt zu halten. Dies hat dazu geführt, dass die Hardware beschleunigt werden muss. Accelerators wie FPGAs spielen eine entscheidende Rolle, wenn es darum geht, die Rechenanforderungen dieser explosionsartigen Zunahme genomischer Daten zu erfüllen. Im Vergleich zu anderen hardwarebeschleunigten Lösungen bietet die Falcon Accelerated Genomics Pipeline (FAGP) Flexibilität, hohen Durchsatz und niedrigere Kosten pro Probe.
Was ist FPGA, Intel PAC Angebot und Vorteil:
FPGAs sind Siliziumgeräte, die dynamisch mit einem Datenpfad neu programmiert werden können, der genau Ihren Workloads entspricht, z. B. Genomsequenzierung, Data Analytics oder Komprimierung, wie in Abbildung 1 dargestellt. Dank dieser Flexibilität können Sie schnellere Verarbeitungen, energieeffizientere Berechnungen und Services mit geringerer Latenz bereitstellen. So senken Sie Ihre Gesamtbetriebskosten und maximieren die Compute-Kapazität unter den Energie-, Platz- und Kühlungsbeschränkungen Ihrer Rechenzentren.
Traditionell erfordern FPGAs tiefgreifendes Fachwissen in der jeweiligen Domäne, um programmiert zu werden. Um den Entwicklungsablauf zu vereinfachen und eine schnelle Bereitstellung im gesamten Rechenzentrum zu ermöglichen, bietet Intel eine Acceleration Platform an, die PCI Express* (PCIe*)-basierte Intel FPGA Programmable Accelerator Cards (Intel FPGA PAC) und den Intel® Acceleration Stack für Intel Xeon® CPU mit FPGAs umfasst. Diese Intel Plattformen werden von Dell EMC qualifiziert, validiert und bereitgestellt. Zusammen mit Ökosystempartnern wie Falcon Computing bietet die Intel Acceleration Platform eine zuverlässige und sofort einsatzbereite Lösung mit transparenter Hardware unter der Haube.
Abbildung 1: Verbesserte Genauigkeit und Geschwindigkeit bei Standard-GATK-Pipelines
Details zur Falcon-Lösung:
Das Genome Analysis Toolkit (GATK) ist der von der Genomik-Community akzeptierte Goldstandard für die Verarbeitung genomischer Daten (2). Der Best Practice Workflow (BPW) ist bekannt für seine langsame Berechnung, um Ergebnisse für große Stichproben wie Whole-Genome (WGS) zu generieren. Um dieses Problem zu lösen, hat Falcon Computing Solutions ein flexibles Softwarepaket von Tools entwickelt, das dem BPW folgt und in mehreren Plattformen und Architekturen implementiert werden kann. Sie ist im Vergleich zu CPU-basierten GATK-Pipelines um mehrere Größenordnungen schneller.
FAGP bietet eine End-to-End-Lösung zur kostengünstigen Analyse genomischer Daten unter Verwendung der GATK-Pipeline mit hoher Leistung, Genauigkeit und Reproduzierbarkeit. Die Lösung bietet eine bis zu 15-fache Beschleunigung mit der gleichen Genauigkeit wie GATK (3). Das bedeutet, dass eine Analyse, die normalerweise 50 bis 60 Stunden dauert, in weniger als 4 Stunden durchgeführt werden kann (3). FAGP bietet ein außergewöhnliches Maß an Beschleunigung und Genauigkeit mit leistungsstarken, zuverlässigen Intel Arria 10 FPGAs und Intel® Xeon® Prozessoren.
FAGP folgt GATK BPW. Es implementiert die Beschleunigung in vielen Komponenten der Pipelines vom Alignment (BWA) zum Variantenaufruf (HaplotypeCaller) (4). Neben der beschleunigten BWA enthält es auch eine beschleunigte Version des Aligners Minimap2, der Teil der alternativen Genompipeline von Falcon (5) ist. Die alternative Pipeline bietet eine noch schnellere Lösung. Es kann die 50-fache Sequenzierung des gesamten Genoms innerhalb von 3 Stunden abschließen. Beide Aligner verfügen über die Funktion, markierte Duplikate und sortierte Lesevorgänge zu erzeugen, ohne dass zusätzliche Werkzeuge verwendet werden müssen.
FAGP erzielt eine hohe Performance/einen hohen Durchsatz durch die Beschleunigung intensiver Berechnungen in der GATK-Pipeline mithilfe von Intel FPGA PAC-Plattformen. Dies unterscheidet sich von Scale-out-Lösungen, die durch Hinzufügen weiterer CPU-Ressourcen einen hohen Durchsatz erzielen. Solche Scale-out-Lösungen sind nur begrenzt in der Lage, Kosten oder die Latenz pro Stichprobe zu reduzieren.
Ein weiterer Vorteil der Falcon-Lösung ist, dass es sich um eine offene Pipeline wie GATK handelt. Nutzer können einzelne Schritte in den Pipelines steuern. Zwischendaten werden gespeichert und können abgerufen werden.
Tabelle 1: Vorteile der Falcon Accelerated Genomics Pipeline
| Vorteile der Falcon Accelerated Genomics Pipeline (FAGP) | |
|---|---|
| Echtes GATK | Unterstützung für mehrere GATK-Versionen, einschließlich 4.0 |
| Branchenweit | Führen Sie fünf ganze Genome oder 24 ganze Exome an einem Tag aus. |
| Alternative Variante | < 3 Stunden Bearbeitungszeit vor Ort für WGS (50X) |
| Geschwindigkeit | Führen Sie die GATK-Best-Practices-Pipeline bis zu >15-mal schneller aus. |
| Nutzung vorhandener | Es ist nicht erforderlich, Arbeitsalgorithmen neu zu schreiben. |
Dell Hardwarekonfiguration
Tabelle 2: Dell EMC PowerEdge R740xd als Testumgebung
| Dell EMC PowerEdge R740xd | |
|---|---|
| Prozessor | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| Arbeitsspeicher | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| Storage | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| FPGA | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| Systemprofil | Performance |
| BIOS-Version | 2.1.3 |
| Hyperthreading | Enabled |
| Betriebssystem | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Performance-Bewertung
In unseren Benchmarktests haben wir Sequenzierungsdaten des gesamten menschlichen Genoms mit einer 10-fachen, 30-fachen und 50-fachen Abdeckungstiefe verwendet.
Tabelle 3: Getestete Daten zur Sequenzierung des gesamten Genoms
| Zugriff ausführen | Tiefe der Abdeckung | Sicherungsdienst |
|---|---|---|
| ERR091571 | 10-fach | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | 30-fach | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | 50-fach | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
Ergebnisse:
In Tabelle 4 ist der Zeitaufwand für die Umsetzung der GATK 4.0-Best-Practices-Pipeline über drei Testzyklen mit FAGP und dem Intel FPGA-PAC im DELL EMC PowerEdge R740xd-Server zusammengefasst.
Tabelle 4: Gesamtlaufzeiten von Best Practice Pipeline Version 2.1.1
| Probe | Tiefe der Abdeckung | Test 1 | Laufzeit (Minuten) Test 2 |
Test 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
In Tabelle 5 ist die Zeit (in Minuten) zusammengefasst, die zum Abschließen der alternativen Pipeline erforderlich ist: Falcon Germline über drei Testzyklen mit FAGP und dem Intel FPGA PAC im DELL EMC PowerEdge R740xd-Server.
Tabelle 5: Gesamtlaufzeiten der Pipeline für alternative Variantenaufrufe
| Probe | Tiefe der Abdeckung | Test 1 | Laufzeit (Minuten) Test 2 |
Test 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Zusammenfassung der Falcon Genomic Solution
Die Falcon Accelerated Genomics Pipeline bietet einen hohen Durchsatz bei niedrigen Kosten pro Probe und Tag. Zusammen mit der programmierbaren Intel FPGA-Beschleunigungskarte und dem zertifizierten DELL-Server bietet FAGP eine Komplettlösung, die für Ihre Anwendungen zur Genomsequenzierung eingesetzt werden kann."
Bei TCGB bieten wir unseren landesweiten Kunden Genomsequenzierungsdienste an. Die Falcon Accelerated Genomics Pipeline* hat es uns ermöglicht, unsere Bearbeitungszeit von Tagen auf wenige Stunden zu verkürzen und gleichzeitig die Genauigkeit von branchenüblichen GATK-Pipelines beizubehalten."
— Dr. Xinmin Li, Direktor des Technologiezentrums für Genomik und Bioinformatik (TCGB) UCLA
Ressourcen
1. Bei der Sequenzierung des Genoms fallen so viele Daten an, dass wir nicht wissen, was wir damit anfangen sollen. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Beschleunigte Genomik [Online] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [Online]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minikarte2. [Online] https://github.com/lh3/minimap2