Die Leistungsstudie mit Cascade Lake für Anwendungen in der Genomik
Zusammenfassung: HPC High Performance Computing, HPC & AI Innovation Lab, Genomics, Variant Calling, De Novo Assembly, Next Generation Sequencing, BWA-GATK, SOAPdenovo2, SPAdes, Cascade Lake
Symptome
Artikel von Kihoon Yoon vom HPC and AI Innovation Lab im Mai 2019
Ursache
Keine
Lösung
Variantenaufruf und De-novo-Assemblierung
Übersicht
Die Intel® Xeon® Scalable-Prozessoren der zweiten Generation sind ein Nachfolger von Skylake und bieten bis zu 56 Cores mit einem einzigen Prozessor (Cascade Lake AP 9282). Zusätzlich zu Intel mit mehr Cores gibt es Optane-Unterstützung, schnelleren DRAM (DDR4-2933 in 1-DPC-Konfiguration) und mehr DRAM-Konfigurationen (1 TB, 2 TB und 4 TB). Es ist klar, dass Verbraucher im Allgemeinen mehr Leistung, bessere Effizienz und geringeren Stromverbrauch von einem neueren Prozessor erwarten. Einige Kunden suchen jedoch nach Verbesserungen, die nicht so offensichtlich sind, wie z. B. Unterstützung für neue Anweisungen, mehrschichtige Umgebungsoptimierungen, Unterstützung für neue Technologien oder eine neue Produktausrichtung. Cascade Lake baut auf einem Fundament von Skylake auf und konzentriert sich auf die sekundären Eigenschaften, und die Verbesserungen sind nicht so offensichtlich.
In der Regel sind Anwendungen in der NGS-Datenanalyse (Next Generation Sequencing) Open-Source und werden nicht so schnell aktualisiert, wenn die neue Technologie aufkommt. Das bedeutet, dass sich die mit Cascade Lake eingeführten Verbesserungen mit geringerer Wahrscheinlichkeit auf die Leistung von NGS-Anwendungen auswirken.
In diesem Blog wird erläutert, wie sich Cascade Lake-CPUs bei zwei verschiedenen Genomik-Workloads verhalten: Variant Calling und De-Novo-Assemblierung .
Die detaillierten Testkonfigurationen für Variantenaufruf und De-Novo-Assemblierung sind in Tabelle 1 aufgeführt.
Tabelle 1: Testkonfiguration für Variantenaufruf und De-novo-Assemblierung
|
|
Dell PowerEdge R640 |
Dell PowerEdge R940 |
|||||||
|
Skylake |
Cascade Lake |
Skylake |
Cascade Lake |
||||||
|
CPU |
2 x 6154 |
2 x 6148 |
2 x 6152 |
2 x 6138 |
2 x 6248 |
2 x 6252 |
2 x 6230 |
4 x 8168 |
4 x 8280M |
|
Grundfrequenz (GHz) |
3.0 |
2.4 |
2.1 |
2.0 |
2.5 |
2.1 |
2.1 |
2.7 |
2.7 |
|
Anzahl Kerne |
18 |
20 |
22 |
20 |
20 |
24 |
20 |
24 |
28 |
|
TDP (W) |
200 |
150 |
140 |
140 |
150 |
125 |
125 |
205 |
205 |
|
Arbeitsspeicher |
24 x 16 GB DDR4 – 2.666 MHz, 2 DPC |
12 x 32 GB DDR4 – 2.933 MHz, 1 DPC |
48 x 32 GB DDR4 – 2.666 MHz, 2 DPC |
24 x 64 GB DDR4-2933 MHz, 1 DPC |
|||||
|
Storage |
10 x 1,2 TB SAS mit 12 Gbit/s, 10.000 in RAID 0 |
18 1,2-TB-SAS mit 12 Gbit/s, 10.000 U/min in RAID 0 |
|||||||
|
System-BIOS |
2.1.3 |
||||||||
|
Kernel |
3.10.0-957.el7.x86_64 |
||||||||
|
Betriebssystem |
Red Hat Enterprise Linux Server, Version 7.6 (Maipo) |
||||||||
|
Lesesequenz |
ERR194161, 50-faches humanes Genom für Variantenaufruf und ERR318658, 3,2 Milliarden Reads des gesamten menschlichen Genoms für die De-novo-Assemblierung |
||||||||
Variantenaufruf
BWA-GATK-Pipeline
Wie in Abbildung 1 gezeigt, verhält sich jeder Schritt auf jeder getesteten CPU ganz anders, und die Leistungsunterschiede zwischen den verschiedenen Schritten mit den getesteten CPUs liegen zwischen 0,61 % und 46,34 %. Die Unterschiede in der Gesamtlaufzeit sind jedoch nicht wirklich auffällig (Tabelle 2).
Abbildung 1 Laufzeiten der einzelnen Schritte in der Pipeline für den Variantenaufruf
Cascade Lake 6248 übertraf die meisten Schritte und die beste Gesamtlaufzeit, aber beim Schritt "Duplikate markieren" schnitt es schlecht ab und lief 27 % langsamer als Cascade Lake 6252. Es ist unklar, warum 6248 für diesen Schritt schlecht abschneidet, obwohl wiederholte Tests konsistente Ergebnisse zeigen. Angesichts dieses inkonsistenten Verhaltens in den verschiedenen Schritten ist es sinnvoller, bei der Auswahl einer geeigneten CPU für den Workflow die Gesamtleistung zu berücksichtigen.
Tabelle 2: Gesamtlaufzeitvergleiche zwischen Skylake- und Cascade Lake-CPUs
|
CPU |
Preis |
Spec |
Gesamtlaufzeit BWA-GATK (Stunden) |
|
|
Skylake |
6148 |
3.072,00 $ - 3078,00 $ |
2,4 GHz, 20 Cores, 150 W |
24.26 |
|
6154 |
3.543,00 $ |
3,0 GHz, 18 Cores, 200 W |
23.47 |
|
|
6152 |
3.655,00 $ - 3661,00 $ |
2,1 GHz, 22 Cores, 140 W |
24.58 |
|
|
6138 |
2.612,00 $ - 2618,00 $ |
2,0 GHz, 20 Cores, 125 W |
24.83 |
|
|
Cascade Lake |
6248 |
3.072,00 $ - 3.078,00 $ |
2,5 GHz, 20 Cores, 150 W |
23.36 |
|
6252 |
3.655,00 $ - 3.662,00 $ |
2,1 GHz, 24 Cores, 150 W |
23.82 |
|
|
6230 |
1.894,00 $ - 1.900,00 $ |
2,1 GHz, 20 Cores, 125 W |
23.68 |
|
Obwohl die beste Gesamtleistung mit dem Cascade Lake 6248 erreicht werden kann, ist der Cascade Lake 6230 keine schlechte Wahl für Kunden mit eingeschränkter Leistung. Da die hier gezeigten Ergebnisse auf einem Einzelprobentest basieren, ist es ohne die Ergebnisse von Durchsatztests schwer zu sagen, ob Cascade Lake 6230 und 6248 besser sind als Cascade Lake 6252. In Bezug auf den Durchsatz könnte Cascade Lake 6252 jedoch aufgrund der höheren Core-Anzahl bei Durchsatztests besser abschneiden. Es kann mehr Proben aufnehmen, die gleichzeitig verarbeitet werden können. Nichtsdestotrotz könnte der Cascade Lake 6230 die kostengünstigste Wahl unter den getesteten CPUs sein.
De-novo-Assemblierung
Für die De-Novo-Assemblierung werden Skylake 8168 und Cascade Lake 8280M mit der gleichen Menge Systemspeicher verglichen, nämlich 1,5 TB im R940. Die Wahl fiel hauptsächlich auf Cascade Lake 8280M, weil die Cores höher sind und mehr Arbeitsspeicher unterstützt werden, was vorteilhaft ist, da die Datengröße für die De-Novo-Assemblierung im Laufe der Zeit immer größer wird.
SOAPdenovo2
Der maximale Leistungsgewinn durch ein Upgrade von Skylake 8168 auf Cascade Lake 8280M beträgt etwa 1 %, wie in den 92 Cores von Skylake 8168 gegenüber 108 Cores von Cascade Lake 8280M in den Vergleichen in Abbildung 2 gezeigt. Für den Test war ein Kern pro CPU n für das Betriebssystem und andere Housekeeping-Zwecke verfügbar. Obwohl die Ergebnisse zeigen, dass Cascade Lake 8280M bei unterschiedlicher Anzahl von verwendeten Kernen im Durchschnitt um 2 % langsamer ist, bestätigten die Vergleiche zwischen 92 Kernen von 8168 und 108 Kernen von 8280M, dass Cascade Lake 8280M etwas besser abschneidet als Skylake 8168.

Abbildung 2 Diagramme zu Laufzeiten und Spitzenspeicherverbrauch für SOAPdenovo2 mit unterschiedlicher Anzahl von Kernen
SOAPdenovo2 scheint an die Speicherbandbreite gebunden zu sein. Der Spitzenspeicherverbrauch steigt ständig an, wenn mehr Cores für einen Prozess mit 1-DPC-Konfiguration auf der Cascade Lake-CPU verwendet werden, während der Spitzenspeicherverbrauch bei einer 2-DPC-Konfiguration auf der Skylake-CPU abnimmt. Wie in Abbildung 3 in unserer zuvor veröffentlichten Blogkann sich die Speicherbandbreite zwischen Konfigurationen mit 1 DPC und 2 DPC mit dem gleichen Typ von DIMMs mit doppelter Rangfolge um 11 % unterscheiden. Um eine bessere Schlussfolgerung ziehen zu können, sind weitere Tests mit Konfiguration mit 2 DPC (DDR4-2666) auf Cascade Lake 8280M-CPU erforderlich.
Pik
Cascade 8280M schneidet in allen Tests mit unterschiedlicher Anzahl von Cores besser ab. Im Vergleich zwischen CPU und CPU (Vergleich zwischen 8168 mit 92 Cores und 8280M mit 108 Cores) ist eine um 5 % bessere Leistung erreichbar, wie in Abbildung 3 dargestellt. Die Muster des Spitzenspeicherverbrauchs sind zwischen zwei CPUs nahezu ähnlich. Cascade Lake 8280M mit 1-DPC-Konfiguration weist jedoch einen höheren Speicherverbrauch auf als Skylake 8168 mit 2-DPC-Konfiguration. Obwohl die Speicherbandbreite nicht so kritisch zu sein scheint, wie wir in SOAPdenovo2-Tests sehen können, kann eine 2-DPC-Konfiguration mit DDR4-2666MHz eine bessere Konfiguration für die De-Novo-Assemblierung sein.

Abbildung 3: Diagramme zu Laufzeiten und Spitzenspeicherverbrauch für SPAs mit unterschiedlicher Anzahl von Cores
Entscheidung
Insgesamt bieten die hier getesteten Cascade Lake-CPUs bei Genomik-Workloads wie Variant Calling und De-Novo-Assemblierung keine bessere Performance gegenüber Skylake-CPUs. Eine ähnliche Leistung war in gewisser Weise zu erwarten, da die Cascade Lake CPU auf der Skylake CPU basiert und eher auf eine Verbesserung der unterstützenden Funktionalität als auf eine Verbesserung der reinen Leistung abzielt. Cascade Lake bietet jedoch im Vergleich zu Skylake mehr Auswahlmöglichkeiten im Hinblick auf niedrigere TDP und eine höhere Core-Anzahl für Workloads mit variant Calling. Es ist zu beachten, dass die Konfiguration mit 1 DPC mit DDR4-DIMMs mit 2933 MHz die Leistung für SOAPdenovo2 nicht verbessert. Für De-Novo-Assemblierungsanwendungen scheint eine größere Speicherbandbreite besser zu sein. Es gibt keinen Vorteil durch ein Upgrade des Arbeitsspeichers auf DDR4 mit 2933 MHz in 1 DPC-Konfiguration für Cascade Lake-CPUs. Es wird empfohlen, eine Konfiguration mit 2 DPC mit DDR4 mit 2.666 MHz einzurichten, insbesondere für De-Novo-Montageanwendungen .