The Performance study with Cascade Lake for Genomics Applications
Riepilogo: HPC High Performance Computing, HPC & AI Innovation Lab, genomica, chiamata delle varianti, assemblaggio de novo, sequenziamento di nuova generazione, BWA-GATK, SOAPdenovo2, SPAdes, Cascade Lake ...
Sintomi
Articolo scritto da Kihoon Yoon di HPC and AI Innovation Lab nel maggio 2019
Causa
None
Risoluzione
Chiamata delle varianti e montaggio De novo
Panoramica
La seconda generazione di processori scalabili Intel® Xeon® è il successore di Skylake e offre fino a 56 core con un singolo processore (Cascade Lake AP 9282). Oltre a Intel che offre più core, c'è il supporto per Optane, DRAM più veloci (DDR4-2933 in configurazione 1 DPC) e più configurazioni DRAM (1 TB, 2 TB e 4 TB). È chiaro che i consumatori generalmente si aspettano più prestazioni, una migliore efficienza e una potenza inferiore da un processore più recente. Tuttavia, alcuni clienti cercano miglioramenti che non sono così evidenti, come il supporto per nuove istruzioni, ottimizzazioni dell'ecosistema a più livelli, supporto per nuove tecnologie o una nuova direzione del prodotto. Cascade Lake si basa su una base di Skylake concentrandosi sulle caratteristiche secondarie e i miglioramenti non sono così evidenti.
In genere, le applicazioni nell'analisi dei dati NGS (Next Generation Sequencing) sono open source e non verranno aggiornate con la stessa velocità con l'emergere della nuova tecnologia. Ciò significa che i miglioramenti apportati con Cascade Lake hanno meno probabilità di influire sulle prestazioni delle applicazioni NGS.
Questo blog illustra il comportamento delle CPU Cascade Lake su due diversi carichi di lavoro di genomica, Variant Calling e De Novo Assembly.
Le configurazioni di prova dettagliate per la chiamata delle varianti e il montaggio De Novo sono elencate nella Tabella 1.
Tabella 1 Configurazione di prova per la chiamata delle varianti e l'assemblaggio De Novo
|
|
Dell PowerEdge R640 |
Dell PowerEdge R940 |
|||||||
|
Lago Celeste |
Lago Cascade |
Lago Celeste |
Lago Cascade |
||||||
|
CPU |
2x 6154 |
2x 6148 |
2x 6152 |
2x 6138 |
2x 6248 |
2x 6252 |
2 moduli 6230 |
4x 8168 |
4 unità 8280M |
|
Frequenza di base (GHz) |
3.0 |
2,4 |
2.1 |
2.0 |
2.5 |
2.1 |
2.1 |
2.7 |
2.7 |
|
Numero di core |
18 |
20 |
22 |
20 |
20 |
24 |
20 |
24 |
28 |
|
TDP (W) |
200 |
150 |
140 |
140 |
150 |
125 |
125 |
205 |
205 |
|
Memoria |
24 DDR4 a 2.666 MHz da 16 GB, 2 DPC |
12 DDR4 a 2.933 MHz da 32 GB, 1 DPC |
48 DDR4 a 2.666 MHz da 32 GB, 2 DPC |
24 DDR4 da 64 GB a 2.933 MHz, 1 DPC |
|||||
|
Storage |
10 unità SAS da 1,2 TB, 12 Gb/s, 10.000 in RAID 0 |
18 unità SAS da 1,2 TB, 12 Gb/s, 10.000 rpm in RAID 0 |
|||||||
|
BIOS di sistema |
2.1.3 |
||||||||
|
Kernel |
3.10.0-957.el7.x86_64 |
||||||||
|
Sistema operativo |
Red Hat Enterprise Linux Server versione 7.6 (Maipo) |
||||||||
|
Letture in sequenza |
ERR194161, l'intero genoma umano 50x per la chiamata delle varianti e ERR318658, 3,2 miliardi di letture dell'intero genoma umano per l'assemblaggio de novo |
||||||||
Chiamata variante
BWA-GATK Pipeline
Come illustrato nella Figura 1, ogni passaggio si comporta in modo molto diverso su ogni CPU testata e le differenze di prestazioni tra i diversi passaggi con le CPU testate variano dallo 0,61% al 46,34%. Tuttavia, le differenze nel runtime complessivo non sono particolarmente significative (Tabella 2).
Figura 1 Runtime di ogni passaggio nella pipeline Variant Calling
Cascade Lake 6248 ha superato le prestazioni nella maggior parte dei passaggi e nel miglior runtime complessivo, ma ha ottenuto prestazioni scarse nella fase "Mark Duplicates", con un rallentamento del 27% rispetto a Cascade Lake 6252. Non è chiaro il motivo per cui 6248 si comporta male per questo passaggio, anche se i test ripetuti mostrano risultati coerenti. Con questo comportamento incoerente nei diversi passaggi, è più opportuno considerare le prestazioni complessive quando si seleziona una CPU appropriata per il flusso di lavoro.
Tabella 2 Confronto del runtime totale tra CPU Skylake e Cascade Lake
|
CPU |
Prezzo |
Spec |
Runtime BWA-GATK totale (ore) |
|
|
Lago Celeste |
6148 |
3.072,00 USD - 3.078,00 USD |
2,4 GHz, 20 core, 150 W |
24.26 |
|
6154 |
$3.543,00 |
3,0 GHz, 18 core, 200 W |
23.47 |
|
|
6152 |
3.655,00 USD - 3.661,00 USD |
2,1 GHz, 22 core, 140 W |
24.58 |
|
|
6138 |
$ 2.612,00 - $ 2.618,00 |
2,0 GHz, 20 core, 125 W |
24.83 |
|
|
Lago Cascade |
6248 |
3.072,00 USD - 3.078,00 USD |
2,5 GHz, 20 core, 150 W |
23.36 |
|
6252 |
3.655,00 USD - 3.662,00 USD |
2,1 GHz, 24 core, 150 W |
23.82 |
|
|
6230 |
$ 1.894,00 - $ 1.900,00 |
2,1 GHz, 20 core, 125 W |
23.68 |
|
Sebbene sia possibile ottenere le migliori prestazioni complessive con Cascade Lake 6248, Cascade Lake 6230 non è una cattiva scelta per i clienti con potenza limitata. Poiché i risultati mostrati qui si basano su un test a campione singolo, è difficile concludere se Cascade Lake 6230 e 6248 siano migliori di Cascade Lake 6252 senza i risultati dei test di throughput. Tuttavia, in considerazione del throughput, Cascade Lake 6252 potrebbe superare le prestazioni nei test di throughput a causa del numero di core più elevato. Può ospitare più campioni da elaborare contemporaneamente. Ciononostante, Cascade Lake 6230 potrebbe essere la scelta più conveniente tra le CPU testate.
Assemblea de novo
Per il de novo assembly, Skylake 8168 e Cascade Lake 8280M vengono confrontati con la stessa quantità di memoria di sistema, 1,5 TB in R940. Il motivo principale per cui è stato scelto Cascade Lake 8280M è il maggior numero di core e il fatto che supporta più memoria, il che è vantaggioso in quanto le dimensioni dei dati per l'assemblaggio De Novo continuano a crescere nel tempo.
SAPPONEdenovo2
Il massimo guadagno di prestazioni con l'upgrade da Skylake 8168 a Cascade Lake 8280M è di circa l'1%, come mostrato nei confronti con 92 core di Skylake 8168 rispetto ai 108 core di Cascade Lake 8280M della Figura 2. Per il test, un core per CPU è stato n lasciato per il sistema operativo e altri usi domestici. Sebbene i risultati mostrino che Cascade Lake 8280M è più lento in media del 2% con vari numeri di core utilizzati, i confronti tra 92 core di 8168 e 108 core di 8280M hanno confermato che Cascade Lake 8280M ha prestazioni leggermente migliori di Skylake 8168.

Figura 2 Grafici di runtime e consumo di memoria di picco per SOAPdenovo2 con un numero diverso di core
SOAPdenovo2 sembra essere limitato alla larghezza di banda della memoria. Il consumo di memoria di picco aumenta costantemente man mano che vengono utilizzati più core per un processo con configurazione a 1 DPC su CPU Cascade Lake, mentre il consumo di memoria di picco diminuisce con una configurazione a 2 DPC su CPU Skylake. Come illustrato nella Figura 3 nella nostra blog, la larghezza di banda della memoria può differire dell 11% tra le configurazioni a 1 DPC e a 2 DPC con lo stesso tipo di DIMM dual-rank. Per trarre una conclusione migliore, sono necessari ulteriori test con la configurazione a 2 DPC (DDR4-2666) su CPU Cascade Lake 8280M.
Picche
Il modello 8280M Cascade ottiene prestazioni migliori nei test con un numero diverso di core e nel confronto tra CPU e CPU è possibile ottenere prestazioni migliori del 5% (confronto tra 8168 a 92 core e 8280M a 108 core), come illustrato nella Figura 3. I modelli di consumo di memoria di picco sono quasi simili tra due CPU; tuttavia, Cascade Lake 8280M con configurazione a 1 DPC mostra consumi di memoria più elevati rispetto a Skylake 8168 con configurazione a 2 DPC. Sebbene la larghezza di banda della memoria non sembri essere così critica come possiamo vedere dai test SOAPdenovo2, la configurazione a 2 DPC con DDR4-2666 MHz può essere una configurazione migliore per l'assemblaggio De Novo .

Figura 3 Grafici di runtime e consumo di memoria di picco per SPAde con un numero diverso di core
Conclusione
Nel complesso, le CPU Cascade Lake testate qui non offrono prestazioni superiori rispetto alle CPU Skylake per i carichi di lavoro di genomica come Variant Calling e De Novo Assembly. Prestazioni simili erano in qualche modo previste dal momento che la CPU Cascade Lake è basata sulla CPU Skylake e mira a migliorare la funzionalità di supporto piuttosto che migliorare le prestazioni pure. Tuttavia, Cascade Lake offre più scelte rispetto a Skylake in termini di TDP inferiore e numero di core più elevato per i tipi di carichi di lavoro Variant Calling. Si noti che la configurazione a 1 DPC con DIMM DDR4 a 2.933 MHz non migliora le prestazioni per SOAPdenovo2. Per le applicazioni del De Novo Assembly, una larghezza di banda della memoria maggiore sembra essere migliore. Non vi è alcun vantaggio dall'aggiornamento della memoria a DDR4 a 2.933 MHz nella configurazione a 1 DPC per le CPU Cascade Lake. Si consiglia di impostare la configurazione a 2 DPC con DDR4 a 2.666 MHz, in particolare per le applicazioni di assemblaggio De Novo .