Étude des performances avec Cascade Lake pour les applications génomiques
Sommaire: HPC High Performance Computing, HPC & AI Innovation Labing, génomique, Variant Calling, assemblage de novo, séquençage de nouvelle génération, BWA-GATK, SOAPdenovo2, SPAdes, Cascade Lake ...
Symptômes
Article écrit par Kihoon Yoon du laboratoire d’innovation HPC et IA en mai 2019
Cause
Aucune
Résolution
Appel de variantes et assemblage de novo
Présentation
Les processeurs Intel® Xeon® Scalable de deuxième génération succèdent à Skylake et offrent jusqu’à 56 cœurs avec un seul processeur (Cascade Lake AP 9282). Intel offre plus de cœurs, mais prend en charge Optane, une mémoire DRAM plus rapide (DDR4-2933 dans une configuration à 1 DPC) et davantage de configurations DRAM (1 To, 2 To et 4 To). Il est clair que les consommateurs attendent généralement plus de performances, une meilleure efficacité et moins d’énergie de la part d’un processeur plus récent. Cependant, certains clients recherchent des améliorations qui ne sont pas si évidentes, telles que la prise en charge de nouvelles instructions, des optimisations d’écosystème en couches, la prise en charge de nouvelles technologies ou d’une nouvelle orientation de produit. Cascade Lake s’appuie sur Skylake en se concentrant sur les caractéristiques secondaires, et les améliorations ne sont pas si évidentes.
En règle générale, les applications d’analyse des données de séquençage de nouvelle génération (NGS) sont open source et ne seront pas mises à jour aussi rapidement que la nouvelle technologie émerge. Cela signifie que les améliorations apportées par Cascade Lake sont moins susceptibles d’avoir un impact sur les performances des applications NGS.
Ce blog illustre le comportement des processeurs Cascade Lake sur deux charges applicatives génomiques différentes : Variant Calling et De Novo assembly.
Les configurations de test détaillées pour l’appel de variantes et l’assemblage De novo sont répertoriées dans le Tableau 1.
Tableau 1 : Configuration de test pour l’appel de variantes et l’assemblage de novo
|
|
Dell PowerEdge R640 |
Dell PowerEdge R940 |
|||||||
|
Skylake (en anglais seulement) |
Lac Cascade |
Skylake (en anglais seulement) |
Lac Cascade |
||||||
|
Processeur |
2 x 6154 |
2 x 6148 |
2 x 6152 |
2 x 6138 |
2 x 6248 |
2 x 6252 |
2 6230 |
4 x 8168 |
4 x 8280M |
|
Fréquence de base (GHz) |
3.0 |
2.4 |
2.1 |
2.0 |
2.5 |
2.1 |
2.1 |
2.7 |
2.7 |
|
Nombre de cœurs |
18 |
20 |
22 |
20 |
20 |
24 |
20 |
24 |
28 |
|
TDP (W) |
200 |
150 |
140 |
140 |
150 |
125 |
125 |
205 |
205 |
|
Mémoire |
24 x 16 Go DDR4-2 666 MHz, 2 DPC |
12 x 32 Go DDR4-2 933 MHz, 1 DPC |
48 x 32 Go DDR4-2 666 MHz, 2 DPC |
24 x 64 Go DDR4-2 933 MHz, 1 DPC |
|||||
|
Stockage |
10 disques SAS 1,2To 12Gbit/s, 10K en RAID 0 |
18 disques SAS 1,2To 12Gbit/s, 10K en RAID 0 |
|||||||
|
BIOS du système |
2.1.3 |
||||||||
|
Noyau |
3.10.0-957.el7.x86_64 |
||||||||
|
Système d'exploitation |
Red Hat Enterprise Linux Server version 7.6 (Maipo) |
||||||||
|
Lecture de séquence |
ERR194161, 50x génome humain entier pour l’appel des variants et ERR318658, 3,2 milliards de lectures du génome humain entier pour l’assemblage de novo |
||||||||
Appel de variantes
BWA-GATK Pipeline
Comme le montre la Figure 1, chaque étape se comporte très différemment sur chaque processeur testé, et les différences de performances entre les différentes étapes avec les processeurs testés varient de 0,61 % à 46,34 %. Toutefois, les différences de runtime global ne sont pas tout à fait notables (Tableau 2).
Figure 1 Runtimes de chaque étape du pipeline Variant Calling
Le système Cascade Lake 6248 a obtenu de meilleurs résultats dans la plupart des étapes et dans le meilleur runtime global, mais il a obtenu de mauvais résultats à l’étape « Mark Duplicates », fonctionnant 27 % plus lentement que le modèle Cascade Lake 6252. On ne sait pas pourquoi le 6248 obtient de mauvais résultats pour cette étape, bien que des tests répétés montrent des résultats cohérents. Compte tenu de ce comportement incohérent au cours des différentes étapes, il est plus logique de prendre en compte les performances globales lors de la sélection d’un processeur approprié pour le flux de travail.
Tableau 2 Comparaisons de la durée d’exécution totale entre les processeurs Skylake et Cascade Lake
|
Processeur |
Prix |
Spec |
Temps d’exécution total BWA-GATK (heures) |
|
|
Skylake (en anglais seulement) |
6148 |
3 072,00 $ - 3078,00 $ |
2,4 GHz, 20 cœurs, 150 W |
24.26 |
|
6154 |
3 543,00 $ |
3,0 GHz, 18 cœurs, 200 W |
23.47 |
|
|
6152 |
3 655,00 $ - 3 661,00 $ |
2,1 GHz, 22 cœurs, 140 W |
24.58 |
|
|
6138 |
2 612,00 $ - 2618,00 $ |
2 GHz, 20 cœurs, 125 W |
24.83 |
|
|
Lac Cascade |
6248 |
3 072,00 $ - 3 078,00 $ |
2,5 GHz, 20 cœurs, 150 W |
23.36 |
|
6252 |
3 655,00 $ - 3 662,00 $ |
2,1 GHz, 24 cœurs, 150 W |
23.82 |
|
|
6230 |
1 894,00 $ - 1 900,00 $ |
2,1 GHz, 20 cœurs, 125 W |
23.68 |
|
Bien que le système Cascade Lake 6248 offre les meilleures performances globales, le modèle Cascade Lake 6230 n’est pas un mauvais choix pour les clients disposant d’une puissance limitée. Étant donné que les résultats présentés ici sont basés sur un seul échantillon, il est difficile de conclure si les Cascade Lake 6230 et 6248 sont meilleurs que les Cascade Lake 6252 sans les résultats des tests de débit. Toutefois, en ce qui concerne le débit, Cascade Lake 6252 pourrait surpasser les tests de débit en raison du nombre plus élevé de cœurs. Il peut accueillir plus d’échantillons à traiter simultanément. Néanmoins, Cascade Lake 6230 pourrait être le choix le plus rentable parmi les processeurs testés.
Assemblage de novo
Pour l’assemblage de novo , les modèles Skylake 8168 et Cascade Lake 8280M sont comparés avec la même quantité de mémoire système, soit 1,5 To dans le modèle R940. La principale raison pour laquelle le système Cascade Lake 8280M a été choisi est son nombre de cœurs plus élevé et parce qu’il prend en charge davantage de mémoire, ce qui est avantageux car la taille des données pour l’assemblage De Novo continue de croître au fil du temps.
SOAPdenovo2
Le gain de performances maximal résultant d’une mise à niveau de Skylake 8168 vers Cascade Lake 8280M est d’environ 1 %, comme indiqué dans les 92 cœurs du Skylake 8168 par rapport aux 108 cœurs du Cascade Lake 8280M dans les comparaisons de la Figure 2. Pour le test, il restait un cœur par processeur pour le système d’exploitation et d’autres tâches d’organisation. Bien que les résultats montrent que Cascade Lake 8280M est plus lent de 2 % en moyenne avec différents nombres de cœurs utilisés, les comparaisons entre 92 cœurs de 8168 et 108 cœurs de 8280M ont confirmé que Cascade Lake 8280M fonctionne légèrement mieux que Skylake 8168.

Figure 2 Tracés des runtimes et de la consommation de mémoire maximale pour SOAPdenovo2 avec différents nombres de cœurs
SOAPdenovo2 semble être limité à la bande passante de la mémoire. Le pic de consommation de mémoire est en constante augmentation, car davantage de cœurs sont utilisés pour un processus avec une configuration à 1 DPC sur le processeur Cascade Lake, tandis que le pic de consommation de mémoire diminue avec une configuration à 2 DPC sur le processeur Skylake. Comme le montre la Figure 3 de notre précédent article articles du blog, la bande passante de la mémoire peut différer de 11 % entre les configurations à 1 DPC et à 2 DPC avec le même type de modules DIMM à double rangée. Pour parvenir à une meilleure conclusion, des tests supplémentaires sont nécessaires avec une configuration à 2 DPC (DDR4-2666) sur le processeur Cascade Lake 8280M.
Pique
Le Cascade 8280M obtient de meilleurs résultats à tous les tests avec différents nombres de cœurs, et des performances 5 % supérieures sont obtenues en comparaison processeur / processeur (comparaison entre les 82 cœurs 8168 à 92 cœurs et 8280M à 108 cœurs), comme le montre la Figure 3. Les schémas de consommation maximale de la mémoire sont presque similaires entre deux processeurs ; Toutefois, le modèle Cascade Lake 8280M avec une configuration à 1 DPC affiche une consommation de mémoire plus élevée que le modèle Skylake 8168 avec une configuration à 2 DPC. Bien que la bande passante de la mémoire ne semble pas être aussi critique que ce que nous pouvons voir dans les tests SOAPdenovo2, une configuration à 2 DPC avec DDR4-2 666 MHz peut être une meilleure configuration pour l’assemblage De Novo .

Figure 3 Tracés des périodes d’exécution et de consommation de mémoire maximale pour les SPA avec différents nombres de cœurs
Conclusion
Dans l’ensemble, les processeurs Cascade Lake testés ici n’offrent pas de meilleurs résultats que les processeurs Skylake pour les charges applicatives génomiques telles que l’appel de variantes et l’assemblage de novo . On s’attendait à des performances similaires, car le processeur Cascade Lake est basé sur le processeur Skylake et vise à améliorer les fonctionnalités de soutien plutôt qu’à améliorer les performances pures. Toutefois, Cascade Lake offre plus de choix que Skylake en termes de TDP plus faible et de nombre de cœurs plus élevé pour les types de charges applicatives Variant Calling. Il est à noter que la configuration à 1 DPC avec des modules DIMM DDR4 à 2 933 MHz n’améliore pas les performances de SOAPdenovo2. Pour les applications d’assemblage de novo , une bande passante de mémoire plus importante semble préférable. Il n’y a aucun avantage à mettre à niveau la mémoire vers la mémoire DDR4 2 933 MHz dans une configuration à 1 DPC pour les processeurs Cascade Lake. Il est recommandé de configurer une configuration à 2 DPC avec DDR4 2 666 MHz, en particulier pour les applications d’assemblage de novo .