Solution Dell EMC Ready pour les sciences de la vie HPC : Tests de débit du pipeline BWA-GATK avec actualisation des processeurs Cascade Lake et Lustre ME4
Summary: L’archivage en tant qu’article est basé sur la documentation HPC qui n’est plus hébergée en ligne, et l’article ne peut pas être modifié pour répondre aux attentes de la base de connaissances Dell EMC Ready Solution for HPC Life Sciences : Tests de débit du pipeline BWA-GATK avec actualisation des processeurs Cascade Lake et Lustre ME4 ...
Symptoms
La configuration de 64 nœuds de calcul des solutions Dell EMC Ready Solutions for HPC Life Sciences permet de traiter 194 génomes par jour (50 fois la profondeur de couverture).
Présentation
Variantes d’appels est un processus par lequel nous identifions les variantes à partir des données de séquence. Ce processus permet de déterminer s’il existe des polymorphismes nucléotidiques uniques (SNP), des insertions et des délétions (indels) et/ou des variantes structurelles (SV) à une position donnée dans un génome ou un transcriptome individuel. L’objectif principal de l’identification des variations génomiques est d’établir un lien avec les maladies humaines. Bien que toutes les maladies humaines ne soient pas associées à des variations génétiques, l’appel des variantes peut fournir une ligne directrice précieuse pour les généticiens travaillant sur une maladie particulière causée par des variations génétiques. BWA-GATK est l’un des outils de calcul de séquençage de nouvelle génération (NGS) conçus pour identifier les mutations germinales et somatiques à partir de données NGS humaines. Il existe une poignée d’outils d’identification des variantes, et nous comprenons qu’il n’y a pas un seul outil qui fonctionne parfaitement (1). Toutefois, nous avons choisi GATK, qui est l’un des outils les plus populaires, pour démontrer dans quelle mesure les solutions Dell EMC Ready for HPC Life Sciences peuvent traiter des charges applicatives NGS complexes et massives.
L’objectif de ce blog est de fournir de précieuses informations sur les performances du processeur Intel® Xeon® Gold 6248 pour l’analyse comparative du pipeline BWA-GATK avec Dell EMC Ready Solutions for HPC Lustre Storage (actualisation de la série ME4) (2). Le processeur Xeon® Gold 6248 dispose de 20 cœurs physiques ou de 40 cœurs logiques lors de l’utilisation de l’hyperthreading. Les configurations de cluster test sont résumées dans le Tableau 1.
| Dell EMC PowerEdge C6420 | |
|---|---|
| Processeur | 2 processeurs Xeon® Gold 6248, 20 cœurs, 2,5 GHz (Cascade Lake) |
| RAM | 12 x 16 Go à 2 933 MTps |
| Système d'exploitation | RHEL 7.6 |
| Interconnexion | Intel® Omni-Path |
| Profil système BIOS | Performances optimisées |
| Processeur logique | Désactivé |
| Technologie de virtualisation | Désactivé |
| BWA | 0.7.15-r1140 |
| Samtools | 1.6 |
| GATK (en anglais seulement) | 3.6-0-g89b7209 |
Les nœuds de calcul testés ont été connectés à Dell EMC Ready Solutions for HPC Lustre Storage via Intel® Omni-Path. La configuration récapitulative du stockage est répertoriée dans le Tableau 2.
Tableau 2 Caractéristiques matérielles et logicielles de la solution
| Dell EMC Ready Solution pour le stockage Lustre | |
|---|---|
| Nombre de nœuds | 1 x Dell EMC PowerEdge R640 en tant que gestionnaire intégré de Lustre (IML) 2 x Dell EMC PowerEdge R740 en tant que serveur de métadonnées (MDS) 2 x Dell EMC PowerEdge R740 en tant que serveur de stockage en mode objet (OSS) |
| Processeurs | Serveur IML : Deux serveurs Intel Xeon Gold 5118 @ 2,3 GHz MDS et OSS : Double processeur Intel Xeon Gold 6136 à 3,00 GHz |
| Mémoire | Serveur IML : 12 serveurs RDIMM DDR4 de 8 Go à 2 666 MT/s Serveurs MDS et OSS : 24x RDIMM DDR4 16 Go à 2666 MT/s |
| Contrôleurs de stockage externes |
2 adaptateurs HBA SAS Dell 12 Gbit/s (sur chaque MDS) 4 adaptateurs HBA SAS Dell 12 Gbit/s (sur chaque OSS) |
| Boîtiers de stockage en mode objet |
4x ME4084 avec un total de 336 disques durs SAS 8 To NL 7 200 tr/min. |
| Boîtier de stockage des métadonnées |
1 ME4024 avec 24 disques SSD SAS de 960 Go. Prend en charge jusqu’à 4,68 milliards d’inodes |
| Contrôleurs RAID | Contrôleurs RAID SAS duplex dans les boîtiers ME4084 et ME4024 |
| Système d’exploitation | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
| Version du BIOS | 1.4.5 |
| Version d’Intel Omni-Path IFS |
10.8.0.0 |
| Version du système de fichiers Lustre |
2.10.4 |
| Version de IML | 4.0.7.0 |
Les données de test ont été choisies à partir de l’un des génomes Platinum d’Illumina. ERR194161 a été traité avec Illumina HiSeq 2000 soumis par Illumina et peut être obtenu auprès de l’EMBL-EBI. L’identificateur génétique de cette personne est NA12878. La description des données du site Web lié montre que cet échantillon a une >profondeur de couverture 30 fois supérieure.
Évaluation des performances
Performances d’un seul échantillon de plusieurs nœuds
La figure 1 récapitule le runtime dans différents nombres d’échantillons et de nœuds de calcul avec des données de séquençage du génome entier (WGS) x50. Les tests effectués ici sont conçus pour démontrer les performances au niveau du serveur, et non pour des comparaisons sur des composants individuels. Les points de données de la Figure 1 sont calculés en fonction du nombre total d’échantillons, un échantillon par nœud de calcul (axe X dans la figure) qui sont traités simultanément. Les détails de l’information sur les pipelines BWA-GATK peuvent être obtenus sur le site Web du Broad Institute (3). Le nombre maximal de nœuds de calcul utilisés pour les tests est de 64 C6420. Les C6420 avec Lustre ME4 présentent un meilleur comportement de mise à l’échelle que Lustre MD3.
Figure 1 Comparaison des performances entre Lustre MD3 et Lustre ME4
Multiple Sample Multiple Nodes Performance
Une méthode classique d’exécution du pipeline NGS consiste à exécuter plusieurs échantillons sur un nœud de calcul et à utiliser plusieurs nœuds de calcul pour optimiser le débit du processus de données NGS. Le nombre de nœuds de calcul utilisés pour les tests est de 64 nœuds de calcul C6420, et le nombre d’échantillons par nœud est de 5 échantillons. Jusqu’à 320 échantillons sont traités simultanément pour estimer le nombre maximal de génomes par jour sans échec de tâche.Comme illustré sur la Figure 2, un seul nœud de calcul C6420 peut traiter 3,24 des 50 génomes humains entiers par jour lorsque 5 échantillons sont traités simultanément. Pour chaque échantillon, 7 cœurs et 30 Go de mémoire sont alloués.
Figure 2 Tests de débit avec jusqu’à 64 C6420 et le Lustre ME4
320 des 50x génomes humains entiers peuvent être traités avec 64 nœuds de calcul C6420 en 40 heures. En d’autres termes, les performances de la configuration de test se résument à 194 génomes par jour pour le génome humain entier avec une profondeur de couverture 50 fois supérieure.
Conclusion
En effet, la taille des données de WGS ne cesse de croître. La taille moyenne actuelle de WGS est de 50x. C’est 5 fois plus qu’un WGS standard il y a 4 ans, lorsque nous avons commencé à comparer le pipeline BWA-GATK. L’augmentation des données ne sollicite pas la capacité côté stockage, car la plupart des applications en cours sont également limitées par la vitesse d’horloge du processeur. Par conséquent, avec l’augmentation de la taille des données, le pipeline s’exécute plus longtemps au lieu de générer plus d’écritures.Toutefois, un plus grand nombre de fichiers temporaires sont générés au cours du processus, car davantage de données doivent être parallélisées, et ce nombre accru de fichiers temporaires ouverts en même temps épuise la limite de fichiers ouverts dans un système d’exploitation Linux. L’une des applications échoue en mode silencieux en atteignant la limite du nombre de fichiers ouverts. Une solution simple consiste à augmenter la limite à >150K.
Néanmoins, la solution Ready avec Lustre ME4 en tant qu’espace de travail a une meilleure capacité de débit que la version précédente. Avec 64 nœuds, la solution Ready Solution offre une puissance de traitement de 194 génomes par jour pour un WGS de 50x.
Ressources
1. Une enquête sur les outils d’analyse des variantes des données de séquençage du génome de nouvelle génération. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Brief Bioinform, mars 2014, vol. 15 (2). 10.1093/bib/bbs086.2. Dell EMC Ready Solution pour le stockage HPC Lustre. (L’article n’est plus disponible pour référence, extrait par l’équipe HPC)
3. Boîte à outils d’analyse du génome. https://software.broadinstitute.org/gatk/
Cause
L’archivage en tant qu’article est basé sur la documentation HPC qui n’est plus hébergée en ligne, et l’article ne peut pas être modifié pour répondre aux attentes de la base de connaissances
Resolution
L’archivage en tant qu’article est basé sur la documentation HPC qui n’est plus hébergée en ligne, et l’article ne peut pas être modifié pour répondre aux attentes de la base de connaissances