PowerEdge : Accélération de l’analyse de données génomique avec NVIDIA Clara Parabricks avec le serveur Dell EMC DSS 8440 et les processeurs graphiques NVIDIA T4
Summary: Cet article fournit des informations sur l’accélération de l’analyse des données génomiques à l’aide de NVIDIA Parabricks sur Dell EMC DSS 8440 avec des processeurs graphiques NVIDIA T4. ...
Instructions
Présentation
La première étape du traitement des données de séquençage nouvelle génération (NGS) s’appelle l’analyse primaire. Cette étape est spécifique à l’instrument de séquençage et génère plusieurs fichiers FASTQ contenant des relevés de séquençage. À l’étape suivante, appelée analyse secondaire, les relevés de séquençage FASTQ sont mappées à un génome ou à un transcriptome de référence. Un traitement plus approfondi permet d’identifier des variantes, ou des différences, entre l’échantillon d’intérêt et une référence. Les variantes sont annotées et interprétées dans les étapes suivantes en aval. Le temps d’analyse secondaire d’un échantillon varie de plusieurs heures à plusieurs jours, selon la taille des données, les ressources de calcul disponibles, les logiciels et le workflow analytique.
L’analyse secondaire est un processus gourmand en calcul et en stockage, en particulier lors du traitement de centaines et de milliers de génomes. Il existe de nombreuses stratégies pour éviter les goulots d’étranglement dans les analyses secondaires. Jusqu’à récemment, l’adoption de l’accélération matérielle à l’aide des processeurs graphiques ou des FPGA restait faible en raison des logiciels personnalisés requis par des accélérateurs matériels. Parabricks, qui a été acquis par NVIDIA en 2019, a été le pionnier d’une pile logicielle exécutant divers flux de travail d’analyse génomique avec des processeurs graphiques. Nous avons testé Parabricksil y a environ deux ans. Dell a introduit de nombreuses avancées technologiques dans ses serveurs et ses solutions de stockage, ainsi que NVIDIA Clara Parabricks a lancé des versions robustes avec une accélération améliorée et l’ajout d’appelants de variantes. Par exemple, une conception de serveur à plusieurs processeurs graphiques basée sur le serveur Dell EMC DSS 8440 avec des processeurs graphiques NVIDIA® Tesla® T4 semblait prometteuse pour accélérer l’analyse secondaire tout en offrant un équilibre attractif entre prix et performances. Ce blog présente une nouvelle architecture de référence et des résultats obtenus dans des benchmarks pour NVIDIA Clara Parabricks Analyse secondaire sur un processeur graphique T4 multi-Tesla®, serveur DSS 8440 avec stockage Dell Isilon F800 .
Architecture de référence
La figure 1 illustre l’architecture de référence testée. L’architecture est modulaire et facile à mettre à l’échelle. La carte NVIDIA Clara Parabricks Le logiciel applicatif utilise un ou plusieurs processeurs graphiques, ce qui simplifie au maximum le scale-out. Les blocs de construction matériels comprennent le serveur Dell PowerEdge R640 en tant que nœud de gestion, le serveur DSS 8440 pour le calcul par processeur graphique et le stockage Dell EMC Isilon F800.
Figure 1 Architecture de référence testée
Le serveur 4U DSS 8440 à 2 sockets peut compter jusqu’à 10 processeurs graphiques Tensor Core NVIDIA® Tesla® V100S, jusqu’à 10 processeurs graphiques NVIDIA® Quadro RTX™, ou jusqu’à 16 processeurs graphiques NVIDIA Tesla T4, ce qui offre une puissance extrêmement élevée. La configuration détaillée du DSS 8440 est répertoriée dans le tableau 1.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
Deux commutateurs Z9100-ON ont fourni l’interconnexion entre le nœud de calcul et le cluster de stockage Isilon F800. Un commutateur supplémentaire N2248X-ON est utilisé pour la gestion.
NGS Data (Données de l’unité de gestion à distance)
Les données de l’exécution de l’analyse secondaire d’analyse comparative se composaient de trois jeux de données de séquençage du génome entier (WGS) humains, ERR091571, SRR3124837
et ERR194161
, représentant respectivement une couverture d’échantillon de 10 x, 30 x et 50 x. Ces ensembles de données sont disponibles dans les archives nucléotidiques européennes (ENA).
Évaluation des performances
Les améliorations logicielles réduisent le runtime.
NVIDIA continue d’apporter des améliorations logicielles à NVIDIA Clara Parabricks. La figure 2 illustre la réduction du runtime entre deux versions du Parabricks exécution du pipeline germinal à l’aide de l’environnement de test du serveur Dell PowerEdge C4140 avec 4 processeurs graphiques V100. Le passage de la version 2.1.0 à la version 3.0.0 a réduit le runtime de 42 %.
Figure 2 : Dernière version de Parabricks germline variant calling pipeline runtime.
Performances du DSS 8440 avec 16 T4
Le runtime d’une NVIDIA Clara Parabricks L’analyse secondaire à l’aide d’un seul processeur graphique T4 est environ 30 % plus lente que l’utilisation d’un processeur graphique V100. Toutefois, deux (2) processeurs graphiques T4 fournissent environ 10 % de TFLOPS de plus qu’un (1) processeur graphique V100 pour environ la moitié du prix. Le DSS 8440 fournit jusqu’à 16 logements PCIe, ce qui ouvre la possibilité de concevoir un serveur basé sur un processeur graphique T4 qui offre des performances d’exécution similaires à celles d’un système C4140 avec quatre processeurs graphiques V100, mais à moindre coût.
Le Parabricks L’analyse germinale a été réalisée à l’aide d’un serveur PowerEdge DSS 8440 doté de 16 processeurs graphiques T4. Pour chaque exemple de jeu de données WGS décrit précédemment, l’exécution a été enregistrée à l’aide de 1, 2, 4, 8 et 16 processeurs graphiques T4 par analyse secondaire. Les résultats sont indiqués dans les figures 3 à 5. En général, le runtime n’évolue pas de manière linéaire à mesure que le nombre de processeurs graphiques par analyse augmente. Le modèle de mise à l’échelle est similaire à la quantité de données par échantillon, avec une couverture de 10x à 50x.
Bien que cela ne soit pas présenté ici, une enquête antérieure de Dell EMC sur Parabricks Les résultats d’exécution utilisant au moins huit processeurs graphiques V100 par analyse n’évoluaient pas aussi efficacement que ceux des processeurs graphiques T4. D’autres tests ont démontré que 6 processeurs graphiques T4 généraient des résultats d’exécution presque identiques à 4 processeurs graphiques V100.
Figure 3 Comparaison des performances avec 10x WGS
Figure 4 Comparaison des performances avec 30x WGS
Figure 5 Comparaison des performances avec 50x WGS
Conclusion
Un DSS 8440 doté de seize processeurs graphiques T4 peut traiter 30 50x de génomes humains par jour. Un débit d’analyse quotidienne similaire utilisant une architecture de processeur x86 traditionnelle nécessite dix nœuds de calcul PowerEdge C6420. L’architecture complète est abordée dans Dell Ready Solution for HPC Life Sciences : Tests de débit du pipeline BWA-GATK avec le processeur Cascade Lake et l’actualisation Lustre ME4.
Toutefois, le fait de dédier l’ensemble des 16 processeurs graphiques T4 au traitement d’un échantillon offre peu d’avantages puisque l’utilisation de 16 processeurs graphiques par analyse est, au mieux, 10 % plus rapide que l’utilisation de 8 processeurs graphiques. La conception du DSS 8440 permet plusieurs analyses secondaires en parallèle. En affectant huit processeurs graphiques T4 par échantillon, le traitement de l’analyse quotidienne augmente jusqu’à environ 50 génomes par jour. L’utilisation de quatre processeurs graphiques par échantillon augmente le traitement de l’analyse quotidienne jusqu’à environ 70 génomes par jour. Plus important encore, ce résultat quotidien à l’aide des processeurs graphiques T4 est inférieur à la moitié du coût de l’utilisation d’une conception de processeur graphique V100.
En plus de la vitesse, la compatibilité avec les autres outils d’analyse est essentielle pour la comparabilité des résultats. La commande Parabricks Les résultats de l’analyse de la lignée germinale sont presque identiques à ceux de l’analyse bien connue BWA-GATK Haplotype de l’appelant provenant de tests antérieurs. Nous voulions également comparer les résultats de l’appel de la variante Parabricks à d’autres ensembles d’outils tels que samtools/mpileup. Ces deux outils différents atteignent ~90 % d’accord global pour les variants identifiés, et les variations dans de nombreuses régions génomiques bien connues contenant des gènes importants concordent à plus de 99 %.