PowerEdge : Optimisation du séquençage génomique avec Falcon Accelerated Genomics Pipeline (FAGP) sur Intel FPGA PAC
Summary: Le pipeline de génomique accélérée Falcon associé à une seule carte d’accélération programmable FPGA Intel peut traiter 50 fois des génomes humains entiers en moins de 3 heures via un pipeline d’appel de variantes alternatives. ...
Symptoms
Le pipeline de génomique accélérée Falcon associé à une seule carte d’accélération programmable FPGA Intel peut traiter 50 fois des génomes humains entiers en moins de 3 heures via un pipeline d’appel de variantes alternatives.
Vue d’ensemble, Défi du marché (besoin), la solution Falcon répond au besoin :
La médecine de précision, la génomique et l’épigénétique utilisent le séquençage génomique pour mener des recherches, améliorer le diagnostic, développer des produits pharmaceutiques, améliorer la qualité des soins prodigués aux prestataires de soins de santé et optimiser la production agricole. Pour les sciences de la vie, l’analyse du génome est désormais une application clé, en partie en raison de l’importante réduction des coûts de collecte de données grâce aux progrès du séquençage de nouvelle génération (NGS). En plus de l’augmentation de la collecte de données, la gamme d’applications génomiques utilisées dans les universités, les centres de recherche génomique, les sociétés pharmaceutiques et les organisations de soins de santé a également connu une croissance significative.
Tous les sept mois, la quantité de données génomiques double (1). Le traitement des données de manière efficace et rentable est devenu critique. La puissance de calcul des solutions équipées uniquement de processeurs n’évolue pas assez rapidement pour suivre la prolifération des données génomiques. Cela a conduit à la nécessité d’une accélération matérielle. Les accélérateurs tels que les FPGA jouent un rôle essentiel pour répondre aux exigences de calcul de cette explosion des données génomiques. Par rapport à d’autres solutions accélérées par le matériel, le pipeline de génomique accélérée Falcon (FAGP) offre de la flexibilité, un débit élevé et un coût par échantillon inférieur.
Quels sont les avantages de l’offre FPGA et Intel PAC :
Les FPGA sont des dispositifs en silicium qui peuvent être reprogrammés dynamiquement avec un chemin de données qui correspond exactement à vos charges applicatives, telles que le séquençage génomique, l’analytique des données ou la compression, comme illustré dans la Figure 1. Cette polyvalence permet le provisionnement d’un traitement plus rapide, d’un calcul plus économe en énergie et d’un service à faible latence, ce qui réduit votre coût total de possession et optimise la capacité de calcul tout en respectant les contraintes d’alimentation, d’espace et de refroidissement de vos datacenters.
Traditionnellement, les FPGA nécessitent une expertise approfondie du domaine pour être programmés. Pour simplifier le flux de développement et permettre un déploiement rapide dans le datacenter, Intel propose une plate-forme d’accélération qui comprend des cartes d’accélération programmables Intel FPGA basées sur PCI Express* (PCIe*) (Intel FPGA PAC) et la pile d’accélération Intel® pour processeur Intel Xeon® avec FPGA. Ces plates-formes Intel sont qualifiées, validées et déployées via Dell EMC. En collaboration avec des partenaires de l’écosystème tels que Falcon Computing, la plate-forme d’accélération Intel offre une solution fiable et prête à l’emploi avec du matériel transparent sous le capot.
Graphique 1 : Amélioration de la précision et de la vitesse sur le pipeline GATK standard
Détails de la solution Falcon :
Genome Analysis Toolkit (GATK) est la référence absolue en matière de traitement des données génomiques acceptée par la communauté génomique (2). Son Best Practice Workflow (BPW) est bien connu pour sa lenteur de calcul pour générer des résultats pour de grands échantillons tels que le génome entier (WGS). Pour résoudre ce problème, Falcon Computing Solutions a développé un package logiciel flexible d’outils qui suit le BPW et peut être implémenté dans plusieurs plates-formes et architectures. Il est rapide de plusieurs ordres de grandeur par rapport aux pipelines GATK basés sur le processeur.
FAGP fournit une solution de bout en bout pour analyser de manière rentable les données génomiques à l’aide du pipeline GATK avec des performances, une précision et une reproductibilité élevées. La solution offre jusqu’à 15 fois plus d’accélération avec la même précision que GATK (3). Cela signifie qu’une analyse qui prend généralement de 50 à 60 heures peut être menée en moins de 4 heures (3). FAGP offre des niveaux exceptionnels d’accélération et de précision avec des FPGA Intel Arria 10 fiables et performants et des processeurs Intel® Xeon®.
FAGP suit GATK BPW. Il met en œuvre l’accélération dans de nombreux composants des pipelines, de l’alignement (BWA) à l’appel de variante (HaplotypeCaller) (4). En plus de la BWA accélérée, il comprend également une version accélérée de l’aligneur Minimap2 qui fait partie du pipeline génomique alternatif de Falcon (5). Le pipeline alternatif offre une solution encore plus rapide. Il peut effectuer 50x le séquençage du génome entier en 3 heures. Les deux aligneurs ont la fonction de générer des doublons marqués et des lectures triées sans avoir besoin d’utiliser des outils supplémentaires.
FAGP atteint des performances/débits élevés en accélérant les calculs intensifs dans le pipeline GATK à l’aide des plates-formes Intel FPGA PAC. Cela diffère des solutions scale-out qui atteignent un débit élevé en ajoutant davantage de ressources CPU. Ces solutions scale-out ont une capacité limitée à réduire les coûts ou la latence par échantillon.
Un autre avantage de la solution Falcon est qu’il s’agit d’un pipeline ouvert en tant que GATK. Les utilisateurs peuvent contrôler les différentes étapes des pipelines. Les données intermédiaires sont enregistrées et accessibles.
Tableau 1 : Avantages du pipeline Falcon Accelerated Genomics
| Avantages de Falcon Accelerated Genomics Pipeline (FAGP) | |
|---|---|
| Véritable GATK | Prise en charge de plusieurs versions de GATAK, y compris 4.0 |
| À l’échelle du secteur | Exécutez cinq génomes entiers ou 24 exomes entiers en une journée. |
| Variante alternative | < Délai de réponse sur site de 3 heures pour WGS (50X) |
| Débit | Exécutez le pipeline des meilleures pratiques GATK jusqu’à >15 fois plus rapidement. |
| Utilisation des | Il n’est pas nécessaire de réécrire les algorithmes qui fonctionnent. |
Configuration matérielle Dell
Tableau 2 : Dell EMC PowerEdge R740xd en tant que banc d’essai
| Dell EMC PowerEdge R740xd | |
|---|---|
| Processeur | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| Mémoire | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| Stockage | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| FPGA (FPGA) | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| Profil du système | Performance |
| Version du BIOS | 2.1.3 |
| Hyperthreading | Enabled |
| Système d'exploitation | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Évaluation des performances
Dans nos tests de référence, nous avons utilisé des données de séquençage du génome humain entier à une profondeur de couverture de 10x, 30x et 50x.
Tableau 3 : Données de séquençage du génome entier testées
| Exécuter l’acquisition | Profondeur de la couverture | Liaison de données |
|---|---|---|
| ERR091571 | 10 fois plus | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | 30 fois | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | 50 fois | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
Résultats :
Le Tableau 4 récapitule le temps nécessaire pour terminer le pipeline de bonnes pratiques GATK 4.0 sur trois cycles de test à l’aide de FAGP et du PAC FPGA Intel hébergé dans le serveur DELL EMC PowerEdge R740xd.
Tableau 4 : Nombre total d’exécutions à partir de la version 2.1.1 du pipeline des meilleures pratiques
| Échantillon | Profondeur de la couverture | Essai 1 | Runtime (minutes) Test 2 |
Essai 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
Le Tableau 5 récapitule le temps (en minutes) nécessaire pour finaliser le pipeline alternatif : Falcon Germline sur trois cycles de test à l’aide de FAGP et du circuit PAC Intel FPGA hébergé sur le serveur DELL EMC PowerEdge R740xd.
Tableau 5 : Temps d’exécution totaux à partir d’un pipeline d’appel de variantes alternatives
| Échantillon | Profondeur de la couverture | Essai 1 | Runtime (minutes) Test 2 |
Essai 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Récapitulatif de la solution Falcon Genomic
Le pipeline de génomique accélérée de Falcon offre un débit élevé et un faible coût/échantillon/avantage quotidien. Avec la carte d’accélération programmable FPGA Intel et le serveur DELL certifié, FAGP fournit une solution complète qui peut être adoptée pour vos applications de séquençage génomique.
Chez TCGB, nous fournissons des services de séquençage du génome à nos clients à l’échelle nationale. Le pipeline de génomique accélérée de Falcon* nous a permis de réduire notre délai d’exécution de plusieurs jours à quelques heures tout en maintenant la précision des pipelines GATK conformes aux normes de l’industrie.
— Dr Xinmin Li, directeur du Centre de technologie pour la génomique et la bioinformatique (TCGB) de l’UCLA
Ressources
1. Le séquençage du génome crée tellement de données que nous ne savons pas quoi en faire. [En ligne] https ://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don’t-know-what-to-do-with-it.
2. GATK [En ligne] https://software.broadinstitute.org/gatk/
3. Génomique accélérée [En ligne] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [En ligne]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [En ligne] https://github.com/lh3/minimap2