Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Optimisation du séquençage génomique avec Falcon Accelerated Genomics Pipeline (FAGP) sur Intel FPGA PAC

Résumé: Falcon Accelerated Genomics Pipeline avec une seule carte d’accélération programmable Intel FPGA peut traiter 50 génomes humains entiers en moins de 3 heures via un autre pipeline d’appels de variantes. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Falcon Accelerated Genomics Pipeline avec une seule carte d’accélération programmable Intel FPGA peut traiter 50 génomes humains entiers en moins de 3 heures via un autre pipeline d’appels de variantes. 

 



Présentation, défi du marché (besoin), solution Falcon qui répond au besoin

La médecine de précision, la génomique et l’epigénétique utilisent le séquençage génomique pour mener des recherches, améliorer le diagnostic, développer des produits pharmaceutiques, améliorer la qualité des soins pour les professionnels de santé et optimiser la production des cultures. Pour les sciences de la vie, l’analyse du génome est désormais une application clé, en partie en raison de la réduction importante des coûts de la collecte de données à partir des avancées du séquençage de nouvelle génération (NGS). Outre l’augmentation de la collecte de données, la gamme d’applications génomiques utilisées dans les universités, les centres de recherche génomique, les laboratoires pharmaceutiques et les établissements de santé a connu une croissance significative. 
Tous les sept mois, la quantité de données du génome double (1). Par conséquent, le traitement des données de manière efficace et économique est devenu essentiel. La puissance de calcul des solutions à processeur uniquement ne s’adapte pas assez rapidement pour faire face à la croissance des données génomiques. Cela a conduit à la nécessité d’accélérer le matériel. Les accélérateurs tels que les FPGA deviennent essentiels pour répondre aux exigences de calcul de cette explosion des données génomiques. Par rapport à d’autres solutions accélérées par matériel, falcon Accelerated Genomics Pipeline (FAGP) offre flexibilité, débit élevé et coût par échantillon réduit.
 



Qu’est-ce que l’offre FPGA, Intel PAC & Advantage ?

Les FPGA sont des périphériques en silicium qui peuvent être reprogrammés dynamiquement avec un chemin de données qui correspond exactement à vos charges applicatives, telles que le séquençage génomique, l’analytique des données ou la compression, comme illustré sur la Figure 1. Cette polyvalence permet le provisionnement d’un traitement plus rapide, d’un calcul plus économe en énergie et d’un service de latence réduit, ce qui réduit votre coût total de possession et optimise la capacité de calcul dans les contraintes d’alimentation, d’espace et de refroidissement de vos datacenters. 
Traditionnellement, les FPGA nécessitent une expertise approfondie du domaine pour programmer. Pour simplifier le flux de développement et permettre un déploiement rapide sur l’ensemble du datacenter, Intel propose une plate-forme d’accélération qui inclut des cartes d’accélération programmables PCI Express* (PCIe*) Basées sur Intel FPGA (Intel FPGA PAC) et Intel® Acceleration Stack pour processeur Intel Xeon® avec FPGA. Ces plates-formes Intel sont qualifiées, validées et déployées via Dell EMC. En collaboration avec des partenaires de l’écosystème tels que Falcon Computing, la plate-forme d’accélération Intel offre une solution fiable et prête à l’emploi avec du matériel transparent à portée de main.



SLN319291_en_US__1image (12 669)
Figure 1 Amélioration de la précision et de la vitesse sur le pipeline GATK standard
 



Détails de la solution Falcon :

Le kit d’outils d’analyse du génome (GATK) est la référence absolue en matière de traitement des données génomiques acceptée par la communauté génomique (2). Son workflow de bonnes pratiques (BPW) est bien connu pour sa lenteur dans le calcul afin de générer des résultats pour des échantillons volumineux tels que le génome entier (WGS). Pour résoudre ce problème, Falcon Computing Solutions a développé un package logiciel flexible d’outils qui suivent le processus BPW et peut être facilement implémenté dans plusieurs plates-formes et architectures.  Il est rapide de plusieurs ordres de grandeur par rapport aux pipelines GATK basés sur le processeur.
FAGP fournit une solution de bout en bout pour analyser les données génomiques de manière rentable à l’aide du pipeline GATK avec des performances, une précision et une reproductibilité élevées. La solution offre un débit jusqu’à 15 fois plus rapide avec la même précision que GATK (3). Cela signifie qu’une analyse qui prend généralement entre 50 et 60 heures peut être effectuée en moins de 4 heures (3). FAGP offre des niveaux exceptionnels d’accélération et de précision, associés à des processeurs Intel Arria 10 FPGA et Intel® Xeon® hautes performances et fiables. 
FAGP suit GATK BPW. Il implémente l’accélération dans de nombreux composants des pipelines, de l’alignement (BWA) à l’appel de variante (Haplcaller) (4). En plus du BWA accéléré, il inclut également une version accélérée de la minimap2 alignée qui fait partie de l’autre pipeline génomique de Falcon (5).  L’autre pipeline fournit une solution encore plus rapide. Il peut réaliser un séquençage complet du génome 50 fois en 3 heures. Les deux aligners ont la fonction de générer des doublons marqués et des lectures triées sans avoir à utiliser d’outils supplémentaires. 
FAGP atteint de hautes performances/débit en accélérant le calcul intensif dans le pipeline GATK à l’aide des plates-formes PAC Intel FPGA. Cela est différent des solutions scale-out qui atteignent un débit élevé en ajoutant plus de ressources de processeur. Ces solutions scale-out ont une capacité limitée à réduire les coûts ou la latence par échantillon.
Un autre avantage de la solution Falcon est qu’il s’agit d’un pipeline ouvert en tant que GATK. Les utilisateurs peuvent contrôler les étapes individuelles dans les pipelines. Les données intermédiaires sont enregistrées et accessibles.


Tableau 1 Avantages du pipeline génomique Falcon Accelerated

 
Avantages de Falcon Accelerated Genomics Pipeline (FAGP)
Vrai GATK Prise en charge de plusieurs versions GATK, y compris 4.0
À l’échelle du secteur Exécutez cinq génomes entiers ou 24momes entiers en une journée
Variante alternative < Délai de réponse de 3 heures sur site pour WGS (x 50)
Débit Exécution du pipeline de bonnes pratiques GATK jusqu’à >15 fois plus rapide
Tirez le meilleur parti des Inutile de réécrire les algorithmes de travail
 



Configuration matérielle Dell

Tableau 2 Dell EMC PowerEdge R740xd en tant que banc d’essai

Dell EMC PowerEdge R740xd
Processeur 2 processeurs Intel(R) Xeon(R) Gold 6148 à 2,40 GHz
Mémoire 384 Go à 32 barrettes RDIMM de 16 Go, 2 666 MT/s, double rangée
Stockage 4 disques durs SAS 12 Gbit/s 512n 2,5 » enfichables à chaud de 1,2 To à 10 000 tr/min dans RAID 0 2 processeurs INTEL SSDPEDMD020T4 DC P3700 1,8 To en RAID logiciel 0
FPGA Carte d’accélération programmable Intel avec FPGA Intel Arria® 10 GX (Intel Acceleration Stack 1.1)
Profil du système Performances
Version du BIOS 2.1.3
Hyperthreading Activé
Système d'exploitation Red Hat Enterprise Linux Server version 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Évaluation des performances

Lors de nos tests d’évaluation, nous avons utilisé des données de séquençage du génome humain entier avec une couverture 10x, 30x et 50x plus approfondie.


Tableau 3 Données de séquençage du génome entier testées

 
Exécutez Lass Profondeur de la couverture Liaison de données
ERR091571 x 10 https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 x 30 https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 x 50 https://www.ebi.ac.uk/ena/data/view/ERR194161


 

Résultats :

Le Tableau 4 récapitule le temps nécessaire pour terminer le pipeline de bonnes pratiques GATK 4.0 sur trois cycles de test à l’aide de FAGP et du PAC FPGA Intel hébergés sur le serveur DELL EMC PowerEdge R740xd.


Tableau 4 Exécutions totales à partir de la version 2.1.1 du pipeline basée sur les pratiques d’excellence
Échantillon Profondeur de la couverture Test 1 Runtime (minutes)
Test 2
Test 3
ERR091571 x 10 75.63 76.67 76.38
SRR3124837 x 30 160.00 162.77 161.38
ERR194161 x 50 242.97 250.65 247.18

Le Tableau 5 récapitule le temps (en minutes) nécessaire à l’exécution de l’autre pipeline : Falcon Marcheline sur trois cycles de test à l’aide de FAGP et du PAC FPGA Intel hébergés sur le serveur DELL EMC PowerEdge R740xd.


Tableau 5 Exécutions totales à partir d’un autre pipeline d’appels de variante
Échantillon Profondeur de la couverture Test 1 Runtime (minutes)
Test 2
Test 3
ERR091571 x 10 62.70 58.21 59.80
SRR3124837 x 30 130.38 129.90 129.95
ERR194161 x 50 171.52 171.87 171.37
 



Récapitulatif de la solution génomique Falcon

Falcon Accelerated Genomics Pipeline offre un débit élevé, un faible coût/échantillon/avantage quotidien. Avec la carte Intel FPGA Programmable Acceleration Card et le serveur DELL certifié, FAGP fournit une solution complète qui peut être facilement adoptée pour vos applications de séquençage génomique.
» Chez TCGB, nous fournissons des services de séquençage du génome à nos clients à l’échelle nationale. Falcon Accelerated Genomics Pipeline* nous a permis de réduire nos délais de traitement de quelques jours en quelques heures tout en maintenant la précision des pipelines GATK conformes aux normes de l’industrie. »
— Dr Xinmin Li, directeur du Technology Center for Genomics &Bioinformatics (TCGB) UCLA



Ressources 

1. Le séquençage du génome crée tellement de données que nous ne savons pas quoi en faire. [En ligne] https ://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don’t-know-what-to-do-with-it.
2. GATK. [En ligne]
https://software.broadinstitute.org/gatk/3. Génomique accélérée. [En ligne]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [En ligne]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [En ligne] https://github.com/lh3/minimap2


Cause

Optimisation du séquençage génomique avec Falcon Accelerated Genomics Pipeline (FAGP) sur Intel FPGA PAC

Résolution

Falcon Accelerated Genomics Pipeline avec une seule carte d’accélération programmable Intel FPGA peut traiter 50 génomes humains entiers en moins de 3 heures via un autre pipeline d’appels de variantes.

Propriétés de l’article


Produit concerné

Dell EMC Ready Solution Resources, PowerEdge R740XD

Dernière date de publication

03 oct. 2023

Version

4

Type d’article

Solution