Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Impulso do sequenciamento de genoma com o FAGP (Falcon Accelerated Genomics Pipeline) na PAC Intel FPGA

Résumé: O pipeline de genoma acelerado falcon com uma única placa de aceleração programável Intel FPGA pode processar 50 vezes os genomas humanos inteiros em menos de 3 horas por meio do pipeline alternativo de chamadas variantes. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

O pipeline de genoma acelerado falcon com uma única placa de aceleração programável Intel FPGA pode processar 50 vezes os genomas humanos inteiros em menos de 3 horas por meio do pipeline alternativo de chamadas variantes. 

 



Visão geral, Desafio do mercado (necessidade), solução Falcon atende à necessidade

A medicina de precisão, genômica e epigenética estão usando sequenciamento genômico para realizar pesquisas, melhorar o diagnóstico, desenvolver produtos farmacêuticos, aumentar a qualidade do atendimento para os fornecedores da área de saúde e otimizar a produção de plantações. Para as ciências biomédicas, a análise de genoma agora é um aplicativo-chave, devido, em parte, à grande redução de custos da coleta de dados de avanços no sequenciamento de última geração (NGS). Além do aumento da coleta de dados, também houve um crescimento significativo na variedade de aplicativos genômicos usados em universidades, centros de pesquisa genômica, empresas farmacêuticas e organizações da área de saúde. 
A cada sete meses, o volume de dados de genoma está dobrando (1). Consequentemente, o processamento de dados de maneira eficiente e econômica tornou-se essencial. O poder computacional das soluções somente de processador não está dimensionando rápido o suficiente para acompanhar o crescimento de dados genômicos. Isso levou à necessidade de aceleração de hardware. Aceleradores como FPGAs estão se tornando crucial para corresponder às demandas computacionais dessa explosão de dados genômicos. Em comparação com outras soluções aceleradas por hardware, o Falcon Accelerated Genomics Pipeline (XMLP) oferece flexibilidade, alto throughput e um menor custo por amostra.
 



O que é FPGA, oferta e vantagem do INTEL PAC

Os FPGAs são dispositivos de silício que podem ser reprogramados dinamicamente com um caminho de dados que corresponde exatamente a suas cargas de trabalho, como sequenciamento genômico, lógica analítica de dados ou compactação, conforme ilustrado na Figura 1. Essa versatilidade permite o provisionamento de processamento mais rápido, computação mais eficiente no consumo de energia e serviço de menor latência, redução do custo total de propriedade e maximização da capacidade de computação dentro das restrições de energia, espaço e refrigeração de seus data centers. 
Tradicionalmente, os FPGAs exigem profundo conhecimento especializado em domínios para programar. Para simplificar o fluxo de desenvolvimento e permitir a implementação rápida em todo o data center, a Intel oferece uma plataforma de aceleração que inclui placas de aceleração pci Express* (PCIe*) baseadas em Intel FPGA Programmable Acceleration Cards (Intel FPGA PAC) e Intel® Acceleration Stack para CPU Intel Xeon® com FPGAs. Essas plataformas Intel são qualificadas, validadas e implementadas por meio da Dell EMC. Juntamente com parceiros de ecossistema, como o Falcon Computing, a Plataforma de aceleração da Intel oferece uma solução confiável e pronta para uso com hardware transparente subjacente.



SLN319291_en_US__1image (12669)
Figura 1 Precisão e velocidade aprimoradas no pipeline GATK padrão
 



Detalhes da solução Falcon:

O GATK (Genome Analysis Toolkit) é o padrão ouro para processamento de dados genômicos aceito pela comunidade genômica (2). Seu BPW (Best Practice Workflow, fluxo de trabalho de práticas recomendadas) é bem conhecido por sua lentidão na computação para gerar resultados para grandes amostras, como Origem total (WGS). Para resolver esse problema, as soluções de computação Falcon desenvolveram um pacote de software flexível de ferramentas que segue o BPW e podem ser facilmente implementadas em várias plataformas e arquiteturas.  Ele é rápido em várias ordens de magnitude quando comparado aos pipelines GATK baseados em CPU.
A FUNÇÃOP oferece uma solução completa para analisar de modo econômico os dados genômicos usando o pipeline GATK com alto desempenho, precisão e reprodutibilidade. A solução oferece velocidade de até 15x com a mesma precisão que o GATK (3). Isso significa que uma análise que normalmente leva de 50 a 60 horas pode ser realizada em menos de 4 horas (3). O DIMP oferece níveis excepcionais de aceleração e precisão em conjunto com os FPGAs Intel Arria 10 e processadores Intel® Xeon® confiáveis e de alto desempenho. 
OACTP segue o BPW da GATK. Ele implementa a aceleração em muitos componentes dos pipelines, desde o alinhamento (BWA) até a chamada variante (HaplotypeCaller) (4). Além do BWA acelerado, ele também inclui uma versão acelerada do Minimap2 alinhador que faz parte do pipeline genômico alternativo do Falcon (5).  O pipeline alternativo oferece uma solução ainda mais rápida. Ele pode concluir o sequenciamento de genoma inteiro em 3 horas. Ambos os alinhadores têm o recurso para gerar duplicações marcadas e leituras classificadas sem a necessidade de usar ferramentas adicionais. 
A FUNÇÃOP atinge alto desempenho/throughput acelerando a computação intensiva no pipeline GATK usando plataformas Intel FPGA PAC. Isso é diferente das soluções de scale-out que atingem alto throughput com a adição de mais recursos de CPU. Essas soluções de scale-out têm capacidade limitada de reduzir os custos ou a latência por amostra.
Outra vantagem da solução Falcon é que ela é um pipeline aberto como GATK. Os usuários podem controlar as etapas individuais nos pipelines. Os dados intermediários são salvos e podem ser acessados.


Tabela 1 Vantagens do pipeline de genoma acelerado Falcon

 
Vantagens do Falcon Accelerated Genomics Pipeline (FALCONP)
GATK verdadeiro Suporte para várias versões do GATK, inclusive 4.0
Escala do setor Execute cinco genomas inteiros ou 24 exomes inteiros em um dia
Variante alternativa < Tempo de entrega de 3 horas no local para WGS (50X)
Velocidade Execute o pipeline de práticas recomendadas de GATK até >15 vezes mais rápido
Aproveite as soluções existentes Não há necessidade de regravar algoritmos de trabalho
 



Configuração de hardware da Dell

Tabela 2 Dell EMC PowerEdge R740xd como um banco de testes

Dell EMC PowerEdge R740xd
Processador 2 CPUs Intel(R) Xeon(R) Gold 6148 a 2,40 GHz
Memória 384 GB a 32 RDIMM de 16 GB, 2.666 MT/s, fileira dupla
Armazenamento 4 discos rígidos hot-plug SAS de 1,2 TB e 10.000 RPM e 512n de 2,5 pol. no RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1,8 T no RAID 0 de software
FPGA Placa de aceleração programável intel com Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Perfil do sistema Desempenho
Versão do BIOS 2.1.3
Hyperthreading Enabled
OS Red Hat Enterprise Linux Server versão 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Avaliação de desempenho

Em nossos testes de referência de desempenho, usamos dados inteiros de sequenciamento de genoma humano a uma profundidade de cobertura de 10x, 30x e 50x.


Tabela 3 Dados de sequenciamento de genoma inteiro testados

 
Executar acesso Profundidade da cobertura Link de dados
ERR091571 10x https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30x https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50x https://www.ebi.ac.uk/ena/data/view/ERR194161


 

Resultados:

A Tabela 4 resume o tempo necessário para concluir o pipeline de práticas recomendadas do GATK 4.0 em três ciclos de teste usando o RPMP e o INTEL FPGA PAC hospedado no servidor DELL EMC PowerEdge R740xd.


Tabela 4 Tempo de execução total do Pipeline de práticas recomendadas versão 2.1.1
Amostra Profundidade da cobertura Teste 1 Tempo de execução (minutos)
Teste 2
Teste 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18

A Tabela 5 resume o tempo (em minutos) necessário para concluir o pipeline alternativo: FalconTpline ao longo de três ciclos de teste usando a FUNÇÃO E o INTEL FPGA PAC hospedados no servidor DELL EMC PowerEdge R740xd.


Tabela 5 Tempo de execução total do pipeline alternativo de chamadas de variantes
Amostra Profundidade da cobertura Teste 1 Tempo de execução (minutos)
Teste 2
Teste 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37
 



Resumo da solução genômica Falcon

O pipeline de genoma acelerado Falcon oferece alto throughput, baixo custo/benefício de amostra/dia. Juntamente com a placa de aceleração programável Intel FPGA e o servidor dell certificado, o REALIZEP oferece uma solução completa que pode ser facilmente adotada para seus aplicativos de sequenciamento genômico.
" No TCGB, fornecemos serviços de sequenciamento de genoma para nossos clientes em todo o país. O Falcon Accelerated Genomics Pipeline* nos permitiu reduzir nosso prazo de dias em poucas horas e, ao mesmo tempo, manter a precisão dos pipelines GATK padrão do setor."
— Dr Xinmin Li, diretor do Technology Center for Genomics & Bioinformatics (TCGB)



Recursos 

1. Sequenciar o genoma cria muitos dados que não sabemos o que fazer com ele. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-t-know-what-to-do-with-it.
2. GATK( GATK, GATK). [On-line]
https://software.broadinstitute.org/gatk/3. Genômica acelerada. [On-line]
http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline4. BWA. [On-line]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimap2. [On-line] https://github.com/lh3/minimap2


Cause

Impulso do sequenciamento de genoma com o FAGP (Falcon Accelerated Genomics Pipeline) na PAC Intel FPGA

Résolution

O pipeline de genoma acelerado falcon com uma única placa de aceleração programável Intel FPGA pode processar 50 vezes os genomas humanos inteiros em menos de 3 horas por meio do pipeline alternativo de chamadas variantes.

Propriétés de l’article


Produit concerné

Dell EMC Ready Solution Resources, PowerEdge R740XD

Dernière date de publication

03 oct. 2023

Version

4

Type d’article

Solution