PowerEdge: Impulso do sequenciamento de genoma com o FAGP (Falcon Accelerated Genomics Pipeline) na PAC Intel FPGA

Summary: O Falcon Accelerated Genomics Pipeline com uma única placa de aceleração programável Intel FPGA pode processar 50x genomas humanos inteiros em menos de 3 horas por meio do Alternative Variant Calling Pipeline. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

O Falcon Accelerated Genomics Pipeline com uma única placa de aceleração programável Intel FPGA pode processar 50x genomas humanos inteiros em menos de 3 horas por meio do Alternative Variant Calling Pipeline. 

 



Visão geral, Desafio de mercado (necessidade), a solução Falcon responde à necessidade:

A medicina de precisão, a genômica e a epigenética estão usando o sequenciamento genômico para realizar pesquisas, melhorar o diagnóstico, desenvolver produtos farmacêuticos, aumentar a qualidade do atendimento para os profissionais de saúde e otimizar a produção agrícola. Para as ciências da vida, a análise genômica é agora uma aplicação chave, em parte devido à grande redução de custos da coleta de dados dos avanços no sequenciamento de próxima geração (NGS). Além do aumento da coleta de dados, também houve um crescimento significativo na gama de aplicações genômicas usadas em universidades, centros de pesquisa genômica, empresas farmacêuticas e organizações de saúde. 
A cada sete meses, a quantidade de dados genômicos está dobrando (1). O processamento de dados de forma eficiente e econômica tornou-se fundamental. O poder computacional das soluções somente do processador não está se dimensionando rápido o suficiente para acompanhar o crescimento de dados genômicos. Isso levou à necessidade de aceleração de hardware. Aceleradores como os FPGAs estão se tornando fundamentais para atender às demandas computacionais dessa explosão de dados genômicos. Em comparação com outras soluções aceleradas por hardware, o Falcon Accelerated Genomics Pipeline (FAGP) oferece flexibilidade, alto throughput e um custo mais baixo por amostra.
 



O que é FPGA, oferta e vantagem do Intel PAC:

Os FPGAs são dispositivos de silício que podem ser reprogramados dinamicamente com um caminho de dados que corresponde exatamente às suas cargas de trabalho, como sequenciamento genômico, Data Analytics ou compactação, conforme ilustrado na Figura 1. Essa versatilidade permite o provisionamento de processamento mais rápido, computação mais eficiente no consumo de energia e serviço de menor latência, reduzindo seu custo total de propriedade e maximizando a capacidade de computação dentro das restrições de energia, espaço e resfriamento de seus data centers. 
Tradicionalmente, os FPGAs exigem profundo conhecimento de domínio para programar. Para simplificar o fluxo de desenvolvimento e permitir a implementação rápida em todo o data center, a Intel oferece uma plataforma de aceleração que inclui placas de aceleração programáveis Intel FPGA baseadas em PCI Express* (PCIe*) (Intel FPGA PAC) e a pilha de aceleração Intel® para CPU Intel Xeon® com FPGAs. Essas plataformas Intel são qualificadas, validadas e implementadas pela Dell EMC. Juntamente com parceiros de ecossistema como a Falcon Computing, a plataforma de aceleração da Intel oferece uma solução confiável e pronta para uso com hardware transparente sob o capô.

SLN319291_en_US__1image(12669)
Figura 1: Precisão e velocidade aprimoradas no pipeline GATK padrão
 



Detalhes da solução Falcon:

O Genome Analysis Toolkit (GATK) é o padrão-ouro para processamento de dados genômicos aceito pela comunidade genômica (2). Seu Best Practice Workflow (BPW) é bem conhecido por sua lentidão na computação para gerar resultados para grandes amostras, como o Genoma Completo (WGS). Para resolver essa questão, a Falcon Computing Solutions desenvolveu um pacote de software flexível de ferramentas que segue o BPW e pode ser implementado em múltiplas plataformas e arquiteturas. Ele é rápido em várias ordens de magnitude quando comparado aos pipelines GATK baseados em CPU.
O FAGP fornece uma solução de ponta a ponta para analisar dados genômicos de forma econômica usando o pipeline GATK com alto desempenho, precisão e reprodutibilidade. A solução oferece até 15x de aceleração com a mesma precisão do GATK (3). Isso significa que uma análise que normalmente leva de 50 a 60 horas pode ser realizada em menos de 4 horas (3). O FAGP oferece níveis excepcionais de aceleração e precisão com FPGAs Intel Arria 10 confiáveis e de alto desempenho e processadores Intel® Xeon®. 
A FAGP segue o GATK BPW. Ele implementa aceleração em muitos componentes dos pipelines desde o alinhamento (BWA) até a chamada de variantes (HaplotypeCaller) (4). Além do BWA acelerado, ele também inclui uma versão acelerada do alinhador Minimap2 que faz parte do Alternate Genomic Pipeline da Falcon (5). O pipeline alternativo oferece uma solução ainda mais rápida. Ele pode completar 50x o sequenciamento do genoma completo em 3 horas. Ambos os alinhadores têm o recurso de gerar duplicatas marcadas e leituras classificadas sem a necessidade de usar ferramentas adicionais. 
O FAGP alcança alto desempenho/throughput acelerando a computação intensiva no pipeline do GATK usando plataformas Intel FPGA PAC. Isso é diferente das soluções de scale-out que alcançam alto throughput adicionando mais recursos da CPU. Essas soluções de scale-out têm capacidade limitada de reduzir custos ou latência por amostra.
Outra vantagem da solução Falcon é que ela é um pipeline aberto como o GATK. Os usuários podem controlar etapas individuais nos pipelines. Os dados intermediários são salvos e podem ser acessados.


Tabela 1: Vantagens do pipeline de genômica acelerada Falcon

 

Vantagens do Falcon Accelerated Genomics Pipeline (FAGP)
GATK verdadeiro Suporte para várias versões do GATIK, incluindo 4.0
Escala do setor Execute cinco genomas inteiros ou 24 exomas inteiros em um dia.
Variante alternativa < Tempo de resposta de 3 horas no local para WGS (50X)
Velocidade Execute o pipeline de práticas recomendadas do GATK até >15 vezes mais rápido.
Aproveite os recursos existentes Não há necessidade de reescrever algoritmos de trabalho.
 



Configuração de hardware da Dell

Tabela 2: Dell EMC PowerEdge R740xd como plataforma de teste

Dell EMC PowerEdge R740xd
Processador 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
Memória 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank
Armazenamento 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0
FPGA Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Perfil do sistema Performance
Versão do BIOS 2.1.3
Hyperthreading Enabled
OS Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Avaliação de desempenho

Em nossos testes de referência de desempenho, usamos dados de sequenciamento do genoma humano completo a uma profundidade de cobertura de 10x, 30x e 50x.


Tabela 3: Dados testados de sequenciamento do genoma completo
 

Executar a adesão Profundidade de cobertura Link de dados
ERR091571 10x https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30x https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50x https://www.ebi.ac.uk/ena/data/view/ERR194161



 

Resultados:

A Tabela 4 resume o tempo necessário para concluir o pipeline de práticas recomendadas do GATK 4.0 em três ciclos de teste usando FAGP e o Intel FPGA PAC alojados no servidor DELL EMC PowerEdge R740xd.


Tabela 4: Total de tempos de execução do Best Practice Pipeline versão 2.1.1

Amostra Profundidade de cobertura Teste 1 Tempo de execução (minutos)
Teste 2
Teste 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18


A Tabela 5 resume o tempo (em minutos) necessário para concluir o pipeline alternativo: Falcon Germline em três ciclos de teste usando FAGP e o Intel FPGA PAC alojado no servidor DELL EMC PowerEdge R740xd.


Tabela 5: Total de tempos de execução do pipeline alternativo de chamada de variantes

Amostra Profundidade de cobertura Teste 1 Tempo de execução (minutos)
Teste 2
Teste 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37

 



Resumo da Falcon Genomic Solution

O pipeline de genômica acelerada da Falcon oferece alto throughput e baixo custo/amostra/benefício diário. Juntamente com a placa de aceleração programável Intel FPGA e o servidor DELL certificado, o FAGP fornece uma solução completa que pode ser adotada para seus aplicativos de sequenciamento genômico."
Na TCGB, prestamos serviços de sequenciamento genômico para nossos clientes em todo o país. O Falcon Accelerated Genomics Pipeline* nos permitiu reduzir nosso prazo de entrega de dias para algumas horas, mantendo a precisão dos pipelines GATK padrão da indústria."
— Dr. Xinmin Li, Diretor do Centro de Tecnologia para Genômica e Bioinformática (TCGB) UCLA



Recursos 

1. O sequenciamento do genoma cria tantos dados que não sabemos o que fazer com eles. [Online] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. GATK [Online] https://software.broadinstitute.org/gatk/
3. Genômica acelerada [Online] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. BWA. [On-line]
http://bio-bwa.sourceforge.net/bwa.shtml5. Minimapa2. [On-line] https://github.com/lh3/minimap2


 

Cause

Impulso do sequenciamento de genoma com o FAGP (Falcon Accelerated Genomics Pipeline) na PAC Intel FPGA.

Resolution

O Falcon Accelerated Genomics Pipeline com uma única placa de aceleração programável Intel FPGA pode processar 50x genomas humanos inteiros em menos de 3 horas por meio do Alternative Variant Calling Pipeline.

Affected Products

Dell EMC Ready Solution Resources, OEMR R740xd, PowerEdge R740XD
Article Properties
Article Number: 000136278
Article Type: Solution
Last Modified: 08 Sep 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.