PowerEdge: Acelerando a análise de dados genômicos com o NVIDIA Clara Parabricks, o servidor Dell EMC DSS 8440 e GPUs NVIDIA T4
Summary: Este artigo apresenta informações sobre como acelerar a análise de dados genômicos usando o NVIDIA Parabricks no Dell EMC DSS 8440 com GPUs NVIDIA T4.
Instructions
Visão geral
A primeira etapa para o processamento de dados de NGS (Next Generation Sequencing, Sequenciamento de Nova Geração) é chamada de análise primária. Essa etapa é específica do instrumento de sequenciamento e gera vários arquivos FASTQ contendo leituras de sequenciamento. Na próxima etapa, conhecida como análise secundária, as leituras de sequenciamento do FASTQ são mapeadas para um genoma de referência ou um transcriptoma de referência. Mais processamento identifica variantes, ou diferenças, entre a amostra de interesse e uma referência. As variantes são anotadas e interpretadas em etapas posteriores subsequentes. O tempo de análise secundária de uma única amostra varia de horas a dias, dependendo do tamanho dos dados, dos recursos de computação disponíveis, do software e do fluxo de trabalho analítico.
A análise secundária é um processo com uso intenso de computação e armazenamento, principalmente ao processar de centenas a milhares de genomas. Há muitas estratégias para evitar gargalos na análise secundária. Até recentemente, a adoção da aceleração de hardware usando GPUs ou FPGAs era baixa porque os aceleradores de hardware exigiam software personalizado. ParabricksO software de genômica, que foi adquirido pela NVIDIA em 2019, foi pioneiro em uma pilha de software que executa vários fluxos de trabalho de análise genômica com GPUs. Testamos Parabrickshá cerca de dois anos. A Dell introduziu muitos avanços tecnológicos em seus servidores e soluções de armazenamento, e a NVIDIA Clara Parabricks lançou versões robustas com aceleração aprimorada e a adição de chamadores variantes. Por exemplo, um projeto de servidor com várias GPUs baseado no servidor Dell EMC DSS 8440 com GPUs NVIDIA® Tesla® T4 parecia promissor para acelerar a análise secundária e, ao mesmo tempo, oferecer um equilíbrio atraente entre preço e desempenho. Este blog relata uma nova arquitetura de referência e resultados de benchmark para NVIDIA Clara Parabricks análise secundária em uma GPU T4 de vários Tesla,® servidor DSS 8440 com armazenamento Dell Isilon F800 .
Arquitetura de referência
A Figura 1 ilustra a arquitetura de referência testada. A arquitetura é modular e fácil de dimensionar. A NVIDIA Clara Parabricks o software aplicativo usa uma ou mais GPUs, tornando o scale-out o mais simples possível. Os componentes modulares de hardware consistem no Dell PowerEdge R640 como um nó de gerenciamento, no servidor DSS 8440 para computação de GPU e no armazenamento do Dell EMC Isilon F800.
Figura 1: arquitetura de referência testada
O servidor DSS 8440 4U de 2 soquetes pode acomodar até 10 GPUs NVIDIA® Tesla® V100S Tensor Core líderes do setor, até 10 GPUs NVIDIA® Quadro RTX™ ou até 16 GPUs NVIDIA Tesla T4, fornecendo uma potência incrível. A configuração detalhada do DSS 8440 está listada na Tabela 1.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
Dois switches Z9100-ON forneceram a interconexão entre o nó de computação e o cluster de armazenamento Isilon F800. Um switch adicional, o N2248X-ON, é usado para gerenciamento.
Dados de NGS
Os dados para o tempo de execução da análise secundária de benchmarking consistiram em três conjuntos de dados de sequenciamento humano do genoma completo (WGS), ERR091571, SRR3124837
e ERR194161
, representando 10x, 30x e 50x, respectivamente, cobertura da amostra. Estes conjuntos de dados estão disponíveis no European Nucleotide Archive (ENA).
Avaliação de desempenho
As melhorias de software reduzem o tempo de execução.
A NVIDIA continua introduzindo melhorias de software na NVIDIA Clara Parabricks. A Figura 2 mostra a redução do tempo de execução entre duas versões do Parabricks executando o pipeline germinativo usando o servidor Dell PowerEdge C4140 com o ambiente de teste de 4 GPUs V100. A mudança da v2.1.0 para a v3.0.0 reduziu o tempo de execução em 42%.
Figura 2: Versão mais recente do tempo de execução do pipeline de chamada variante germinativa Parabricks.
Desempenhos do DSS 8440 com 16 GPUs T4
O tempo de execução de uma NVIDIA Clara Parabricks a análise secundária usando uma única GPU T4 é aproximadamente 30% mais lenta do que usando uma GPU V100. No entanto, 2 (duas) GPUs T4 fornecem cerca de 10% mais TFLOPS do que 1 (uma) GPU V100 por, aproximadamente, metade do custo. O DSS 8440 fornece até 16 slots PCIe, o que abre a possibilidade de projetar um servidor baseado em GPU T4 que oferece desempenho de tempo de execução semelhante ao de um sistema C4140 com quatro GPUs V100, mas a um custo mais baixo.
O Parabricks A análise germinativa foi realizada usando um PowerEdge DSS 8440 com 16 GPUs T4. Para cada conjunto de dados de amostra do WGS descrito anteriormente, o tempo de execução foi registrado usando 1, 2, 4, 8 e 16 GPUs T4 por análise secundária. Os resultados são apresentados nas Figuras de 3 a 5. Em geral, o tempo de execução não é dimensionado linearmente à medida que aumenta o número de GPUs por análise. O padrão de dimensionamento é semelhante ao volume de dados por amostra, que aumenta de uma cobertura de 10x para 50x.
Embora não tenha sido apresentada aqui, uma investigação anterior da Dell EMC sobre Parabricks Os resultados do tempo de execução usando oito ou mais GPUs V100 por análise não foram dimensionados com a mesma eficiência das GPUs T4. Mais testes demonstraram que 6 GPUs T4 geraram resultados de tempo de execução quase idênticos a 4 GPUs V100.
Figura 3 Comparações de desempenho com 10x WGS
Figura 4 Comparações de desempenho com 30x WGS
Figura 5 Comparações de desempenho com 50 WGS
Conclusão
Um DSS 8440 com dezesseis GPUs T4 pode processar trinta genomas humanos 50x por dia. Um throughput de análise diária semelhante usando uma arquitetura de CPU x86 tradicional requer 10 nós de computação do PowerEdge C6420. A arquitetura completa é discutida em Dell Ready Solution for HPC Life Sciences: Testes de throughput de pipeline BWA-GATK com CPU Cascade Lake e atualização Lustre ME4.
No entanto, dedicar todas as 16 GPUs T4 para processar uma amostra proporciona poucos benefícios, pois usar 16 GPUs por análise é, na melhor das hipóteses, 10% mais rápido do que usar 8 GPUs. O design do DSS 8440 possibilita várias análises secundárias em paralelo. Ao atribuir oito GPUs T4 por amostra, o throughput da análise diária aumenta para, aproximadamente, 50 genomas por dia. O uso de quatro GPUs por amostra aumenta o throughput da análise para, aproximadamente, 70 genomas por dia. Mais importante ainda, esse resultado diário usando GPUs T4 custa menos da metade do uso de um projeto de GPU V100.
Além da velocidade, a compatibilidade com outras ferramentas de análise é essencial para possibilitar a comparação de resultados. A coluna Parabricks Os resultados da análise germinativa são quase idênticos à conhecida análise do chamador de haplótipo BWA-GATK de testes anteriores. Também queríamos comparar os resultados de chamadas da variante Parabricks com outros conjuntos de ferramentas, como samtools/mpileup. Essas duas ferramentas diferentes alcançam ~90% de concordância geral para variantes identificadas, e variações em muitas regiões genômicas bem conhecidas contendo genes importantes concordam mais de 99%.