Dell EMC Ready Solution for HPC Life Sciences: Testes de throughput do pipeline BWA-GATK com a CPU Cascade Lake e a atualização do Lustre ME4

Summary: O arquivamento como artigo baseia-se em uma documentação de HPC que não está mais hospedada on-line e não pode ser editado para corresponder às expectativas da KB Dell EMC Ready Solution for HPC Life Sciences: Testes de throughput do pipeline BWA-GATK com a CPU Cascade Lake e a atualização do Lustre ME4 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

A configuração de 64 nós de computação do Dell EMC Ready Solutions for HPC Life Sciences pode processar 194 genomas por dia (profundidade de cobertura 50 vezes).

Visão geral

Chamada Esse hiperlink direcionará você para um site fora da Dell Technologies.de variante é um processo pelo qual identificamos variantes a partir de dados sequenciais. Esse processo ajuda a determinar se há polimorfismos de nucleotídeo único (SNPs), inserções e deleções (indels) e ou variantes estruturais (SVs) em uma determinada posição em um genoma ou transcriptoma individual. O principal objetivo da identificação de variações genômicas é a ligação com doenças humanas. Embora nem todas as doenças humanas estejam associadas a variações genéticas, a chamada de variantes pode fornecer uma diretriz valiosa para geneticistas que trabalham em uma determinada doença causada por variações genéticas. BWA-GATK é uma das ferramentas computacionais Next Generation Sequencing (NGS) que são projetadas para identificar mutações germinativas e somáticas a partir de dados NGS humanos. Há um punhado de ferramentas de identificação de variantes, e entendemos que não há uma única ferramenta que funcione perfeitamente (1). No entanto, escolhemos o GATOK, que é uma das ferramentas mais populares, como nossa ferramenta de análises comparativas para demonstrar o quão bem as Dell EMC Ready Solutions for HPC Life Sciences podem processar cargas de trabalho NGS complexas e massivas. 
O objetivo deste blog é fornecer informações valiosas sobre o processador Intel® Xeon® Gold 6248 para referência de desempenho de pipeline BWA-GATK com as Dell EMC Ready Solutions for HPC Lustre Storage (atualização da série ME4) (2). A CPU Xeon® Gold 6248 apresenta 20 núcleos físicos ou 40 núcleos lógicos ao usar hyper threading. As configurações em cluster de teste estão resumidas na Tabela 1.

Tabela 1: configuração testada do nó de computação
 
Dell EMC PowerEdge C6420
CPU 2 Xeon® Gold 6248, 20 núcleos, 2,5 GHz (Cascade Lake)
RAM 12x 16 GB em 2933 MTps
OS RHEL 7.6
Interconexão Intel® Omni-Path
Perfil do sistema BIOS Desempenho otimizado
Processador lógico Disabled
Tecnologia de virtualização Disabled
BWA 0.7.15-R1140
Samtools 1.6
GATK 3.6-0-G89B7209

Os nós de computação testados foram conectados ao Dell EMC Ready Solutions for HPC Lustre Storage por meio do Intel® Omni-Path. A configuração resumida do armazenamento está listada na Tabela 2.
Tabela 2 Especificações de hardware e software da solução
 
Dell EMC Ready Solution for Lustre Storage
Número de nós 1 Dell EMC PowerEdge R640 como Integrated Manager for Lustre (IML)
2 Dell EMC PowerEdge R740 como servidor de metadados (MDS) 2 Dell EMC PowerEdge R740 como Object Storage Server (OSS)
Processadores Servidor IML: Dois servidores Intel Xeon Gold 5118 @ 2,3 GHz
MDS e OSS: Intel Xeon Gold 6136 duplo a 3,00 GHz
Memória Servidor IML: 12 RDIMMs
DDR4 de 8 GB e 2.666 MT/s Servidores MDS e OSS: 24x RDIMMs DDR4 de 16 GiB e 2.666 MT/s
Controladores de armazenamento
externo
2 HBAs SAS Dell de 12 Gb/s (em cada MDS)
4 HBAs SAS Dell de 12 Gb/s (em cada OSS)
Compartimentos de armazenamento em
objeto
4x ME4084 com um total de 336 discos rígidos SAS NL de 7.200 RPM de 8 TB
Compartimento de armazenamento de
metadados
1x ME4024 com 24x SSDs SAS de 960 GB. Compatível com inodes de até 4,68 B
Controladores RAID Controladores RAID SAS duplex nos compartimentos ME4084 e ME4024
Sistema operacional CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Versão do BIOS 1.4.5
Versão do Intel Omni-Path
IFS
10.8.0.0
Versão do file system
Lustre
2.10.4
Versão de IML 4.0.7.0

Os dados do teste foram escolhidos de um dos genomas de platina da Illumina. ERR194161 foi processado com Illumina HiSeq 2000 enviado pela Illumina e pode ser obtido de EMBL-EBI. O identificador de DNA desse indivíduo é NA12878. A descrição dos dados do site vinculado mostra que esta amostra tem uma >profundidade de cobertura de 30x.

Avaliação de desempenho

Exemplo único de desempenho de vários nós

Na Figura 1, o tempo de execução em vários números de amostras e nós de computação com dados de Sequenciamento do Genoma Completo (WGS) 50x é resumido. Os testes executados aqui foram projetados para demonstrar o desempenho no nível do servidor, não para comparações em componentes individuais. Os pontos de dados na Figura 1 são calculados com base no número total de amostras, uma amostra por nó de computação (eixo X na figura) que são processadas simultaneamente. Os detalhes das informações sobre o gasoduto BWA-GATK podem ser obtidos no site do Broad Institute (3). O número máximo de nós de computação usados para os testes é de 64 x C6420s. Os C6420s com Lustre ME4 apresentam um comportamento de dimensionamento melhor do que o Lustre MD3.

 Comparações de desempenho entre o Lustre MD3 e o Lustre ME4
Figura 1 Comparações de desempenho entre o Lustre MD3 e o Lustre ME4

Várias amostras de desempenho de vários nós

Uma maneira típica de executar o pipeline NGS é executar várias amostras em um nó de computação e usar vários nós de computação para maximizar o throughput do processamento de dados do NGS. O número de nós de computação usado para os testes é 64 dos nós de computação C6420, e o número de amostras por nó é de cinco amostras. Até 320 amostras são processadas simultaneamente para estimar o número máximo de genomas por dia sem falha no trabalho.
Conforme mostrado na Figura 2, um único nó de computação C6420 pode processar 3,24 de 50x genomas humanos inteiros por dia quando 5 amostras são processadas simultaneamente. Para cada amostra, 7 núcleos e 30 GB de memória são alocados. 

 Testes de throughput com até 64 C6420s e o Lustre ME4
Figura 2 Testes de throughput com até 64 C6420s e o Lustre ME4

320 de 50 genomas humanos inteiros podem ser processados com 64 nós de computação C6420 em 40 horas.  Em outras palavras, o desempenho da configuração de teste se resume em 194 genomas por dia para genoma humano inteiro com profundidade de cobertura de 50x.

Conclusão

Como o tamanho dos dados do WGS tem crescido constantemente. O tamanho médio atual do WGS é de 50x. Isso é 5 vezes maior do que um WGS típico de 4 anos atrás, quando começamos a fazer benchmark do pipeline BWA-GATT. O aumento dos dados não sobrecarrega a capacidade do armazenamento, já que a maioria dos aplicativos no pipeline também é limitada pela velocidade do relógio da CPU. Portanto, com o aumento do tamanho dos dados, o pipeline é executado por mais tempo em vez de gerar mais gravações.
No entanto, há um maior número de arquivos temporários são gerados durante o processo devido a mais dados precisam ser paralelizados, e esse maior número de arquivos temporários abertos ao mesmo tempo esgota o limite de arquivos abertos em um sistema operacional Linux. Um dos aplicativos silenciosamente não é concluído, atingindo o limite do número de arquivos abertos. Uma solução simples é aumentar o limite para >150K. 
No entanto, a solução pronta com o Lustre ME4 como espaço temporário tem uma capacidade de throughput melhor do que a versão anterior. Agora, a Ready Solution de 64 nós marca a capacidade de processamento de 194 genomas por dia para 50 WGS.

Recursos 

1. Um levantamento de ferramentas para análise de variantes de dados de sequenciamento genômico de próxima geração. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Breve Bioinformação, 2014 Mar, Vol. 15 (2). 10,1093/bib/bbs086.
2. Dell EMC Ready Solution for HPC Lustre Storage.  (Artigo não mais disponível para referência, solicitado pela equipe de HPC)
3. Kit de ferramentas de análise genômica. https://software.broadinstitute.org/gatk/Esse hiperlink direcionará você para um site fora da Dell Technologies.

Cause

O arquivamento como artigo baseia-se em uma documentação de HPC que não está mais hospedada on-line e não pode ser editado para corresponder às expectativas da KB

Resolution

O arquivamento como artigo baseia-se em uma documentação de HPC que não está mais hospedada on-line e não pode ser editado para corresponder às expectativas da KB

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sep 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.