Dell EMC Ready Solution for HPC Life Sciences: Testes de throughput do pipeline BWA-GATK com a CPU Cascade Lake e a atualização do Lustre ME4
Summary: O arquivamento como artigo baseia-se em uma documentação de HPC que não está mais hospedada on-line e não pode ser editado para corresponder às expectativas da KB Dell EMC Ready Solution for HPC Life Sciences: Testes de throughput do pipeline BWA-GATK com a CPU Cascade Lake e a atualização do Lustre ME4 ...
Symptoms
A configuração de 64 nós de computação do Dell EMC Ready Solutions for HPC Life Sciences pode processar 194 genomas por dia (profundidade de cobertura 50 vezes).
Visão geral
Chamada de variante é um processo pelo qual identificamos variantes a partir de dados sequenciais. Esse processo ajuda a determinar se há polimorfismos de nucleotídeo único (SNPs), inserções e deleções (indels) e ou variantes estruturais (SVs) em uma determinada posição em um genoma ou transcriptoma individual. O principal objetivo da identificação de variações genômicas é a ligação com doenças humanas. Embora nem todas as doenças humanas estejam associadas a variações genéticas, a chamada de variantes pode fornecer uma diretriz valiosa para geneticistas que trabalham em uma determinada doença causada por variações genéticas. BWA-GATK é uma das ferramentas computacionais Next Generation Sequencing (NGS) que são projetadas para identificar mutações germinativas e somáticas a partir de dados NGS humanos. Há um punhado de ferramentas de identificação de variantes, e entendemos que não há uma única ferramenta que funcione perfeitamente (1). No entanto, escolhemos o GATOK, que é uma das ferramentas mais populares, como nossa ferramenta de análises comparativas para demonstrar o quão bem as Dell EMC Ready Solutions for HPC Life Sciences podem processar cargas de trabalho NGS complexas e massivas.
O objetivo deste blog é fornecer informações valiosas sobre o processador Intel® Xeon® Gold 6248 para referência de desempenho de pipeline BWA-GATK com as Dell EMC Ready Solutions for HPC Lustre Storage (atualização da série ME4) (2). A CPU Xeon® Gold 6248 apresenta 20 núcleos físicos ou 40 núcleos lógicos ao usar hyper threading. As configurações em cluster de teste estão resumidas na Tabela 1.
| Dell EMC PowerEdge C6420 | |
|---|---|
| CPU | 2 Xeon® Gold 6248, 20 núcleos, 2,5 GHz (Cascade Lake) |
| RAM | 12x 16 GB em 2933 MTps |
| OS | RHEL 7.6 |
| Interconexão | Intel® Omni-Path |
| Perfil do sistema BIOS | Desempenho otimizado |
| Processador lógico | Disabled |
| Tecnologia de virtualização | Disabled |
| BWA | 0.7.15-R1140 |
| Samtools | 1.6 |
| GATK | 3.6-0-G89B7209 |
Os nós de computação testados foram conectados ao Dell EMC Ready Solutions for HPC Lustre Storage por meio do Intel® Omni-Path. A configuração resumida do armazenamento está listada na Tabela 2.
Tabela 2 Especificações de hardware e software da solução
| Dell EMC Ready Solution for Lustre Storage | |
|---|---|
| Número de nós | 1 Dell EMC PowerEdge R640 como Integrated Manager for Lustre (IML) 2 Dell EMC PowerEdge R740 como servidor de metadados (MDS) 2 Dell EMC PowerEdge R740 como Object Storage Server (OSS) |
| Processadores | Servidor IML: Dois servidores Intel Xeon Gold 5118 @ 2,3 GHz MDS e OSS: Intel Xeon Gold 6136 duplo a 3,00 GHz |
| Memória | Servidor IML: 12 RDIMMs DDR4 de 8 GB e 2.666 MT/s Servidores MDS e OSS: 24x RDIMMs DDR4 de 16 GiB e 2.666 MT/s |
| Controladores de armazenamento externo |
2 HBAs SAS Dell de 12 Gb/s (em cada MDS) 4 HBAs SAS Dell de 12 Gb/s (em cada OSS) |
| Compartimentos de armazenamento em objeto |
4x ME4084 com um total de 336 discos rígidos SAS NL de 7.200 RPM de 8 TB |
| Compartimento de armazenamento de metadados |
1x ME4024 com 24x SSDs SAS de 960 GB. Compatível com inodes de até 4,68 B |
| Controladores RAID | Controladores RAID SAS duplex nos compartimentos ME4084 e ME4024 |
| Sistema operacional | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
| Versão do BIOS | 1.4.5 |
| Versão do Intel Omni-Path IFS |
10.8.0.0 |
| Versão do file system Lustre |
2.10.4 |
| Versão de IML | 4.0.7.0 |
Os dados do teste foram escolhidos de um dos genomas de platina da Illumina. ERR194161 foi processado com Illumina HiSeq 2000 enviado pela Illumina e pode ser obtido de EMBL-EBI. O identificador de DNA desse indivíduo é NA12878. A descrição dos dados do site vinculado mostra que esta amostra tem uma >profundidade de cobertura de 30x.
Avaliação de desempenho
Exemplo único de desempenho de vários nós
Na Figura 1, o tempo de execução em vários números de amostras e nós de computação com dados de Sequenciamento do Genoma Completo (WGS) 50x é resumido. Os testes executados aqui foram projetados para demonstrar o desempenho no nível do servidor, não para comparações em componentes individuais. Os pontos de dados na Figura 1 são calculados com base no número total de amostras, uma amostra por nó de computação (eixo X na figura) que são processadas simultaneamente. Os detalhes das informações sobre o gasoduto BWA-GATK podem ser obtidos no site do Broad Institute (3). O número máximo de nós de computação usados para os testes é de 64 x C6420s. Os C6420s com Lustre ME4 apresentam um comportamento de dimensionamento melhor do que o Lustre MD3.
Figura 1 Comparações de desempenho entre o Lustre MD3 e o Lustre ME4
Várias amostras de desempenho de vários nós
Uma maneira típica de executar o pipeline NGS é executar várias amostras em um nó de computação e usar vários nós de computação para maximizar o throughput do processamento de dados do NGS. O número de nós de computação usado para os testes é 64 dos nós de computação C6420, e o número de amostras por nó é de cinco amostras. Até 320 amostras são processadas simultaneamente para estimar o número máximo de genomas por dia sem falha no trabalho.Conforme mostrado na Figura 2, um único nó de computação C6420 pode processar 3,24 de 50x genomas humanos inteiros por dia quando 5 amostras são processadas simultaneamente. Para cada amostra, 7 núcleos e 30 GB de memória são alocados.
Figura 2 Testes de throughput com até 64 C6420s e o Lustre ME4
320 de 50 genomas humanos inteiros podem ser processados com 64 nós de computação C6420 em 40 horas. Em outras palavras, o desempenho da configuração de teste se resume em 194 genomas por dia para genoma humano inteiro com profundidade de cobertura de 50x.
Conclusão
Como o tamanho dos dados do WGS tem crescido constantemente. O tamanho médio atual do WGS é de 50x. Isso é 5 vezes maior do que um WGS típico de 4 anos atrás, quando começamos a fazer benchmark do pipeline BWA-GATT. O aumento dos dados não sobrecarrega a capacidade do armazenamento, já que a maioria dos aplicativos no pipeline também é limitada pela velocidade do relógio da CPU. Portanto, com o aumento do tamanho dos dados, o pipeline é executado por mais tempo em vez de gerar mais gravações.No entanto, há um maior número de arquivos temporários são gerados durante o processo devido a mais dados precisam ser paralelizados, e esse maior número de arquivos temporários abertos ao mesmo tempo esgota o limite de arquivos abertos em um sistema operacional Linux. Um dos aplicativos silenciosamente não é concluído, atingindo o limite do número de arquivos abertos. Uma solução simples é aumentar o limite para >150K.
No entanto, a solução pronta com o Lustre ME4 como espaço temporário tem uma capacidade de throughput melhor do que a versão anterior. Agora, a Ready Solution de 64 nós marca a capacidade de processamento de 194 genomas por dia para 50 WGS.
Recursos
1. Um levantamento de ferramentas para análise de variantes de dados de sequenciamento genômico de próxima geração. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Trajanoski Z. 2, s.l. : Breve Bioinformação, 2014 Mar, Vol. 15 (2). 10,1093/bib/bbs086.2. Dell EMC Ready Solution for HPC Lustre Storage. (Artigo não mais disponível para referência, solicitado pela equipe de HPC)
3. Kit de ferramentas de análise genômica. https://software.broadinstitute.org/gatk/
Cause
O arquivamento como artigo baseia-se em uma documentação de HPC que não está mais hospedada on-line e não pode ser editado para corresponder às expectativas da KB
Resolution
O arquivamento como artigo baseia-se em uma documentação de HPC que não está mais hospedada on-line e não pode ser editado para corresponder às expectativas da KB