Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Dell EMC Ready Solution for HPC Life Sciences: Testes de throughput de pipeline BWA-GATK com a CPU Cascade Lake e a atualização do Lustre ME4

Résumé: Dell EMC Ready Solution for HPC Life Sciences: Testes de throughput de pipeline BWA-GATK com a CPU Cascade Lake e a atualização do Lustre ME4

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

A configuração de 64 nós de computação das Dell EMC Ready Solutions for HPC Life Sciences pode processar 194 genomas por dia (profundidade de cobertura de 50x).

Visão geral

Esse hiperlink direcionará você para um site fora da Dell Technologies.Chamada variante é um processo pelo qual identificamos variantes de dados sequenciais. Esse processo ajuda a determinar se há polimórficos de polimórfico único (SNPs), inserções e exclusões (indels) e/ou variantes estruturais (SVs) em uma determinada posição em um genoma ou transcriptome individual. O principal objetivo de identificar variações genômicas é vincular-se a doenças humanas. Embora nem todas as doenças humanas estejam associadas a variações genéticas, a chamada variante pode fornecer uma diretriz valiosa para os geneticistas que trabalham em uma determinada doença causada por variações genéticas. O BWA-GATK é uma das ferramentas computacionais de sequenciamento de última geração (NGS) que foram projetadas para identificar invasões de NGS (Next Generation Sequencing, sequenciamento de última geração) que foram projetadas para identificar as invasões metronéticas e somáticas dos dados de NGS humano. Há algumas ferramentas de identificação de variantes, e entendemos que não há uma única ferramenta que funciona perfeitamente (1). No entanto, escolhemos o GATK, que é uma das ferramentas mais populares como nossa ferramenta de benchmark para demonstrar como as Dell EMC Ready Solutions for HPC Life Sciences podem processar cargas de trabalho complexas e massivas de NGS. 
O objetivo deste blog é fornecer informações valiosas de desempenho sobre o processador Intel® Xeon® Gold 6248 para referência de desempenho de pipeline BWA-GATK com o Dell EMC Ready Solutions for HPC Lustre Storage (atualização da série ME4) (2). A CPU Xeon® Gold 6248 apresenta 20 núcleos físicos ou 40 núcleos lógicos ao usar hyper-threading. As configurações de cluster de teste são resumidas na Tabela 1.

Tabela 1 Configuração testada do nó de computação
 
Dell EMC PowerEdge C6420
CPU 2 x Xeon® Gold 6248 20 núcleos 2,5 GHz (Cascade Lake)
RAM 12 de 16 GB a 2.933 MTps
OS RHEL 7.6
Interconexão Intel® Omni-Path
Perfil do sistema BIOS Desempenho otimizado
Processador lógico Disabled
Tecnologia de virtualização Disabled
BWA 0,7,15-r1140
Ferramentas samtools 1.6
GATK 3,6-0-g89b7209

Os nós de computação testados foram conectados às Dell EMC Ready Solutions for HPC Lustre Storage por meio do Intel® Omni-Path. A configuração resumida do armazenamento está listada na Tabela 2.
Tabela 2 Especificações de hardware e software da solução
 
Dell EMC Ready Solution for Lustre Storage
Número de nós 1 Dell EMC PowerEdge R640 como Integrated Manager for Lustre (IML)
2x Dell EMC PowerEdge R740 como servidor de metadados (MDS)
2x Dell EMC PowerEdge R740 como servidor de armazenamento em object (OSS)
Processadores Servidor IML: Dois servidores Intel Xeon Gold 5118 a 2,3 GHz
MDS e OSS: Intel Xeon Gold 6136 duplo a 3,00 GHz
Memória Servidor IML: 12 x 8 GB 2.666 MT/s RDIMMs
DDR4 Servidores MDS e OSS: 24 x 16 GiB 2.666 MT/s DDR4 RDIMMs
Controladores de
armazenamento externo
2 HBAs SAS Dell de 12 Gb/s (em cada MDS)
4 HBAs SAS Dell de 12 Gb/s (em cada OSS)
Compartimentos de armazenamento
em object
4 x ME4084 com um total de 336 x 8 TB NL 7.200 RPM HDDs SAS
Compartimento de armazenamento de metadados
1 ME4024 com 24 SSDs SAS de 960 GB. Suporta até 4,68 B inodes
Controladores RAID Controladores RAID SAS duplex nos compartimentos ME4084 e ME4024
Sistema operacional CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Versão do BIOS 1.4.5
Versão do INTEL Omni-Path
IFS
10.8.0.0
Versão do file system
Lustre
2.10.4
Versão do IML 4.0.7.0

Os dados de teste foram escolhidos de um dos genomas Platinum da Illumina. ERR194161 foi processado com o Illumina HiSeq 2000 enviado pela Illumina e pode ser obtido do EMBL-EBI. O identificador de DNA desse indivíduo é NA12878. A descrição dos dados do site vinculado mostra que essa >amostra tem uma profundidade de cobertura de 30x.

Avaliação de desempenho

Exemplo único de desempenho de vários nós

Na Figura 1, o tempo de execução em vários números de amostras e nós de computação com 50 vezes os dados de WGS (Whole Genome Sequencing, sequenciamento de genoma inteiro) são resumidos. Os testes realizados aqui foram projetados para demonstrar o desempenho no nível do servidor, e não para comparações em componentes individuais. Os pontos de dados na Figura 1 são calculados com base no número total de amostras, uma amostra por nó de computação (eixo X na figura) que são processados simultaneamente. Os detalhes das informações de pipeline do BWA-GATK podem ser obtidos no site do Broad Institute (3). O número máximo de nós de computação usados para os testes é 64x C6420s. Os C6420s com Lustre ME4 mostram um comportamento de dimensionamento melhor do que o Lustre MD3.

  Comparações de desempenho entre o Lustre MD3 e o Lustre ME4
Figura 1 Comparações de desempenho entre o Lustre MD3 e o Lustre ME4

Desempenho de vários nós de amostra

Uma maneira típica de executar o pipeline do NGS é executar várias amostras em um nó de computação e usar vários nós de computação para maximizar o throughput do processo de dados do NGS. O número de nós de computação usados para os testes é de 64 nós de computação C6420, e o número de amostras por nó é de cinco amostras. Até 320 amostras são processadas simultaneamente para estimar o número máximo de genomas por dia sem uma falha de trabalho.
Conforme mostrado na Figura 2, um único nó de computação C6420 pode processar 3,24 de 50x genomas humanos inteiros por dia, quando 5 amostras são processadas simultaneamente. Para cada amostra, 7 núcleos e 30 GB de memória são alocados. 

  Testes de throughput com até 64 C6420s e Lustre ME4
Figura 2 Testes de throughput com até 64 C6420s e Lustre ME4

320 de 50 genomas humanos inteiros podem ser processados com 64 dos nós de computação C6420 em 40 horas.  Em outras palavras, o desempenho da configuração do teste resume-se como 194 genomas por dia para todo o genoma humano com profundidade de cobertura de 50x.

Conclusão

À medida que o tamanho dos dados do WGS vem crescendo constantemente. O tamanho médio atual do WGS é 50x. Isso é 5 vezes maior do que um WGS típico há 4 anos, quando começamos a fazer benchmark do pipeline BWA-GATK. O aumento dos dados não sobrecarrega a capacidade do armazenamento, pois a maioria dos aplicativos no pipeline também está vinculada à velocidade do relógio da CPU. Portanto, com o crescimento do tamanho dos dados, o pipeline é executado por mais tempo em vez de gerar mais gravações.
No entanto, há um número maior de arquivos temporários gerados durante o processo, porque mais dados precisam ser paralelizados, e esse número maior de arquivos temporários abertos ao mesmo tempo esgota o limite de arquivos abertos em um sistema operacional Linux. Um dos aplicativos falha silenciosamente ao atingir o limite do número de arquivos abertos. Uma solução simples é aumentar o limite para >150 mil. 
No entanto, a Ready Solution com Lustre ME4 como um espaço temporário tem uma capacidade de throughput melhor do que a versão anterior. A Ready Solution de 64 nós marca 194 genomas por dia de capacidade de processamento para 50 WGS.

Recursos 

1. Uma pesquisa com ferramentas para análise de variantes de dados de sequenciamento de genoma de última geração. Pabinger S, Dander A, Fischer M, Snajder R, Sperk M, Efremova M, Krabic fabric B, Speicher MR, Zschoang J, Tenaanoski Z. 2, s.l. : Breve bioinform, 2014 Mar, Vol. 15 (2). 10,1093/bib/bbs086.
2. Dell EMC Ready Solution for HPC Lustre Storage.  (O artigo não está mais disponível para referência, obtido pela equipe de HPC)
3. Kit de ferramentas de análise de genoma. https://software.broadinstitute.org/gatk/ Esse hiperlink direcionará você para um site fora da Dell Technologies.

Propriétés de l’article


Produit concerné

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Dernière date de publication

11 janv. 2024

Version

6

Type d’article

Solution