A configuração de 64 nós de computação das Dell EMC Ready Solutions for HPC Life Sciences pode processar 194 genomas por dia (profundidade de cobertura de 50x).
Visão geral
Chamada variante é um processo pelo qual identificamos variantes de dados sequenciais. Esse processo ajuda a determinar se há polimórficos de polimórfico único (SNPs), inserções e exclusões (indels) e/ou variantes estruturais (SVs) em uma determinada posição em um genoma ou transcriptome individual. O principal objetivo de identificar variações genômicas é vincular-se a doenças humanas. Embora nem todas as doenças humanas estejam associadas a variações genéticas, a chamada variante pode fornecer uma diretriz valiosa para os geneticistas que trabalham em uma determinada doença causada por variações genéticas. O BWA-GATK é uma das ferramentas computacionais de sequenciamento de última geração (NGS) que foram projetadas para identificar invasões de NGS (Next Generation Sequencing, sequenciamento de última geração) que foram projetadas para identificar as invasões metronéticas e somáticas dos dados de NGS humano. Há algumas ferramentas de identificação de variantes, e entendemos que não há uma única ferramenta que funciona perfeitamente (1). No entanto, escolhemos o GATK, que é uma das ferramentas mais populares como nossa ferramenta de benchmark para demonstrar como as Dell EMC Ready Solutions for HPC Life Sciences podem processar cargas de trabalho complexas e massivas de NGS.
O objetivo deste blog é fornecer informações valiosas de desempenho sobre o processador Intel® Xeon® Gold 6248 para referência de desempenho de pipeline BWA-GATK com o Dell EMC Ready Solutions for HPC Lustre Storage (atualização da série ME4) (2). A CPU Xeon® Gold 6248 apresenta 20 núcleos físicos ou 40 núcleos lógicos ao usar hyper-threading. As configurações de cluster de teste são resumidas na Tabela 1.
Dell EMC PowerEdge C6420 | |
---|---|
CPU | 2 x Xeon® Gold 6248 20 núcleos 2,5 GHz (Cascade Lake) |
RAM | 12 de 16 GB a 2.933 MTps |
OS | RHEL 7.6 |
Interconexão | Intel® Omni-Path |
Perfil do sistema BIOS | Desempenho otimizado |
Processador lógico | Disabled |
Tecnologia de virtualização | Disabled |
BWA | 0,7,15-r1140 |
Ferramentas samtools | 1.6 |
GATK | 3,6-0-g89b7209 |
Dell EMC Ready Solution for Lustre Storage | |
---|---|
Número de nós | 1 Dell EMC PowerEdge R640 como Integrated Manager for Lustre (IML) 2x Dell EMC PowerEdge R740 como servidor de metadados (MDS) 2x Dell EMC PowerEdge R740 como servidor de armazenamento em object (OSS) |
Processadores | Servidor IML: Dois servidores Intel Xeon Gold 5118 a 2,3 GHz MDS e OSS: Intel Xeon Gold 6136 duplo a 3,00 GHz |
Memória | Servidor IML: 12 x 8 GB 2.666 MT/s RDIMMs DDR4 Servidores MDS e OSS: 24 x 16 GiB 2.666 MT/s DDR4 RDIMMs |
Controladores de armazenamento externo |
2 HBAs SAS Dell de 12 Gb/s (em cada MDS) 4 HBAs SAS Dell de 12 Gb/s (em cada OSS) |
Compartimentos de armazenamento em object |
4 x ME4084 com um total de 336 x 8 TB NL 7.200 RPM HDDs SAS |
Compartimento de armazenamento de metadados |
1 ME4024 com 24 SSDs SAS de 960 GB. Suporta até 4,68 B inodes |
Controladores RAID | Controladores RAID SAS duplex nos compartimentos ME4084 e ME4024 |
Sistema operacional | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
Versão do BIOS | 1.4.5 |
Versão do INTEL Omni-Path IFS |
10.8.0.0 |
Versão do file system Lustre |
2.10.4 |
Versão do IML | 4.0.7.0 |