Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Desempenho dos aplicativos de HPC com o Turing

Summary: Artigo escrito por Frank Han, Rengan Xu, Deepthi Cherlopalle e Quy Ta do Laboratório de inovação em IA e HPC da Dell EMC em março de 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms


Sumário:

  1. Resumo
  2. Visão geral
  3. HOOMD-blue
  4. Âmbar
  5. NAnoscale Molecular Dynamics (NAMD)
  6. High Performance Linpack (HPL)
  7. Conclusões e trabalho futuro

 

Resumo

 

Como sucessora da arquitetura Volta, a Turing™ é a mais recente família de GPUs da NVIDIA®. A GPU Turing™ está disponível com a GeForce®, em que é usada para renderizar games altamente realistas, e com a Quadro® para acelerar os fluxos de trabalho de criação de conteúdo. A NVIDIA® Série Tesla® foi desenvolvida para lidar com sistemas de inteligência artificial e cargas de trabalho de computação de alto desempenho (HPC) em data centers. A GPU NVIDIA® Tesla® T4 é a única de nível de servidor com a microarquitetura Turing™ disponível no mercado atualmente. Ela é compatível com os servidores Dell EMC PowerEdge R640, R740, R740xd e R7425. Este blog compara o desempenho da nova Tesla T4 com a Volta V100 PCIe mais recente no servidor PowerEdge R740 em diferentes aplicativos de HPC, incluindo HOOMD-blue, Amber, NAMD e HPL.


Voltar ao início


 

Visão geral

 

O PowerEdge R740 é um servidor montado em rack, baseado em Intel® Skylake de 2U, que fornece um equilíbrio ideal entre suporte a acelerador, E/S e armazenamento. Ele é compatível com até quatro* GPUs T4 de slot único ou três GPUs V100 PCIe de slot duplo em 16 slots PCIe 3.0.  A Tabela 1 observa as diferenças entre a T4 e a V100. A Volta™ V100 está disponível em configurações de memória de 16 GB ou 32 GB.  Como a T4 só está disponível em uma versão de 16 GB, usamos a V100 com placa de memória de 16 GB para fornecer resultados de desempenho comparáveis. A Tabela 2 lista os detalhes de hardware e software do banco de ensaio.

Tabela 1: Comparação entre a T4 e a V100

 

Tesla V100 PCIe

Tesla T4

Arquitetura

Volta

Turing

Núcleos CUDA

5120

2560

Núcleos Tensor

640

320

Capacidade de computação

7,0

7.5

Clock de GPU

1245 MHz

585 MHz

Clock de boost

1380 MHz

1590 MHz

Tipo de memória

HBM2

GDDR6

Barramento de memória

4096bit

256bit

Largura de banda

900 GB/s

320 GB/s

Amplitude do slot

Slot duplo

Slot único

Precisão única de FP32

14 TFLOPS

8,1 TFLOPS

Precisão mista (FP16/FP32)

112 TFLOPS

65 TFLOPS

Precisão dupla de FP64

7 TFLOPS

254,4 GFLOPS

TDP

250 W

70 W

 

Tabela 2: Detalhes da configuração do R740 e da versão do software

Processador

Dois processadores Intel® Xeon ® Gold 6136 a 3,0 GHz, 12 c

Memória

384 G (12*32 G a 2666 MHz)

Disco local

SSD de 480 G

Sistema operacional

Servidor Red Hat Enterprise Linux versão 7.5

GPU

3 V100 PCIe de 16 GB ou 4 T4 de 16 GB

Driver CUDA

410.66

Kit de ferramentas CUDA

10.0

Configurações do processador > processadores lógicos

Desativado

Perfis do sistema

Desempenho

HPL

Compilado com CUDA 10.0

NAMD

NAMD_Git-2019-02-11

Âmbar

18.12

HOOMD-blue

v2.5.0

OpenMPI

4.0.0

 


Voltar ao início


 

Cause

HOOMD-blue

 

SLN316570_en_US__1image(9290)

Figura 1: Resultados de desempenho de precisão única e dupla do HOOMD-blue com GPUs V100 e T4 no servidor PowerEdge R740

O HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics - blue) é um simulador de dinâmica molecular para uso geral. Por padrão, o HOOMD-blue é compilado em precisão dupla (FP64), e a versão 2.5 fornece um parâmetro SINGLE_PRECISION=ON para forçar a compilação em precisão única (FP32). A Figura 1 mostra os resultados do conjunto de dados da microesfera para a precisão única e para a dupla. O eixo x é o número de GPUs, e a medição de desempenho são as horas para executar as etapas 10e6.

  1. Uma observação é que o desempenho da T4 no FP64 é relativamente baixo. Isso ocorre devido à limitação de hardware. Em teoria, a T4 pode entregar um pico de desempenho de 254 GFLOPS (consulte a Tabela 1) em precisão dupla, enquanto a V100 entrega um desempenho 27 vezes maior. No entanto aplicativos como o HOOMD-blue, que podem ser compilados e executados com precisão única, podem ter uma vantagem de desempenho com a opção de compilação do FP32. A comunidade HOOMD-blue considerou nossa sugestão a respeito da compatibilidade com precisão mista em todos os módulos HOOMD-blue. Quando a iniciativa estiver concluída, o HOOMD-blue poderá ser mais bem aproveitado em um hardware compatível com a precisão mista.

  2. Ao comparar o desempenho de precisão única da T4 e da V100, observamos que a V100 é 3 vezes melhor que a T4. Esse desempenho é esperado da T4 devido ao número de núcleos CUDA e à classificação de potência no acelerador.

  3. As GPUs no servidor PowerEdge R740 são conectadas por PCIe. Para os três pontos de dados da GPU V100, o barramento PCIe está saturado devido às comunicações ponto a ponto. Isso afeta o desempenho geral, resultando no mesmo desempenho de uma GPU.

 


Voltar ao início


 

Âmbar

 


Amber é o nome coletivo de uma suíte de programas que permite aos usuários realizar simulações de dinâmica molecular, principalmente em biomoléculas. O termo Amber também é usado para se referir aos campos de força empírica que são implementados nesta suíte. A versão 18.12 da Amber com AmberTools 18.13 é testada com a suíte Amber 18 Benchmark, que inclui o conjunto de dados JAC, Cellulose, FactorIX, STMV, TRPCage, mioglobina e nucleossomo.

SLN316570_en_US__2image(9276)

Figura 2: Resultados de solvente explícito da Amber com as GPUs V100 e T4 no servidor PowerEdge R740

SLN316570_en_US__3image(9277)

Figura 3: Resultados de solvente implícito da Amber com as GPUs V100 e T4 no servidor PowerEdge R740 

As Figuras 2 e 3 mostram os números de desempenho de uma única placa e de todo o sistema com solvente explícito e solvente implícito, respectivamente.  No gráfico acima, "system" do ponto de dados representa o throughput agregado do sistema inteiro de todas as GPUs. O servidor PowerEdge R740 é compatível com três GPUs V100 ou quatro GPUs T4, portanto, as barras de "system" em vermelho e azul são os resultados com três V100 ou quatro T4.

O motivo para preferir dados agregados de várias placas de GPU é que as GPUs Pascal e posteriores não podem ser dimensionadas para além de um único acelerador do aplicativo Amber. Os usuários geralmente executam paralelamente várias simulações em outras GPUs. Em termos de desempenho com um grande conjunto de dados, como STMV (1.067.095 átomos), uma única T4 representa 33% e o sistema inteiro representa 44% da capacidade da V100. Conjuntos de dados, como TRPCage (somente 304 átomos), são muito pequenos para fazer uso eficaz de V100s, portanto, o desempenho nele não é muito mais rápido do que com a T4, pois elas são para execuções de PME maiores. De acordo com o resultado no site oficial da Amber, quase todos os números de GPUs são três ou quatro vezes mais rápidos do que as execuções apenas de CPU. Dessa forma, ter uma placa T4 em um servidor que lida com conjuntos de dados pequenos será uma boa opção.


Voltar ao início


 

Resolution

NAnoscale Molecular Dynamics (NAMD)

 

SLN316570_en_US__4image(9278)

Figura 4: Resultados de desempenho de NAMD com as GPUs V100 e T4 no servidor PowerEdge R740

NAMD é um código de dinâmica molecular desenvolvido para simulação de alto desempenho de grandes sistemas biomoleculares. Nestes testes, o binário pré-integrado não foi usado. Em vez disso, o NAMD foi integrado com o código-fonte mais recente (NAMD_Git-2019-02-11) e com CUDA 10.0. Para obter o melhor desempenho, o NAMD foi compilado com o compilador e as bibliotecas Intel® (versão 2018u3). A Figura 4 traça os resultados de desempenho usando o conjunto de dados STMV (1.066.628 átomos, periódico, PME). O NAMD não pode ser dimensionado para além de uma placa V100, mas pode ser bem dimensionado com três placas T4. Além disso, uma única GPU T4 representa 42% do desempenho da V100. Esse é um número decente, considerando que ela tem apenas 28% de TDP da V100. A T4 pode ser uma opção para data centers com capacidade limitada de energia e refrigeração.


Voltar ao início


 

High Performance Linpack (HPL)

 

SLN316570_en_US__5image(9283)

Figura 5: Resultados de HPL com as GPUs V100 e T4 no servidor PowerEdge R740

A Figura 5 mostra o desempenho de HPL no PowerEdge R740 com várias GPUs V100 ou T4. Conforme esperado, os números de HPL são bem dimensionados com várias GPUs, V100 e T4. No entanto, o desempenho da T4 é significativamente menor do que o da V100 devido à sua limitação de FP64. Devido à capacidade limitada da precisão dupla da T4, a comparação de desempenho com a V100 não é ideal, e a Volta V100 continua sendo a melhor opção para tais aplicativos de precisão dupla.


Voltar ao início


 

Conclusões e trabalho futuro

 

Neste blog, o desempenho dos aplicativos de HPC com HOOMD-blue, Amber, NAMD e HPL foi comparado entre a V100 e a T4 no Dell EMC PowerEdge R740. A T4 não é usada apenas para inferência de deep learning, mas também é vantajosa para aplicativos de HPC com suporte de precisão única ou mista. Sua baixa TDP pode ajudar a acelerar os data centers tradicionais, nos quais a capacidade de energia e refrigeração é limitada. O formato pequeno do PCIe da T4 faz dela uma boa opção para servidores PowerEdge mais voltados para uso geral. Há previsão de testes futuros com mais aplicativos, como RELION, GROMACS e LAMMPS, e também testes com aplicativos que podem aproveitar a precisão mista.

*Isenção: Para fins de análises comparativas, foram avaliadas quatro GPUs T4 no Dell PowerEdge R740. No momento, o PowerEdge R740 é oficialmente compatível com, no máximo, três T4 em 16 slots PCIe.


Voltar ao início


Affected Products

High Performance Computing Solution Resources, PowerEdge R740
Article Properties
Article Number: 000130819
Article Type: Solution
Last Modified: 28 Sep 2021
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.