Desempenho dos aplicativos de HPC com o Turing

Summary: Artigo escrito por Frank Han, Rengan Xu, Deepthi Cherlopalle e Quy Ta do Laboratório de inovação em IA e HPC da Dell EMC em março de 2019

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Como sucessora da arquitetura Volta, a Turing™ é a mais recente família de GPUs da NVIDIA®. A GPU Turing™ está disponível com a GeForce®, em que é usada para renderizar games altamente realistas, e com a Quadro® para acelerar os fluxos de trabalho de criação de conteúdo. A NVIDIA® Série Tesla® foi desenvolvida para lidar com sistemas de inteligência artificial e cargas de trabalho de computação de alto desempenho (HPC) em data centers. A GPU NVIDIA® Tesla® T4 é a única de nível de servidor com a microarquitetura Turing™ disponível no mercado atualmente. Ela é compatível com os servidores Dell EMC PowerEdge R640, R740, R740xd e R7425. Este blog compara o desempenho da nova Tesla T4 com a Volta V100 PCIe mais recente no servidor PowerEdge R740 em diferentes aplicativos de HPC, incluindo HOOMD-blue, Amber, NAMD e HPL.

Voltar ao início

Visão geral

O PowerEdge R740 é um servidor montado em rack, baseado em Intel® Skylake de 2U, que fornece um equilíbrio ideal entre suporte a acelerador, E/S e armazenamento. Ele é compatível com até quatro* GPUs T4 de slot único ou três GPUs V100 PCIe de slot duplo em 16 slots PCIe 3.0. A Tabela 1 observa as diferenças entre a T4 e a V100. A Volta™ V100 está disponível em configurações de memória de 16 GB ou 32 GB. Como a T4 só está disponível em uma versão de 16 GB, usamos a V100 com placa de memória de 16 GB para fornecer resultados de desempenho comparáveis. A Tabela 2 lista os detalhes de hardware e software do banco de ensaio.

Tabela 1: Comparação entre a T4 e a V100

	Tesla V100 PCIe	Tesla T4
Arquitetura	Volta	Turing
Núcleos CUDA	5120	2560
Núcleos Tensor	640	320
Capacidade de computação	7,0	7.5
Clock de GPU	1245 MHz	585 MHz
Clock de boost	1380 MHz	1590 MHz
Tipo de memória	HBM2	GDDR6
Barramento de memória	4096bit	256bit
Largura de banda	900 GB/s	320 GB/s
Amplitude do slot	Slot duplo	Slot único
Precisão única de FP32	14 TFLOPS	8,1 TFLOPS
Precisão mista (FP16/FP32)	112 TFLOPS	65 TFLOPS
Precisão dupla de FP64	7 TFLOPS	254,4 GFLOPS
TDP	250 W	70 W

Tabela 2: Detalhes da configuração do R740 e da versão do software

Processador	Dois processadores Intel® Xeon ® Gold 6136 a 3,0 GHz, 12 c
Memória	384 G (12*32 G a 2666 MHz)
Disco local	SSD de 480 G
Sistema operacional	Servidor Red Hat Enterprise Linux versão 7.5
GPU	3 V100 PCIe de 16 GB ou 4 T4 de 16 GB
Driver CUDA	410.66
Kit de ferramentas CUDA	10.0
Configurações do processador > processadores lógicos	Desativado
Perfis do sistema	Desempenho
HPL	Compilado com CUDA 10.0
NAMD	NAMD_Git-2019-02-11
Âmbar	18.12
HOOMD-blue	v2.5.0
OpenMPI	4.0.0

Voltar ao início

Cause

HOOMD-blue

SLN316570_en_US__1image(9290)

Figura 1: Resultados de desempenho de precisão única e dupla do HOOMD-blue com GPUs V100 e T4 no servidor PowerEdge R740

O HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics - blue) é um simulador de dinâmica molecular para uso geral. Por padrão, o HOOMD-blue é compilado em precisão dupla (FP64), e a versão 2.5 fornece um parâmetro SINGLE_PRECISION=ON para forçar a compilação em precisão única (FP32). A Figura 1 mostra os resultados do conjunto de dados da microesfera para a precisão única e para a dupla. O eixo x é o número de GPUs, e a medição de desempenho são as horas para executar as etapas 10e6.

Uma observação é que o desempenho da T4 no FP64 é relativamente baixo. Isso ocorre devido à limitação de hardware. Em teoria, a T4 pode entregar um pico de desempenho de 254 GFLOPS (consulte a Tabela 1) em precisão dupla, enquanto a V100 entrega um desempenho 27 vezes maior. No entanto aplicativos como o HOOMD-blue, que podem ser compilados e executados com precisão única, podem ter uma vantagem de desempenho com a opção de compilação do FP32. A comunidade HOOMD-blue considerou nossa sugestão a respeito da compatibilidade com precisão mista em todos os módulos HOOMD-blue. Quando a iniciativa estiver concluída, o HOOMD-blue poderá ser mais bem aproveitado em um hardware compatível com a precisão mista.
Ao comparar o desempenho de precisão única da T4 e da V100, observamos que a V100 é 3 vezes melhor que a T4. Esse desempenho é esperado da T4 devido ao número de núcleos CUDA e à classificação de potência no acelerador.
As GPUs no servidor PowerEdge R740 são conectadas por PCIe. Para os três pontos de dados da GPU V100, o barramento PCIe está saturado devido às comunicações ponto a ponto. Isso afeta o desempenho geral, resultando no mesmo desempenho de uma GPU.

Voltar ao início

Âmbar

Amber é o nome coletivo de uma suíte de programas que permite aos usuários realizar simulações de dinâmica molecular, principalmente em biomoléculas. O termo Amber também é usado para se referir aos campos de força empírica que são implementados nesta suíte. A versão 18.12 da Amber com AmberTools 18.13 é testada com a suíte Amber 18 Benchmark, que inclui o conjunto de dados JAC, Cellulose, FactorIX, STMV, TRPCage, mioglobina e nucleossomo.

SLN316570_en_US__2image(9276)

Figura 2: Resultados de solvente explícito da Amber com as GPUs V100 e T4 no servidor PowerEdge R740

SLN316570_en_US__3image(9277)

Figura 3: Resultados de solvente implícito da Amber com as GPUs V100 e T4 no servidor PowerEdge R740

As Figuras 2 e 3 mostram os números de desempenho de uma única placa e de todo o sistema com solvente explícito e solvente implícito, respectivamente. No gráfico acima, "system" do ponto de dados representa o throughput agregado do sistema inteiro de todas as GPUs. O servidor PowerEdge R740 é compatível com três GPUs V100 ou quatro GPUs T4, portanto, as barras de "system" em vermelho e azul são os resultados com três V100 ou quatro T4.

O motivo para preferir dados agregados de várias placas de GPU é que as GPUs Pascal e posteriores não podem ser dimensionadas para além de um único acelerador do aplicativo Amber. Os usuários geralmente executam paralelamente várias simulações em outras GPUs. Em termos de desempenho com um grande conjunto de dados, como STMV (1.067.095 átomos), uma única T4 representa 33% e o sistema inteiro representa 44% da capacidade da V100. Conjuntos de dados, como TRPCage (somente 304 átomos), são muito pequenos para fazer uso eficaz de V100s, portanto, o desempenho nele não é muito mais rápido do que com a T4, pois elas são para execuções de PME maiores. De acordo com o resultado no site oficial da Amber, quase todos os números de GPUs são três ou quatro vezes mais rápidos do que as execuções apenas de CPU. Dessa forma, ter uma placa T4 em um servidor que lida com conjuntos de dados pequenos será uma boa opção.

Voltar ao início

Resolution

NAnoscale Molecular Dynamics (NAMD)

SLN316570_en_US__4image(9278)

Figura 4: Resultados de desempenho de NAMD com as GPUs V100 e T4 no servidor PowerEdge R740

NAMD é um código de dinâmica molecular desenvolvido para simulação de alto desempenho de grandes sistemas biomoleculares. Nestes testes, o binário pré-integrado não foi usado. Em vez disso, o NAMD foi integrado com o código-fonte mais recente (NAMD_Git-2019-02-11) e com CUDA 10.0. Para obter o melhor desempenho, o NAMD foi compilado com o compilador e as bibliotecas Intel® (versão 2018u3). A Figura 4 traça os resultados de desempenho usando o conjunto de dados STMV (1.066.628 átomos, periódico, PME). O NAMD não pode ser dimensionado para além de uma placa V100, mas pode ser bem dimensionado com três placas T4. Além disso, uma única GPU T4 representa 42% do desempenho da V100. Esse é um número decente, considerando que ela tem apenas 28% de TDP da V100. A T4 pode ser uma opção para data centers com capacidade limitada de energia e refrigeração.

Voltar ao início

High Performance Linpack (HPL)

SLN316570_en_US__5image(9283)

Figura 5: Resultados de HPL com as GPUs V100 e T4 no servidor PowerEdge R740

A Figura 5 mostra o desempenho de HPL no PowerEdge R740 com várias GPUs V100 ou T4. Conforme esperado, os números de HPL são bem dimensionados com várias GPUs, V100 e T4. No entanto, o desempenho da T4 é significativamente menor do que o da V100 devido à sua limitação de FP64. Devido à capacidade limitada da precisão dupla da T4, a comparação de desempenho com a V100 não é ideal, e a Volta V100 continua sendo a melhor opção para tais aplicativos de precisão dupla.

Voltar ao início

Conclusões e trabalho futuro

Neste blog, o desempenho dos aplicativos de HPC com HOOMD-blue, Amber, NAMD e HPL foi comparado entre a V100 e a T4 no Dell EMC PowerEdge R740. A T4 não é usada apenas para inferência de deep learning, mas também é vantajosa para aplicativos de HPC com suporte de precisão única ou mista. Sua baixa TDP pode ajudar a acelerar os data centers tradicionais, nos quais a capacidade de energia e refrigeração é limitada. O formato pequeno do PCIe da T4 faz dela uma boa opção para servidores PowerEdge mais voltados para uso geral. Há previsão de testes futuros com mais aplicativos, como RELION, GROMACS e LAMMPS, e também testes com aplicativos que podem aproveitar a precisão mista.

*Isenção: Para fins de análises comparativas, foram avaliadas quatro GPUs T4 no Dell PowerEdge R740. No momento, o PowerEdge R740 é oficialmente compatível com, no máximo, três T4 em 16 slots PCIe.

Voltar ao início

Affected Products

High Performance Computing Solution Resources, PowerEdge R740

Article Number: 000130819

Article Type: Solution

Last Modified: 28 Sep 2021

Version: 4

Check if your device is covered by Support Services.

Desempenho dos aplicativos de HPC com o Turing

Summary: Artigo escrito por Frank Han, Rengan Xu, Deepthi Cherlopalle e Quy Ta do Laboratório de inovação em IA e HPC da Dell EMC em março de 2019

Symptoms

Sumário:

Resumo

Visão geral

Cause

HOOMD-blue

Âmbar

Resolution

NAnoscale Molecular Dynamics (NAMD)

High Performance Linpack (HPL)

Conclusões e trabalho futuro

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Desempenho dos aplicativos de HPC com o Turing

Summary: Artigo escrito por Frank Han, Rengan Xu, Deepthi Cherlopalle e Quy Ta do Laboratório de inovação em IA e HPC da Dell EMC em março de 2019

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services