Como sucessora da arquitetura Volta, a Turing™ é a mais recente família de GPUs da NVIDIA®. A GPU Turing™ está disponível com a GeForce®, em que é usada para renderizar games altamente realistas, e com a Quadro® para acelerar os fluxos de trabalho de criação de conteúdo. A NVIDIA® Série Tesla® foi desenvolvida para lidar com sistemas de inteligência artificial e cargas de trabalho de computação de alto desempenho (HPC) em data centers. A GPU NVIDIA® Tesla® T4 é a única de nível de servidor com a microarquitetura Turing™ disponível no mercado atualmente. Ela é compatível com os servidores Dell EMC PowerEdge R640, R740, R740xd e R7425. Este blog compara o desempenho da nova Tesla T4 com a Volta V100 PCIe mais recente no servidor PowerEdge R740 em diferentes aplicativos de HPC, incluindo HOOMD-blue, Amber, NAMD e HPL.
O PowerEdge R740 é um servidor montado em rack, baseado em Intel® Skylake de 2U, que fornece um equilíbrio ideal entre suporte a acelerador, E/S e armazenamento. Ele é compatível com até quatro* GPUs T4 de slot único ou três GPUs V100 PCIe de slot duplo em 16 slots PCIe 3.0. A Tabela 1 observa as diferenças entre a T4 e a V100. A Volta™ V100 está disponível em configurações de memória de 16 GB ou 32 GB. Como a T4 só está disponível em uma versão de 16 GB, usamos a V100 com placa de memória de 16 GB para fornecer resultados de desempenho comparáveis. A Tabela 2 lista os detalhes de hardware e software do banco de ensaio.
Tabela 1: Comparação entre a T4 e a V100
Tesla V100 PCIe |
Tesla T4 |
|
---|---|---|
Arquitetura |
Volta |
Turing |
Núcleos CUDA |
5120 |
2560 |
Núcleos Tensor |
640 |
320 |
Capacidade de computação |
7,0 |
7.5 |
Clock de GPU |
1245 MHz |
585 MHz |
Clock de boost |
1380 MHz |
1590 MHz |
Tipo de memória |
HBM2 |
GDDR6 |
Barramento de memória |
4096bit |
256bit |
Largura de banda |
900 GB/s |
320 GB/s |
Amplitude do slot |
Slot duplo |
Slot único |
Precisão única de FP32 |
14 TFLOPS |
8,1 TFLOPS |
Precisão mista (FP16/FP32) |
112 TFLOPS |
65 TFLOPS |
Precisão dupla de FP64 |
7 TFLOPS |
254,4 GFLOPS |
TDP |
250 W |
70 W |
Tabela 2: Detalhes da configuração do R740 e da versão do software
Processador |
Dois processadores Intel® Xeon ® Gold 6136 a 3,0 GHz, 12 c |
---|---|
Memória |
384 G (12*32 G a 2666 MHz) |
Disco local |
SSD de 480 G |
Sistema operacional |
Servidor Red Hat Enterprise Linux versão 7.5 |
GPU |
3 V100 PCIe de 16 GB ou 4 T4 de 16 GB |
Driver CUDA |
410.66 |
Kit de ferramentas CUDA |
10.0 |
Configurações do processador > processadores lógicos |
Desativado |
Perfis do sistema |
Desempenho |
HPL |
Compilado com CUDA 10.0 |
NAMD |
NAMD_Git-2019-02-11 |
Âmbar |
18.12 |
HOOMD-blue |
v2.5.0 |
OpenMPI |
4.0.0 |
Figura 1: Resultados de desempenho de precisão única e dupla do HOOMD-blue com GPUs V100 e T4 no servidor PowerEdge R740
O HOOMD-blue (Highly Optimized Object-oriented Many-particle Dynamics - blue) é um simulador de dinâmica molecular para uso geral. Por padrão, o HOOMD-blue é compilado em precisão dupla (FP64), e a versão 2.5 fornece um parâmetro SINGLE_PRECISION=ON para forçar a compilação em precisão única (FP32). A Figura 1 mostra os resultados do conjunto de dados da microesfera para a precisão única e para a dupla. O eixo x é o número de GPUs, e a medição de desempenho são as horas para executar as etapas 10e6.
Uma observação é que o desempenho da T4 no FP64 é relativamente baixo. Isso ocorre devido à limitação de hardware. Em teoria, a T4 pode entregar um pico de desempenho de 254 GFLOPS (consulte a Tabela 1) em precisão dupla, enquanto a V100 entrega um desempenho 27 vezes maior. No entanto aplicativos como o HOOMD-blue, que podem ser compilados e executados com precisão única, podem ter uma vantagem de desempenho com a opção de compilação do FP32. A comunidade HOOMD-blue considerou nossa sugestão a respeito da compatibilidade com precisão mista em todos os módulos HOOMD-blue. Quando a iniciativa estiver concluída, o HOOMD-blue poderá ser mais bem aproveitado em um hardware compatível com a precisão mista.
Ao comparar o desempenho de precisão única da T4 e da V100, observamos que a V100 é 3 vezes melhor que a T4. Esse desempenho é esperado da T4 devido ao número de núcleos CUDA e à classificação de potência no acelerador.
As GPUs no servidor PowerEdge R740 são conectadas por PCIe. Para os três pontos de dados da GPU V100, o barramento PCIe está saturado devido às comunicações ponto a ponto. Isso afeta o desempenho geral, resultando no mesmo desempenho de uma GPU.
Amber é o nome coletivo de uma suíte de programas que permite aos usuários realizar simulações de dinâmica molecular, principalmente em biomoléculas. O termo Amber também é usado para se referir aos campos de força empírica que são implementados nesta suíte. A versão 18.12 da Amber com AmberTools 18.13 é testada com a suíte Amber 18 Benchmark, que inclui o conjunto de dados JAC, Cellulose, FactorIX, STMV, TRPCage, mioglobina e nucleossomo.
Figura 2: Resultados de solvente explícito da Amber com as GPUs V100 e T4 no servidor PowerEdge R740
Figura 3: Resultados de solvente implícito da Amber com as GPUs V100 e T4 no servidor PowerEdge R740
As Figuras 2 e 3 mostram os números de desempenho de uma única placa e de todo o sistema com solvente explícito e solvente implícito, respectivamente. No gráfico acima, "system" do ponto de dados representa o throughput agregado do sistema inteiro de todas as GPUs. O servidor PowerEdge R740 é compatível com três GPUs V100 ou quatro GPUs T4, portanto, as barras de "system" em vermelho e azul são os resultados com três V100 ou quatro T4.
O motivo para preferir dados agregados de várias placas de GPU é que as GPUs Pascal e posteriores não podem ser dimensionadas para além de um único acelerador do aplicativo Amber. Os usuários geralmente executam paralelamente várias simulações em outras GPUs. Em termos de desempenho com um grande conjunto de dados, como STMV (1.067.095 átomos), uma única T4 representa 33% e o sistema inteiro representa 44% da capacidade da V100. Conjuntos de dados, como TRPCage (somente 304 átomos), são muito pequenos para fazer uso eficaz de V100s, portanto, o desempenho nele não é muito mais rápido do que com a T4, pois elas são para execuções de PME maiores. De acordo com o resultado no site oficial da Amber, quase todos os números de GPUs são três ou quatro vezes mais rápidos do que as execuções apenas de CPU. Dessa forma, ter uma placa T4 em um servidor que lida com conjuntos de dados pequenos será uma boa opção.
Figura 4: Resultados de desempenho de NAMD com as GPUs V100 e T4 no servidor PowerEdge R740
NAMD é um código de dinâmica molecular desenvolvido para simulação de alto desempenho de grandes sistemas biomoleculares. Nestes testes, o binário pré-integrado não foi usado. Em vez disso, o NAMD foi integrado com o código-fonte mais recente (NAMD_Git-2019-02-11) e com CUDA 10.0. Para obter o melhor desempenho, o NAMD foi compilado com o compilador e as bibliotecas Intel® (versão 2018u3). A Figura 4 traça os resultados de desempenho usando o conjunto de dados STMV (1.066.628 átomos, periódico, PME). O NAMD não pode ser dimensionado para além de uma placa V100, mas pode ser bem dimensionado com três placas T4. Além disso, uma única GPU T4 representa 42% do desempenho da V100. Esse é um número decente, considerando que ela tem apenas 28% de TDP da V100. A T4 pode ser uma opção para data centers com capacidade limitada de energia e refrigeração.
Figura 5: Resultados de HPL com as GPUs V100 e T4 no servidor PowerEdge R740
A Figura 5 mostra o desempenho de HPL no PowerEdge R740 com várias GPUs V100 ou T4. Conforme esperado, os números de HPL são bem dimensionados com várias GPUs, V100 e T4. No entanto, o desempenho da T4 é significativamente menor do que o da V100 devido à sua limitação de FP64. Devido à capacidade limitada da precisão dupla da T4, a comparação de desempenho com a V100 não é ideal, e a Volta V100 continua sendo a melhor opção para tais aplicativos de precisão dupla.
Neste blog, o desempenho dos aplicativos de HPC com HOOMD-blue, Amber, NAMD e HPL foi comparado entre a V100 e a T4 no Dell EMC PowerEdge R740. A T4 não é usada apenas para inferência de deep learning, mas também é vantajosa para aplicativos de HPC com suporte de precisão única ou mista. Sua baixa TDP pode ajudar a acelerar os data centers tradicionais, nos quais a capacidade de energia e refrigeração é limitada. O formato pequeno do PCIe da T4 faz dela uma boa opção para servidores PowerEdge mais voltados para uso geral. Há previsão de testes futuros com mais aplicativos, como RELION, GROMACS e LAMMPS, e também testes com aplicativos que podem aproveitar a precisão mista.
*Isenção: Para fins de análises comparativas, foram avaliadas quatro GPUs T4 no Dell PowerEdge R740. No momento, o PowerEdge R740 é oficialmente compatível com, no máximo, três T4 em 16 slots PCIe.