Desempenho de HPC e IA no DSS8440 com GPUs V100S
Summary: GPU, V100S, V100, DSS8440, 8 GPUs, MLPerf, HPL, LAMMPS, referência de desempenho
Symptoms
Dell EMC HPC & AI Innovation Lab, maio de 2020
Resumo executivo
Este blog apresenta os resultados do estudo que avaliou 8 V100S em DSS8440 para diferentes aplicativos de HPC e aprendizagem profunda, inclusive HPL, LAMMPS e MLPerf-v0.6 suíte. Em resumo:
- Os aplicativos limitados pela largura de banda da GPU, como o LAMMPS, podem aproveitar as novas GPUs V100S e obter desempenho aprimorado para GPUs únicas e múltiplas.
- Os aplicativos de aprendizagem profunda, como os testados no MLPerf, obterão benefícios do relógio impulsionado e da maior largura de banda do V100S.
- Os aplicativos ligados à computação da GPU, como a referência de desempenho HPC HPL, obterão o mesmo desempenho que o V100-PCIe.
O resto deste blog apresenta os detalhes deste teste. Observe que, no futuro, os mesmos aplicativos serão executados no DSS8440 com GPUs RTX (no lugar do V100S), e outros testes, como o desempenho do V100S na plataforma AMD, também serão executados.
Resolution
Visão geral do Testbed
A coluna Servidor Dell EMC DSS8440 É um servidor otimizado para acelerador, projetado especificamente para cargas de trabalho de computação com alto desempenho e aprendizagem profunda. A coluna NVIDIA V100S é o mais recente membro da série Tesla Volta e é uma placa GPU baseada em PCIe 32G de largura dupla. Este blog apresentará os resultados do estudo que avaliou 8 V100S em DSS8440 para diferentes aplicativos de HPC e aprendizagem profunda, inclusive HPL, LAMMPS e MLPerf-v0.6 suíte.
Os detalhes de hardware e software do servidor DSS 8440 testado e a comparação da V100S e V100-PCIe estão listados na Tabela 1 e na Tabela 2.
Tabela 1: Os detalhes de hardware e software

Tabela 2: Diferença na especificação V100S e V100-PCIe
Desempenho do aplicativo HPC

Figura 1: Resultados da HPL V100S e V100-PCIe no DSS8440
A Figura 1 mostra os números de desempenho da HPL. Não há muita diferença entre V100S e V100-PCIe, porque HPL é uma aplicação de teste de estresse extremo. Há pouco espaço de temperatura para o Recurso de aumento de GPU, portanto, a frequência das GPUs volta para a taxa de clock base muito rapidamente. Como a V100S e a V100-PCIe têm quase a mesma taxa de clock base, para aplicativos vinculados à computação da GPU, como HPL, a V100S oferece aproximadamente o mesmo nível de desempenho que a V100-PCIe.

Figura 2: Resultados do LAMMPS V100S e V100-PCIe no DSS8440
A Figura 2 apresenta os resultados do LAMMPS com o conjunto de dados de Lennard Jones. O LAMMPS é um exemplo de código de dinâmica molecular que é conhecido por ser um aplicativo limitado à largura de banda da GPU. A V100S oferece 27% mais desempenho do que a V100-PCIe neste teste. A aceleração é proporcionada não apenas pela frequência de aumento 15% maior e 26% mais largura de banda, mas também pela versão mais recente do software. Os números V100-PCIe foram obtidos usando o antigo pacote KOKKOS na versão LAMMPS 8Feb2019. No entanto, a versão mais recente 24Jan2020 tinha adicionado suporte para usar cuFFT na GPU com KOKKOS. A maioria dos detalhes pode ser encontrada neste Nota da versão do LAMMPS 24Jan2020.
Desempenho do aplicativo de aprendizagem profunda

Figura 3: Resultados do V100S e do V100-PCIe MLPerf no DSS8440
MLPerf treinamento fechado divisão 0.6 versão possui 6 subtestes que abrangem amplos domínios de aprendizagem profunda, incluindo classificação de imagens (ResNet-50), detecção de objetos (Mask R-CNN e SSD), Tradução (NMT e Transformer) e aprendizagem por reforço (MiniGo). Os resultados da comparação das duas placas GPU são apresentados na Figura 3. Cerca de 1% a 5% de ganhos de desempenho foram observados na suíte MLPerf para V100S, o que é consistente com o throughput 1% a 5% maior nos arquivos de log de resultados. A saída em tempo real da taxa de clock da GPU foi monitorada, e observou-se que as GPUs V100S estavam sendo executadas de 1 a 5% mais alto em todos esses testes, portanto, os benefícios de desempenho vieram da frequência impulsionada mais alta do V100S.
Conclusões e trabalhos futuros
Neste blog, o desempenho dos aplicativos HPC com HPL, LAMMPS e o desempenho de aprendizagem profunda com MLPerf foram comparados com as placas GPU V100S e V100-PCIe no mesmo servidor DSS8440. Os aplicativos limitados pela largura de banda da GPU, como o LAMMPS, podem aproveitar as novas GPUs V100S e obter desempenho aprimorado para GPUs únicas e múltiplas. Os aplicativos de aprendizagem profunda testados no MLPerf também obtêm benefícios do relógio impulsionado e da maior largura de banda do V100S. A HPL de referência de desempenho HPC vinculada à computação da GPU obtém o mesmo desempenho da V100-PCIe. No futuro, os mesmos aplicativos no DSS8440 serão executados com GPUs RTX, e alguns outros testes, como o desempenho do V100S na plataforma AMD, serão explorados.