Desempenho de HPC e IA no DSS8440 com GPUs V100S

Summary: GPU, V100S, V100, DSS8440, 8 GPUs, MLPerf, HPL, LAMMPS, referência de desempenho

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Autores: Frank Han, Rengan Xu, Quy Ta
Dell EMC HPC & AI Innovation Lab, maio de 2020

Resumo executivo

Este blog apresenta os resultados do estudo que avaliou 8 V100S em DSS8440 para diferentes aplicativos de HPC e aprendizagem profunda, inclusive HPL, LAMMPS e MLPerf-v0.6 suíte. Em resumo:

  • Os aplicativos limitados pela largura de banda da GPU, como o LAMMPS, podem aproveitar as novas GPUs V100S e obter desempenho aprimorado para GPUs únicas e múltiplas.
  • Os aplicativos de aprendizagem profunda, como os testados no MLPerf, obterão benefícios do relógio impulsionado e da maior largura de banda do V100S.
  • Os aplicativos ligados à computação da GPU, como a referência de desempenho HPC HPL, obterão o mesmo desempenho que o V100-PCIe.

O resto deste blog apresenta os detalhes deste teste.  Observe que, no futuro, os mesmos aplicativos serão executados no DSS8440 com GPUs RTX (no lugar do V100S), e outros testes, como o desempenho do V100S na plataforma AMD, também serão executados.

Resolution

Visão geral do Testbed

A coluna Servidor Dell EMC DSS8440 É um servidor otimizado para acelerador, projetado especificamente para cargas de trabalho de computação com alto desempenho e aprendizagem profunda. A coluna NVIDIA V100S é o mais recente membro da série Tesla Volta e é uma placa GPU baseada em PCIe 32G de largura dupla. Este blog apresentará os resultados do estudo que avaliou 8 V100S em DSS8440 para diferentes aplicativos de HPC e aprendizagem profunda, inclusive HPL, LAMMPS e MLPerf-v0.6 suíte.

Os detalhes de hardware e software do servidor DSS 8440 testado e a comparação da V100S e V100-PCIe estão listados na Tabela 1 e na Tabela 2.

 

Tabela 1: Os detalhes de hardware e software

SLN321304_en_US__1image(15660)

Tabela 2: Diferença na especificação V100S e V100-PCIe
SLN321304_en_US__2image(15661)

 

Desempenho do aplicativo HPC

 

 SLN321304_en_US__3image(15658)

Figura 1: Resultados da HPL V100S e V100-PCIe no DSS8440

A Figura 1 mostra os números de desempenho da HPL. Não há muita diferença entre V100S e V100-PCIe, porque HPL é uma aplicação de teste de estresse extremo. Há pouco espaço de temperatura para o Recurso de aumento de GPU, portanto, a frequência das GPUs volta para a taxa de clock base muito rapidamente. Como a V100S e a V100-PCIe têm quase a mesma taxa de clock base, para aplicativos vinculados à computação da GPU, como HPL, a V100S oferece aproximadamente o mesmo nível de desempenho que a V100-PCIe. 

SLN321304_en_US__4image (15659)

Figura 2: Resultados do LAMMPS V100S e V100-PCIe no DSS8440

A Figura 2 apresenta os resultados do LAMMPS com o conjunto de dados de Lennard Jones. O LAMMPS é um exemplo de código de dinâmica molecular que é conhecido por ser um aplicativo limitado à largura de banda da GPU. A V100S oferece 27% mais desempenho do que a V100-PCIe neste teste. A aceleração é proporcionada não apenas pela frequência de aumento 15% maior e 26% mais largura de banda, mas também pela versão mais recente do software. Os números V100-PCIe foram obtidos usando o antigo pacote KOKKOS na versão LAMMPS 8Feb2019. No entanto, a versão mais recente 24Jan2020 tinha adicionado suporte para usar cuFFT na GPU com KOKKOS. A maioria dos detalhes pode ser encontrada neste Nota da versão do LAMMPS 24Jan2020.

 

Desempenho do aplicativo de aprendizagem profunda

SLN321304_en_US__5image(15662)

Figura 3: Resultados do V100S e do V100-PCIe MLPerf no DSS8440

MLPerf treinamento fechado divisão 0.6 versão possui 6 subtestes que abrangem amplos domínios de aprendizagem profunda, incluindo classificação de imagens (ResNet-50), detecção de objetos (Mask R-CNN e SSD), Tradução (NMT e Transformer) e aprendizagem por reforço (MiniGo). Os resultados da comparação das duas placas GPU são apresentados na Figura 3. Cerca de 1% a 5% de ganhos de desempenho foram observados na suíte MLPerf para V100S, o que é consistente com o throughput 1% a 5% maior nos arquivos de log de resultados. A saída em tempo real da taxa de clock da GPU foi monitorada, e observou-se que as GPUs V100S estavam sendo executadas de 1 a 5% mais alto em todos esses testes, portanto, os benefícios de desempenho vieram da frequência impulsionada mais alta do V100S.

Conclusões e trabalhos futuros

Neste blog, o desempenho dos aplicativos HPC com HPL, LAMMPS e o desempenho de aprendizagem profunda com MLPerf foram comparados com as placas GPU V100S e V100-PCIe no mesmo servidor DSS8440. Os aplicativos limitados pela largura de banda da GPU, como o LAMMPS, podem aproveitar as novas GPUs V100S e obter desempenho aprimorado para GPUs únicas e múltiplas. Os aplicativos de aprendizagem profunda testados no MLPerf também obtêm benefícios do relógio impulsionado e da maior largura de banda do V100S. A HPL de referência de desempenho HPC vinculada à computação da GPU obtém o mesmo desempenho da V100-PCIe. No futuro, os mesmos aplicativos no DSS8440 serão executados com GPUs RTX, e alguns outros testes, como o desempenho do V100S na plataforma AMD, serão explorados.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.