Numéro d’article: 000132886

Servidor Dell EMC DSS 8440 com GPUs NVIDIA RTX para cargas de trabalho de HPC e IA

Résumé: O Dell EMC servidor do DSS8440 é um servidor de 2 soquetes e 4U projetado para computação de alto desempenho, m2 (Machine Learning) e cargas de trabalho de aprendizagem profunda. Este artigo compara o desempenho de várias GPUs como as GPUs NVIDIA V100S e NVIDIA Tesla T4 tensor Core, bem como as GPUs NVIDIA Quadro RTX nesse sistema. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle e Frank Han

Laboratório de inovação de HPC Dell EMC e AI de junho de 2020

O Dell EMC servidor do DSS8440 é um servidor de 2 soquetes e 4U projetado para computação de alto desempenho, m2 (Machine Learning) e cargas de trabalho de aprendizagem profunda. Ele dá suporte a várias GPUs como as GPUs NVIDIA V100S SLN321776_en_US__1iC_External_Link_BD_v1 e NVIDIA Tesla T4 tensor Core, bem como as GPUs NVIDIA Quadro RTX .

SLN321776_en_US__4image (18426)

(Figura. 1 Dell EMC servidor do DSS840)

Neste blog, avaliamos o desempenho da NVIDIA Quadro RTX 6000 e as GPUs NVIDIA Quadro 8000 comparadas em comparação com a GPU de nível superior V100S GPU usando várias ferramentas de benchmark padrão do setor. Isso inclui testes em cargas de trabalho únicas versus duplas. Embora a série quadro exista por um longo tempo, as GPUs RTX com a arquitetura NVIDIA ativação são lançadas no 2018 mais recente. As especificações na tabela 1 mostram que a GPU RTX 8000 é superior ao RTX 6000 em termos de configuração de memória mais alta. No entanto, as GPUs do RTX 8000 e do RTX 6000 têm mais necessidades de energia em comparação com a GPU do V100S. Para cargas de trabalho que exigem uma capacidade de memória maior, o RTX 8000 é a melhor opção.

Especificações	RTX 6000	RTX 8000	V100S-32 GB
Arquitectura	Turing		Volta
Memória	GDDR6 DE 24 GB	GDDR6 DE 48 GB	HBM2 DE 32 GB
Taxa de clock padrão (MHz)	1395		1245
Taxa de clock máxima de GPU (MHz)	1770		1597
Núcleos CUDA	4608		5120
FP32 (máximo de TFLOPS)	16,3		16,4
Largura de banda da memória (GB/s)	672		1134
Power	295 W		250 W

Tabela. 1 especificações da GPU

Servidor	DellEMC, PowerEdge, DSS8440
Processador	2 x processadores Intel Xeon 6248, 20 C a 2,5 GHz
Memória	24 x 32 GB 2933 MT/s (768 GB no total)
GPU	8 x quadro RTX 6000	8 x quadro RTX 8000	8 x voltar V100S-PCIe
Armazenamento	1 x Dell Express flash NVMe 1 TB 2,5 "U. 2 (P4500)
Fontes de alimentação	4 x 2400 W

Tabela. 2 detalhes de configuração do servidor

BIOS	2.5.4
OS	RHEL 7,6
Kernel	3.10.0-957.el7.x86_64
Perfil do sistema	Desempenho otimizado
Kit de ferramentas do CUDA Driver do CUDA	10,1 440.33.01

Tabela. 3 detalhes do firmware do sistema

Aplicativo	Versão
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 atualização 4
LAMMPS	Março de 3 2020 OpenMPI – 4.0.3
MLPERF	treinamento de v 0,6 Docker 19, 3

Tabela. 4 informações do aplicativo

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 é um aplicativo do moleculares numéricos Dynamics que é mantido por pesquisadores em Sandia National Laboratories e Temple University. A LAMMPS foi compilada com o pacote KOKKOS para funcionar com eficiência nas GPUs NVIDIA. O conjunto de dados Lennard Jones foi usado para comparação de desempenho e etapas de execução/s sendo a métrica, conforme mostrado na Figura 2:

SLN321776_en_US__8image (18427)

(Figura. 2 Lennard Jones gráfico)

Conforme listado na tabela 1, as GPUs do RTX 6000 e do RTX 8000 têm o mesmo número de núcleos, desempenho de precisão única e largura de banda da GPU, mas memória de GPU diferente. Como as duas GPUs RTX possuem uma configuração semelhante, o desempenho também está no mesmo intervalo. As GPUs RTX são bem dimensionadas para esse aplicativo, e o desempenho das duas GPUs é idêntico.

O desempenho de V100S GPU é aproximadamente três vezes mais rápido do que as GPUs de RTX. O principal fator para esse maior desempenho é a maior largura de banda da memória GPU da GPU do V100S.

High Performance Linpack (HPL)

O uniHPL é um padrão de benchmark HPC que mede o desempenho de computação. Ele é usado como um benchmark de referência pela lista TOP500 para classificar supercomputadors em todo o mundo.

A figura a seguir mostra o desempenho das GPUs do RTX 6000, RTX 8000 e V100S usando o servidor DSS 8440. Como você pode ver, o desempenho das GPUs RTX são significativamente menores do que a GPU V100S. Isso deve ser esperado, já que o HPL realiza uma fatoração de matriz da LU que é principalmente operações de ponto flutuante de precisão dupla.

SLN321776_en_US__9image (18428)

(Figura. 3 HPL desempenho com diferentes GPUs)

Se compararmos o desempenho teórico do ponto flutuante, ou seja, Rpeak das duas GPUs, veremos que o desempenho da GPU do V100S é muito maior. O valor de Rpeak teórica em uma única GPU de RTX é de aproximadamente 500GFlops. Esse valor gera menos desempenho (RMAX) por GPU. O valor de Rpeak para a GPU de V100S é 8.2 TFlops, o que resulta em um desempenho muito maior de cada placa.

MLPerf

A necessidade de benchmarks de desempenho padrão do setor para ML liderou o desenvolvimento do MLPerf Suite. Esse pacote inclui benchmarks para avaliar o desempenho de inferência e o treinamento de ML de hardware e software. Esta seção aborda apenas o desempenho de treinamento de GPUs. A tabela a seguir lista as cargas de trabalho de aprendizagem profunda, conjuntos de dados e critérios de destino que são usados para avaliar as GPUs.

Avalia	ConjuntoDeDados	Destino da qualidade	Modelo de implementação de referência
Classificação da imagem	ImageNet (224x224)	75,9% superior-1 de precisão	Resnet-50 v 1.5
Detecção de objeto (peso leve)	COCO 2017	23% de mapa	SSD-ResNet34
Detecção de objeto (peso pesado)	COCO 2017	0,377 Box mínimo de 0,339 de máscara de ponto de acesso máximo de	Mask R-CNN
Tradução (recorrente)	WMT inglês – alemão	24,0 BLEU	GNMT
Tradução (não recorrente)	WMT inglês – alemão	25,0 BLEU	Transformador
Reforço aprendizagem	N/D	Checkpoint pré treinado	Mini-go

Tabela. 5 MLPerf conjuntos de dados e critérios de destino (origem:https://mlperf.org/Training-overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

a figura a seguir mostra o tempo para atender aos critérios de destino para as GPUs de RTX e V100S:

SLN321776_en_US__11image (18441)
(Figura. 4 MLPERF de desempenho)

Os resultados são considerados após a execução de várias execuções, descartando o valor mais alto e o mais baixo, e calculando a média das outras execuções de acordo com as diretrizes listadas. O desempenho das GPUs RTX é semelhante. A porcentagem de variação entre as duas GPUs de RTX é mínima e dentro da faixa de aceitação de acordo com as diretrizes do MLPerf. Durante a V100 GPU, a GPU oferece o melhor desempenho, as GPUs de RTX também são executadas com exceção do benchmark de detecção de objetos.

No momento da publicação, o benchmark de classificação de imagem no MLPerf apresentava falha com GPUs de RTX devido a um erro de convolução. Esse problema deve ser corrigido em uma versão futura do cuDNN.

Résolution

Resumo

Neste blog, discutimos o desempenho do servidor de GPU Dell EMC DSS 8440 e as GPUs NVIDIA RTX para cargas de trabalho HPC e AI. O desempenho para as duas GPUs RTX é semelhante, no entanto, a GPU RTX 8000 seria uma melhor opção para aplicativos que exigem uma quantidade maior de memória. Para cargas de trabalho de precisão duplas, ou cargas de trabalho que exigem alta largura de banda de memória V100S e a nova GPU NVIDIA A100 são a melhor opção.

No futuro, planejamos oferecer um estudo de desempenho sobre GPUs RTX com outros aplicativos de precisão única e um estudo de inferência nas GPUs RTX e A100.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell