Numéro d’article: 000132886

Serwer Dell EMC DSS 8440 z kartą graficzną NVIDIA RTX dla HPC i obciążeń roboczych AI

Résumé: Program Dell EMC DSS8440 Server to 2 gniazda, serwer 4U przeznaczony do wysokiej wydajności, uczenia maszynowego (ML) i jego głębokiego uczenia. Ten artykuł zawiera porównanie wydajności różnych procesorów GPU, takich jak NVIDIA Volta V100S oraz dwurdzeniowe procesory NVIDIA Tesla T4, oraz NVIDIA Quadro RTX GPU w tym systemie. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle i Piotr Han

Dell EMC HPC i AI laboratorium innowacji 2020 czerwca

Program Dell EMC DSS8440 Server to 2 gniazda, serwer 4U przeznaczony do wysokiej wydajności, uczenia maszynowego (ml) i jego głębokiego uczenia. Obsługuje różnorodne procesory GPU, takie jak NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 i NVIDIA Tesla, dwurdzeniowe procesory GPU, a także NVIDIA Quadro RTX GPU .

SLN321776_en_US__4image (18426)

(Rysunek 1 Dell EMC serwer DSS840)

W tym blogu oceniamy wydajność współdziałania NVIDIA Quadro RTX 6000 i NVIDIA Quadro RTX 8000 GPU w porównaniu z górną warstwą GPU V100S GPU za pomocą różnych standardowych narzędzi do wykonywania testów wydajności. Dotyczy to także testowania obciążeń jednego urządzenia vs z podwójną precyzją. Chociaż seria Quadro istniała przez dłuższy czas, RTX procesorów GPU z architekturą NVIDIA włączania, która została uruchomiona w ciągu późnych 2018. Dane techniczne w tabeli 1 pokazują, że procesor RTX 8000 GPU jest wyższy do RTX 6000 w odniesieniu do większej konfiguracji pamięci. Jednakże procesory RTX 8000 i RTX 6000 GPU mają wyższy poziom zasilania niż procesor GPU. W przypadku obciążeń wymagających większych pojemności pamięci RTX 8000 jest lepszym wyborem.

Dane techniczne	RTX 6000	RTX 8000	V100S-32 GB
Architektura	Turing		Volta
Pamięć	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
Domyślna częstotliwość taktowania (MHz)	1395		1245
Maksymalna częstotliwość taktowania procesora (w MHz)	1770		1597
Rdzenie CUDA	4608		5120
FP32 (maksymalny TFLOPS)	16,3		16,4
Przepustowość pamięci (GB/s)	672		1134
Zasilanie	295 W		250 W

Tabela. 1 dane techniczne procesora graficznego

Serwer	DellEMC, PowerEdge, system DSS8440
Procesor	2 x Intel Xeon 6248, 20 °C przy 2,5 GHz
Pamięć	24 x 32 GB @ 2933 MT/s (razem z 768 GB)
PROCESORÓW	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S PCIe
Pamięć masowa	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Zasilacze	4 x 2400 W

Tabela. 2 szczegóły konfiguracji serwera

BIOS	2.5.4
System operacyjny:	RHEL 7,6
Jądro	3.10.0-957.el7.x86_64
Profil systemu	Zoptymalizowana wydajność
Zestaw narzędzi cuda Sterownik CUDA	10,1 440.33.01

Tabela. 3 szczegółowe informacje o oprogramowaniu systemu

Aplikacja	Wersja
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4
LAMMPS	Marzec 3 2020 OpenMPI – 4.0.3
MLPERF	trening v 0,6 Dock 19,03

Tabela. 4 informacje o aplikacji

Cause

LAMMPS

Lammps SLN321776_en_US__6iC_External_Link_BD_v1 jest to aplikacja do zarządzania cząsteczkami molekularną, która jest obsługiwana przez badaczy w laboratoriach krajowych Sandia i Temple University. LAMMPS został skompilowany razem z pakietem KOKKOS w celu wydajnej pracy na chipsetach NVIDIA. Lennard Nowak, że zestaw danych został użyty do porównania wydajności, a Timesteps/s jest metryką, jak pokazano na rysunku 2:

SLN321776_en_US__8image (18427)

(Rysunek 2 Lennard, wykres Nowak)

Zgodnie z wymienionymi w tabeli 1 procesory RTX 6000 i RTX 8000 współdziałające mają taką samą liczbę rdzeni, pojedynczej precyzji, jak przepustowość procesora graficznego, a także używa różnych modułów pamięci graficznej. Ponieważ obie procesory RTX obsługują podobne konfiguracje, wydajność jest również w tym samym zakresie. RTX Skala procesorów GPU dla tej aplikacji oraz wydajność dla obu procesorów GPU są identyczne.

Wydajność procesora Volta V100S GPU jest około trzech razy szybsza niż w przypadku procesorów procesorów Quadro RTX. Kluczowym czynnikiem dla tej wyższej wydajności jest większa przepustowość pamięci GPU V100S GPU.

High Performance Linpack (HPL)

HPL jest standardowym testem porównawczym HPC, który mierzy wydajność obliczeniową. Jest ona używana jako test porównawczy za pomocą listy TOP500 w celu klasyfikowania komputerów na całym świecie.

Poniższy rysunek przedstawia wydajność RTX 6000, RTX 8000 i V100S GPU przy użyciu serwera DSS 8440. W miarę jak widać, wydajność procesorów RTX GPU jest znacznie niższa niż V100S GPU. Oczekuje się, że HPL wykonuje factorization macierz LU, która ma przede wszystkim operacje zmiennoprzecinkowe o podwójnej precyzji.

SLN321776_en_US__9image (18428)

(Ilustracja. 3 HPL wydajność z różnymi standardami GPU)

W przypadku porównania teoretycznej wydajności zmiennoprzecinkowej, czyli Rpeak obu procesorów GPU, widać, że wydajność V100S GPU jest znacznie wyższa. Teoretyczna wartość Rpeak na pojedynczym PROCESORze RTX jest w przybliżeniu 500GFlops. Ta wartość reaguje mniej wydajnie (RMAX) na procesor GPU. Wartość Rpeak dla Volta V100S GPU to 8.2 TFlops, co daje znacznie wyższą wydajność z każdej karty.

MLPerf

Konieczność standardowych wzorców wydajności w odniesieniu do ML świeci rozwojowi MLPerf Suite. Ten zestaw obejmuje testy wydajności szkoleń i oprogramowania dotyczących ML sprzętu i oprogramowania. Ta sekcja dotyczy tylko wydajności szkoleniowej procesorów GPU. Poniższa tabela zawiera listę kryteriów głębokiego uczenia, zestawów danych i docelowych kryteriów używanych do szacowania procesorów GPU.

Zawarty	Występuje	Tarcza jakości	Model implementacji odniesienia
Klasyfikacja obrazu	ImageNet (224x224)	75,9% dokładności do 1	Resnet-50 v 1.5
Wykrywanie obiektu (masa światła)	COCO 2017	23% mAP	Dysk SSD-ResNet34
Wykrywanie obiektu (ciężar ciężki)	COCO 2017	0,377 Box minimalna wartość AP 0,339 maska minimalna	Maska p-CNN
Tłumaczenie (bieżące)	WMT angielski (wersja Niemiecka)	24,0 BLEU	GNMT
Tłumaczenie (niebieżące)	WMT angielski (wersja Niemiecka)	25,0 BLEU	Transformatora
Uczenie wzmacniające	Nie dotyczy	Wstępnie przeszkolony punkt kontrolny	Mini-go (mini)

Table. 5 zestawy danych MLPerf i kryteria docelowe (Źródło:https://mlperf.org/Training-Overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

Poniższy rysunek przedstawia czas spełniający kryteria docelowe zarówno dla procesorów RTX, jak i V100S GPU:

SLN321776_en_US__11image (18441)
(Ilustracja. 4 MLPERF wydajność)

Wyniki są uznawane po wykonaniu wielu operacji, odrzucaniu najwyższej i najniższej wartości, a także uśredniania innych uruchomień zgodnie z wymienionymi wytycznymi. Wydajność obu procesorów RTX GPU jest podobna. Procentowa wartość wariancji między RTX GPU jest minimalna i mieści się w zakresie akceptowania zgodnie z wytycznymi MLPerf. Chociaż Volta V100 GPU zapewnia najlepszą wydajność, wszystkie procesory GPU również działają z wyjątkiem testów wydajności wykrycia obiektu.

W chwili publikacji test wydajności klasyfikacji obrazu w MLPerf nie powiódł się z wyRTXniem procesorów GPU z powodu błędu Convolution. Ten problem należy rozwiązać w przyszłym cuDNN uwalnianiem.

Résolution

Streszczenie

W tym blogu omówiono wydajność Dell EMC DSS 8440 GPU Server i NVIDIA RTX GPU dla HPC i AI. obciążenia. Wydajność dla obu procesorów RTX jest podobna, jednak RTX 8000 GPU byłaby najlepszą opcją dla aplikacji wymagających większej ilości pamięci. W przypadku obciążeń o podwójnej precyzji lub obciążeń, które wymagają użycia Volta V100S, a nowy procesor NVIDIA A100 GPU są najlepszym wyborem.

W przyszłości planuje się dostarczenie studiów wydajności na RTX procesorów GPU z innymi aplikacjami o wysokiej precyzji i badaniach wnioskowania na RTX i A100 procesorów GPU.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell