Numéro d’article: 000132886

Server Dell EMC DSS 8440 využívající grafické karty NVIDIA RTX pro zatížení superpočítačů a umělé inteligence

Résumé: Server Dell EMC DSS8440 je 2 zásuvka, server 4U navržený pro vysoce výkonné výpočetní technologie, strojové učení (ML) a úlohy s hloubkovým učením. Tento článek porovnává výkon různých grafických procesorů NVIDIA Volta V100S a NVIDIA Tesla T4 tensor Core GPU a grafického rozhraní NVIDIA Quadro RTX v tomto systému. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle a Josef Han

Inovace HPC a AI v laboratoři Dell EMC. června 2020

Server Dell EMC DSS8440 je 2 zásuvka, server 4U navržený pro vysoce výkonné výpočetní technologie, strojové učení (ml) a úlohy s hloubkovým učením. Podporuje různé grafické karty GPU, jako jsou NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 a NVIDIA Tesla T4 tensor Core GPU a také NVIDIA Quadro RTX GPU .

SLN321776_en_US__4image (18426)

(Obrázek: 1 Server Dell EMC DSS840)

V tomto blogu vyhodnocujeme výkon cenově nejefektivnějších nástrojů NVIDIA Quadro RTX 6000 a grafické karty NVIDIA Quadro RTX 8000 v porovnání s PROCESORem V100S s horním stupněm. To zahrnuje testování v porovnání s jednoduchými a dvojitými přesnými úlohami. Řada Quadro již existuje po dlouhou dobu, RTX GPU s architekturou NVIDIA Turing se spustí v pozdě 2018. Specifikace uvedené v tabulce 1 ukazují, že je grafický procesor RTX 8000 ve RTX 6000 s ohledem na vyšší konfiguraci paměti. Grafické karty RTX 8000 a RTX 6000 však mají vyšší požadavky na napájení ve srovnání s grafickým procesorem V100S. V případě pracovních úloh, které vyžadují vyšší kapacitu paměti, je RTX 8000 vhodnější.

Technické údaje	RTX 6000	RTX 8000	V100S – 32 GB
Architektura	Turing		Volta
Paměť	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
Výchozí taktovací frekvence (MHz)	1395		1245
Maximální taktovací frekvence GPU (MHz)	1770		1597
Jádra CUDA	4608		5120
FP32 (TFLOPS max.)	16,3		16,4
Šířka pásma paměti (GB/s)	672		1134
Napájení	295 W		250 W

Tabulka: 1 specifikace grafické karty

Server	DellEMC, PowerEdge, DSS8440
Procesor	2 x procesory Intel Xeon 6248, 20 °C @ 2,5 GHz
Paměť	24 × 32 GB @ 2933 MT/s (768 GB celkem)
Gpu	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S – PCIe
Úložiště	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Napájecí zdroje	4 x 2400 W

Podrobnosti konfigurace serveru Table. 2

BIOS	2.5.4
OS:	RHEL 7,6
Jádro	3.10.0-957.el7.x86_64
Profil systému	Performance Optimized
CUDA Toolkit Ovladač CUDA	10,1 440.33.01

Podrobnosti o firmwaru systému Table. 3

Aplikace	Verze
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 Update 4
LAMMPS	Březen 3 2020 openmps – 4.0.3
MLPERF	školení v 0,6 dokovací zařízení Docker 19,03

Tabulka 4 informace o aplikaci

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 je program molekulárního dynamiky, který je udržován výzkumnými pracovníky v Sandia národní laboratoři a Templeou vysokou školu. LAMMPS byla zkompilována s balíčkem KOKKOS , aby bylo možné efektivně pracovat na grafické kartě NVIDIA. Lennard Novák DataSet použit pro porovnání výkonu a Timesteps/s je metrika, jak je znázorněno na obrázku 2:

SLN321776_en_US__8image (18427)

(Obrázek. 2 Lennard Petr)

Jak je uvedeno v tabulce 1, jsou grafické karty RTX 6000 a RTX 8000 stejného počtu jader, s jednoduchou přesností a propustností grafického procesoru, ale s odlišnou pamětí grafického procesoru. Vzhledem k tomu, že oba grafické procesory RTX mají podobnou konfiguraci, výkon je rovněž ve stejném rozsahu. RTXe GPU je vhodný pro tuto aplikaci a výkon pro oba grafické karty je stejný.

Výkon grafického procesoru Volta V100S je přibližně třikrát rychlejší než na GPU Quadro RTX. Klíčovým faktorem pro tento vyšší výkon je větší propustnost paměti GRAFICKÉho procesoru V100S GPU.

High Performance Linpack (HPL)

HPL je standardní srovnávací test HPC, který měří výpočetní výkon. Používá se jako referenční srovnávací test, který je uveden v seznamu TOP500 za účelem ohodnocení počítačů na celém světě.

Na následujícím obrázku je znázorněn výkon RTX 6000, RTX 8000 a V100S GPU pomocí serveru DSS 8440. Jak vidíte, výkon grafické karty RTX je výrazně nižší než V100S grafický procesor. To je třeba očekávat, že HPL provádí faktoring typu Matrix LU, který je primárně dvakrát Precision s pohyblivou řádovou čárkou.

SLN321776_en_US__9image (18428)

(Obrázek 3 HPL výkon s různými procesory GPU)

V případě, že srovnání teoretického výkonu s plovoucí řádovou čárkou je Rpeak, to znamená, že výkon V100S grafického procesoru je mnohem vyšší. Teoretická hodnota Rpeak na jednom RTX grafickém procesoru je přibližně 500GFlops. Tato hodnota poskytuje méně Performance (Rmax) na procesory GPU. Hodnota Rpeak pro Volta V100S GPU je 8.2 TFlops, což vede k mnohem vyššímu výkonu jednotlivých karet.

MLPerf

Nutnost standardních srovnávacích testů výkonnosti pro MILILITRy LED pro vývoj MLPerf Suite. Tato sada zahrnuje srovnávací testy pro hodnocení školení a vypořádání hardwarového a softwarového vybavení. Tato část pouze řeší výkon školicích programů GPU. V následující tabulce jsou uvedeny úlohy hloubkového vzdělávání, datové sady a cílová kritéria, které se používají k vyhodnocení GPU.

Benchmark	Dataset	Jakostní cíl	Referenční model implementace
Klasifikace bitových obrazů	ImageNet (224x224)	75,9% Top – 1 přesnost	RESNET-50 v 1.5
Rozpoznání objektu (hmotnost světla)	COCO 2017	23% mapy	Disk SSD (ResNet34)
Rozpoznání objektu (silná hmotnost)	COCO 2017	minimální přístupový bod 0,377 v krabici 0,339 minimální přístupový bod	Maska R – CNN
Překlad (přestávající)	WMT angličtina – němčina	24,0 BLEU	GNMT
Překlad (přestávající)	WMT angličtina – němčina	25,0 BLEU	Transformátor
Posílení učení	Není k dispozici	Předem připravené kontrolní body	Mini go

Tabulka. 5 MLPerf datové sady a cílová kritéria (zdroj:https://mlperf.org/Training-Overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

na následujícím obrázku je znázorněn čas potřebný k splnění cílových kritérií pro rozhraní GPU RTX a V100S:

SLN321776_en_US__11image (18441)
(Obrázek: 4 MLPERF výkon)

Výsledky se vezmou v úvahu po provedení násobku, nejvyšší a nejnižší hodnotu a průměrné hodnoty ostatních běží na základě uvedených pokynů. Výkon pro RTX GPU je podobný. Procentuální odchylka odchylky mezi oběma RTX GPU je minimální a v rozmezí převzetí v souladu s pokyny MLPerf. Zatímco Volta V100 GPU poskytuje maximální výkon, RTX GPU také pracuje stejně, s výjimkou srovnávacího benchmarku pro detekci objektu.

V době zveřejnění selhalo srovnávací test klasifikace bitových obrazů v MLPerf s RTX GPU z důvodu chyby konvoluce. Očekává se, že tento problém bude opraven v budoucí cuDNN vydání.

Résolution

Shrnutí:

V tomto blogu jsme probrali výkon serveru GPU Dell EMC DSS 8440 a NVIDIA RTX GPU pro úlohy HPC a AI. Výkon pro oba RTX GPU je podobný, ale RTX 8000 GPU je ideální volbou pro aplikace, které vyžadují vyšší objem paměti. V případě pracovních úloh s dvojnásobnou přesností nebo úloh, které vyžadují velkou propustnost paměti Volta V100S a nového grafického procesoru NVIDIA A100, je nejvhodnější volbou.

V budoucnosti jsme pomohli poskytnout výkonnostní studii na RTX GPU s dalšími aplikacemi s přesností na Precision a s vyodvoznou studií na RTX a A100 GPU.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell