Výkon superpočítačů a umělé inteligence v serveru DSS8440 s grafickými kartami V100S
Summary: GPU, V100S, V100, DSS8440, 8 grafických karet, MLPerf, HPL, LAMMPS, srovnávací test
Symptoms
Dell EMC HPC & AI Innovation Lab, květen 2020
Shrnutí pro vedoucí pracovníky
Tento blog prezentuje výsledky studie hodnotící 8x V100S on DSS8440 pro různé aplikace HPC a hlubokého učení, včetně HPL, LAMMPS a MLPerf-v0.6 apartmá. Shrnutí:
- Aplikace omezené šířkou pásma grafické karty , jako je LAMMPS, mohou využít výhod nové grafické karty V100S a získají vyšší výkon pro jednu i více grafických karet.
- Aplikace pro hluboké učení, jako jsou ty testované v testu MLPerf, získají výhody z vyšší zvýšené frekvence a vyšší šířky pásma V100S.
- Aplikace HPL vázané na výpočetní výkon grafických procesorů, jako je srovnávací test HPC, získají stejný výkon jako V100-PCIe.
Zbytek tohoto blogu obsahuje podrobnosti o tomto testování. Všimněte si, že v budoucnu budou stejné aplikace spouštěny na DSS8440 s GPU RTX (místo V100S) a budou spuštěny i další testy, jako je výkon V100S na platformě AMD.
Resolution
Přehled testbedu
Skript Server Dell EMC DSS8440 je server optimalizovaný pro akcelerátory, speciálně navržený pro úlohy High-Performance Computing a hluboké učení. Skript NVIDIA V100S je nejnovějším členem řady Tesla Volta a jedná se o GPU kartu založené na 32G PCIe s dvojnásobnou šířkou. Na tomto blogu budou prezentovány výsledky studie hodnotící procesor 8x V100S on DSS8440 pro různé aplikace HPC a hlubokého učení, včetně HPL, LAMMPS a MLPerf-v0.6 apartmá.
Podrobnosti o hardwaru a softwaru testovaného serveru DSS 8440 a srovnání V100S a V100-PCIe jsou uvedeny v tabulce 1 a tabulce 2.
Tabulka 1: Podrobnosti o hardwaru a softwaru

Tabulka 2: Rozdíl ve specifikacích V100S a V100-PCIe
Výkon aplikací HPC

Obrázek 1: Výsledky HPL V100S a V100-PCIe na DSS8440
Na obrázku 1 jsou znázorněny hodnoty výkonu HPL. Mezi V100S a V100-PCIe není velký rozdíl, protože HPL je aplikace pro extrémní zátěžové testy. Je zde malý teplotní prostor pro Funkce GPU boost, proto frekvence GPU velmi rychle klesne zpět na základní taktovací rychlost. Vzhledem k tomu, že V100S a V100-PCIe mají téměř stejnou základní taktovací frekvenci, pro aplikace vázané na výpočetní výkon GPU, jako je HPL, poskytuje V100S přibližně stejný výkon jako V100-PCIe.

Obrázek 2: Výsledky LAMMPS V100S a V100-PCIe na DSS8440
Obrázek 2 obsahuje výsledky časových kroků/s LAMMPS s datovou sadou Lennarda Jonese. LAMMPS je příkladem kódu molekulární dynamiky, o kterém je známo, že je aplikací omezenou šířkou pásma GPU. V tomto testování dosahuje karta V100S o 27 % vyššího výkonu než karta V100-PCIe. Ke zrychlení přispívá nejen o 15 % vyšší frekvence zesílení a o 26 % větší šířka pásma, ale také novější verze softwaru. Čísla V100-PCIe byla získána pomocí starého balíčku KOKKOS ve verzi LAMMPS 8Feb2019. Novější verze 24Jan2020 však přidala podporu pro použití cuFFT na GPU s KOKKOS. Většinu podrobností najdete v tomto Informace o vydání LAMMPS 24.ledna 2020.
Výkon aplikací hlubokého učení

Obrázek 3: Výsledky karet V100S a V100-PCIe MLPerf v DSS8440
Školení MLPerf verze uzavřené divize 0.6 má 6 dílčích testů pokrývajících široké oblasti hlubokého učení včetně klasifikace obrazu (ResNet-50), detekce objektů (Mask R-CNN a SSD), překladu (NMT a Transformer) a zpětnovazebního učení (MiniGo). Výsledky porovnání obou grafických karet jsou uvedeny na obrázku 3. V sadě MLPerf pro V100S bylo zaznamenáno přibližně 1–5% zvýšení výkonu, což je v souladu s o 1–5 % vyšší propustností v souborech protokolu výsledků. Byl monitorován výstup taktovací frekvence grafických karet v reálném čase a bylo zjištěno, že grafické procesory V100S běžely ve všech těchto testech o 1–5 % vyšší, takže výkonnostní výhody pocházely z vyšší zvýšené frekvence karet V100S.
Závěry a budoucí práce
Na tomto blogu jsme porovnali výkon aplikací HPC s HPL, LAMMPS a výkon hlubokého učení s MLPerf s grafickými kartami V100S a V100-PCIe na stejném serveru DSS8440. Aplikace omezené šířkou pásma grafické karty, jako je LAMMPS, mohou využít výhod nových grafických karet V100S a získají vyšší výkon pro jeden i více grafických procesorů. Aplikace pro hluboké učení testované v testu MLPerf také těží z vyšší zvýšené frekvence a vyšší šířky pásma V100S. Srovnávací test HPL HPL s omezeným výpočetním výkonem pro grafické procesory dosahuje stejného výkonu jako V100-PCIe. V budoucnu budou stejné aplikace na DSS8440 spouštěny s GPU RTX a budou prozkoumány některé další testy, jako je výkon V100S na platformě AMD.