HPC- och AI-prestanda på DSS8440 med V100S-grafikprocessorer
Summary: GPU, V100S, V100, DSS8440, 8 GPU:er, MLPerf, HPL, LAMMPS, prestandatest
Symptoms
Dell EMC HPC & AI Innovation Lab, maj 2020
Sammanfattning
I den här bloggen presenteras resultaten av studien som utvärderar 8x V100S på DSS8440 för olika HPC- och djupinlärningsapplikationer, inklusive HPL, LAMMPS och MLPerf-v0.6 svit. Sammanfattning:
- Program som begränsas av GPU-bandbredd som LAMMPS kan dra nytta av de nya V100S-GPU:erna och får ökad prestanda för både en och flera GPU:er.
- Djupinlärningsapplikationer, som de som testats i MLPerf, kommer att dra nytta av den högre förstärkta klockningen och den högre bandbredden hos V100S.
- GPU-beräkningsbundna program som HPC-prestandatestet HPL får samma prestanda som V100-PCIe.
Resten av den här bloggen innehåller information om den här testningen. Observera att i framtiden kommer samma applikationer att köras på DSS8440 med RTX GPU:er (i stället för V100S), och andra tester, som V100S-prestanda på AMD-plattformen, kommer också att köras.
Resolution
Översikt över testbädden
Informationen Dell EMC DSS8440 server är en acceleratoroptimerad server som är särskilt utformad för högpresterande beräkningar och arbetsbelastningar för djupinlärning. Informationen NVIDIA V100S är den senaste medlemmen i Tesla Volta-serien och det är ett 32G PCIe-baserat GPU-kort med dubbel bredd. Den här bloggen kommer att presentera resultaten av studien som utvärderar 8x V100S på DSS8440 för olika HPC- och djupinlärningsapplikationer inklusive HPL, LAMMPS och MLPerf-v0.6 svit.
Maskinvaru- och programvaruinformation för den testade DSS 8440-servern och jämförelsen av V100S och V100-PCIe visas i tabell 1 och tabell 2.
Tabell 1: Information om maskinvara och programvara

Tabell 2: V100S och V100-PCIe skillnad i specifikation
Prestanda för HPC-program

Bild 1: V100S- och V100-PCIe HPL-resultat på DSS8440
Bild 1 visar HPL-prestandasiffrorna. Det är inte så stor skillnad mellan V100S och V100-PCIe, eftersom HPL är en extrem stresstestapplikation. Det finns lite temperaturutrymme för GPU Boost-funktion, därför faller frekvensen för GPU:erna tillbaka till basklockfrekvensen mycket snabbt. Eftersom V100S och V100-PCIe har nästan samma basklockfrekvens ger V100S ungefär samma prestanda som V100-PCIe för GPU-beräkningsbundna program som HPL.

Bild 2: V100S och V100-PCIe LAMMPS resultat på DSS8440
Figur 2 visar resultaten av tidssteg för LAMMPS med Lennard Jones-datauppsättningen. LAMMPS är ett exempel på molekyldynamikkod som är känd för att vara en GPU-bandbreddsbegränsad applikation. V100S levererar 27 % mer prestanda än V100-PCIe i den här testningen. Hastigheten kommer inte bara från den 15 % högre boostfrekvensen och 26 % mer bandbredd utan även från den nyare mjukvaruversionen. V100-PCIe-nummer erhölls med hjälp av det gamla KOKKOS-paketet i LAMMPS 8Feb2019-versionen. Den nyare versionen 24Jan2020 hade dock lagt till stöd för att använda cuFFT på GPU:n med KOKKOS. De flesta detaljer finns i denna Versionsanteckning för LAMMPS 24 januari 2020.
Prestanda för djupinlärningsprogram

Bild 3: V100S och V100-PCIe MLPerf resultat på DSS8440
MLPerf-utbildning stängd division 0.6 version har 6 deltester som täcker breda djupinlärningsdomäner inklusive bildklassificering (ResNet-50), objektdetektering (Mask R-CNN och SSD), översättning (NMT och Transformer) och förstärkningsinlärning (MiniGo). Jämförelseresultaten för båda GPU-korten visas i bild 3. Cirka 1–5 % prestandavinster observerades i MLPerf-sviten för V100S, vilket överensstämmer med det 1–5 % högre dataflödet i resultatloggfilerna. Realtidsutmatningen av GPU-klockfrekvensen övervakades och det observerades att V100S-GPU:er kördes med 1–5 % högre prestanda i alla dessa tester, så prestandafördelarna kom från den högre förstärkta frekvensen hos V100S.
Slutsatser och framtida arbeten
I den här bloggen jämfördes HPC-programprestanda med HPL, LAMMPS och djupinlärningsprestanda med MLPerf med V100S- och V100-PCIe GPU-kort på samma DSS8440-server. Applikationer som begränsas av GPU-bandbredd som LAMMPS kan dra nytta av de nya V100S GPU:erna och kommer att få ökad prestanda för både enstaka och flera GPU:er. Djupinlärningsprogram som testas i MLPerf får också fördelar från den högre förstärkta klockfrekvensen och högre bandbredden hos V100S. Det GPU-beräkningsbegränsade HPC-prestandatestet HPL får samma prestanda som V100-PCIe. I framtiden kommer samma applikationer på DSS8440 att köras med RTX GPU:er, och några andra tester som V100S-prestanda på AMD-plattformen kommer att utforskas.