V100S GPU'ya Sahip DSS8440 Üzerinde HPC ve AI Performansı (İngilizce)
Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, Karşılaştırma
Symptoms
Dell EMC HPC & AI Innovation Lab, Mayıs 2020
Yönetici Özeti
Bu blog, HPL, LAMMPS ve HPL dahil olmak üzere farklı HPC ve derin öğrenme uygulamaları için DSS8440 üzerinde 8x V100S'yi değerlendiren çalışmanın sonuçlarını sunar. MLPerf-v0.6 maiyet. Özet olarak:
- LAMMPS gibi GPU bant genişliği ile sınırlı uygulamalar, yeni V100S GPU'lardan yararlanabilir ve hem tekli hem de çoklu GPU'lar için artırılmış performans elde eder.
- MLPerf'te test edilenler gibi derin öğrenme uygulamaları, V100S'nin daha yüksek artırılmış saatinden ve daha yüksek bant genişliğinden yararlanır.
- HPC karşılaştırmalı testi HPL gibi GPU bilgi işleme bağlı uygulamalar, V100-PCIe ile aynı performansı elde eder.
Bu blogun geri kalanı bu testin ayrıntılarını ortaya koymaktadır. Gelecekte, aynı uygulamaların RTX GPU'lu DSS8440 (V100S yerine) çalıştırılacağını ve AMD platformundaki V100S performansı gibi diğer testlerin de çalıştırılacağını unutmayın.
Resolution
Test Ortamına Genel Bakış
Komutta Dell EMC DSS8440 sunucusu yüksek performanslı bilgi işlem ve derin öğrenme iş yükleri için özel olarak tasarlanmış, hızlandırıcı için optimize edilmiş bir sunucudur. Komutta NVIDIA V100S Tesla Volta serisinin en son üyesidir ve çift genişlikte 32G PCIe tabanlı bir GPU kartıdır. Bu blog, HPL, LAMMPS ve HPL dahil olmak üzere farklı HPC ve derin öğrenme uygulamaları için DSS8440 üzerinde 8x V100S'yi değerlendiren çalışmanın sonuçlarını sunacaktır. MLPerf-v0.6 maiyet.
Test edilen DSS 8440 sunucusunun donanım ve yazılım ayrıntıları ile V100S ve V100-PCIe karşılaştırması Tablo 1 ve Tablo 2'de listelenmiştir.
Tablo 1: Donanım ve yazılım ayrıntıları

Tablo 2: V100S ve V100-PCIe teknik özellik farkı
HPC Uygulama Performansı

Şekil 1: DSS8440'da V100S ve V100-PCIe HPL sonuçları
Şekil 1, HPL performans rakamlarını göstermektedir. V100S ve V100-PCIe arasında pek bir fark yoktur, çünkü HPL aşırı stres testi uygulamasıdır. için çok az sıcaklık odası var. GPU güçlendirme özelliği, bu nedenle GPU'ların frekansı çok hızlı bir şekilde temel saat hızına geri döner. V100S ve V100-PCIe neredeyse aynı temel saat hızına sahip olduğundan, HPL gibi GPU bilgi işlem sınırlı uygulamalar için V100S, V100-PCIe ile yaklaşık olarak aynı düzeyde performans sunar.

Şekil 2: DSS8440'de V100S ve V100-PCIe LAMMPS sonuçları
Şekil 2, Lennard Jones veri setli LAMMPS'nin zaman adımı/s sonuçlarını içermektedir. LAMMPS, GPU bant genişliği sınırlı bir uygulama olarak bilinen bir moleküler dinamik kodu örneğidir. V100S, bu testte V100-PCIe'den %27 daha fazla performans sunar. Hızlanma, yalnızca %15 daha yüksek yükseltme frekansı ve %26 daha fazla bant genişliğinden değil, aynı zamanda daha yeni yazılım sürümünden de katkıda bulunur. V100-PCIe numaraları, LAMMPS 8Feb2019 versiyonunda eski KOKKOS paketi kullanılarak elde edilmiştir. Ancak, daha yeni sürüm 24Jan2020, KOKKOS ile GPU'da cuFFT kullanma desteği eklemişti. Çoğu ayrıntı burada bulunabilir LAMMPS 24Jan2020 sürüm notuIP adresi için sorgular.
Derin Öğrenme Uygulama Performansı

Şekil 3: DSS8440 günü V100S ve V100-PCIe MLPerf sonuçları
MLPerf eğitimi kapatılan bölüm 0.6 sürümü görüntü sınıflandırma (ResNet-50), nesne algılama (Mask R-CNN ve SSD), Çeviri (NMT ve Transformer) ve pekiştirmeli öğrenme (MiniGo) dahil olmak üzere geniş derin öğrenme alanlarını kapsayan 6 alt teste sahiptir. Her iki GPU kartının karşılaştırma sonuçları Şekil 3'te sunulmaktadır. V100S için MLPerf paketinde yaklaşık %1-5 oranında performans artışı gözlemlenmiştir. Bu da sonuç günlüğü dosyalarındaki %1-5 daha yüksek aktarım hızıyla tutarlıdır. GPU saat hızının gerçek zamanlı çıkışı izlendi ve V100S GPU'ların tüm bu testlerde %1-5 daha yüksek çalıştığı gözlemlendi, bu nedenle performans avantajları V100S'nin daha yüksek artırılmış frekansından geldi.
Sonuçlar ve Gelecek Çalışmalar
Bu blogda, HPL ve LAMMPS ile HPC uygulamalarının performansı ve MLPerf ile derin öğrenme performansı, aynı DSS8440 sunucusundaki V100S ve V100-PCIe GPU kartlarıyla karşılaştırıldı. LAMMPS gibi GPU bant genişliği ile sınırlı uygulamalar, yeni V100S GPU'lardan yararlanabilir ve hem tekli hem de çoklu GPU'lar için artırılmış performans elde eder. MLPerf te test edilen derin öğrenme uygulamaları, V100S'nin daha yüksek artırılmış saat hızı ve daha yüksek bant genişliğinden de yararlanır. GPU bilgi işlemle sınırlı HPC karşılaştırmalı testi HPL, V100-PCIe ile aynı performansı alır. Gelecekte, DSS8440'daki aynı uygulamalar RTX GPU'larla çalıştırılacak ve AMD platformundaki V100S performansı gibi diğer bazı testler araştırılacak.