Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

HPC ve AI İş Yükleri için NVIDIA RTX GPU'ların Çalıştırdığı Dell EMC DSS 8440 Sunucusu (İngilizce)

Résumé: Dell EMC DSS8440 Server, yüksek performanslı bilgi Işlem, makine öğrenimi (ML) ve derin öğrenme iş yükleri için tasarlanan 2 soketli, 4U bir sunucudur. Bu makalede NVıDıA Volta V100S ve NVıDıA Tesla T4 Tencursor Core GPU 'lar gibi çeşitli GPU 'ların performansı ve bu sistemdeki NVıDıA Quadro RTX GPU 'Lar karşılaştırılmaktadır. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

 

Derin sıkıştı ve filiz han

 

Dell EMC HPC ve AI yenilik laboratuarı 2020 Haziran

 

Dell EMC DSS8440 Server, yüksek performanslı bilgi Işlem, makine öğrenimi (ml) ve derin öğrenme iş yükleri için tasarlanan 2 soketli, 4U bir sunucudur. NVIDIA Volta V100SSLN321776_en_US__1iC_External_Link_BD_v1 ve NVIDIA Tesla T4SLN321776_en_US__1iC_External_Link_BD_v1 tencursor Core GPU 'lar gibi çeşitli GPU 'ların yanı sıra NVIDIA Quadro RTX GPU'ları destekler SLN321776_en_US__1iC_External_Link_BD_v1 .

SLN321776_en_US__4image (18426)

(Şekil. 1 Dell EMC DSS840 Server)

Bu blogda, uygun maliyetli NVIDIA Quadro RTX 6000 ve NVıDıA Quadro RTX 8000 GPU 'ların performansını, çeşitli sektör standardı sınama araçlarını kullanarak üst katman Hızlandırıcı V100S GPU 'SU ile karşılaştırıyoruz. Bu, tek ve çift duyarlıklı iş yüklerine karşı test içerir. Quadro serisi uzun bir süre vardı, yani NVıDıA kat mimarisine sahip RTX GPU 'Lar geç 2018 ' de kullanıma sunuldu. Tablo 1 ' deki Teknik özellikler RTX 8000 GPU 'nun daha yüksek bellek yapılandırması açısından RTX 6000 ile üstün olduğunu gösteriyor. Ancak RTX 8000 ve RTX 6000 GPU 'Lar V100S GPU ile karşılaştırıldığında daha yüksek güç ihtiyaçlarına sahiptir. Daha yüksek bir bellek kapasitesi gerektiren iş yükleri için RTX 8000 daha iyi bir seçimdir.

Teknik Özellikler RTX 6000 RTX 8000 V100S-32 GB
Mimari Turing Volta
Bellek 24 GB GDDR6 48 GB GDDR6 32 GB HBM2
Varsayılan saat hızı (MHz) 1395 1245
GPU maksimum saat hızı (MHz) 1770 1597
CUDA çekirdekleri 4608 5120
FP32 (maksimum TFLOPS) 16,3 16,4
Bellek bant genişliği (GB/sn) 672 1134
Power (Güç) 295 W 250 W

Tablo. 1 GPU teknik özellikleri

Sunucu DellEMC, PowerEdge, DSS8440
İşlemci 2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Bellek 24 x 32 GB @ 2933 MT/s (768 GB toplam)
'SUNA  8 x Quadro RTX 6000    8 x Quadro RTX 8000   8 x Volta V100S-PCIe 
Depolama 1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Güç Kaynakları 4 x 2400 W

Tablo. 2 sunucu yapılandırma ayrıntıları

BIOS 2.5.4
İşletim Sistemi RHEL 7,6
Kernel 3.10.0-957.el7.x86_64
Sistem Profili Optimize Edilmiş Performans
CUDA araç kiti
CUDA sürücüsü
10,1
440.33.01

Tablo. 3 sistem üretici yazılımı ayrıntıları

Uygulama Sürüm
HPL hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext
Intel mkl 2018 güncelleme 4
LAMMPS Mart 3 2020
openmpi – 4.0.3
MLPERF v 0,6 eğitimiSLN321776_en_US__1iC_External_Link_BD_v1
Docker 19,03

Tablo. 4 uygulama bilgileri

Cause

LAMMPS

LAMMPSSLN321776_en_US__6iC_External_Link_BD_v1 , Sandia Ulusal laboratuvarlarda ve Temple Üniversitesi 'nde araştırmacılar tarafından bakımı yapılan bir Molesel Dynamics uygulamasıdır. LAMMPS, NVıDıA GPU 'Larda verimli bir şekilde çalışmak için KOKKOS paketi ile derlenmişti SLN321776_en_US__6iC_External_Link_BD_v1 . Lennard Jones veri kümesi, Şekil 2 ' de gösterildiği şekilde performans karşılaştırma ve zaman dilimlerini ölçmektedir.

SLN321776_en_US__8image (18427)

(Şekil. 2 mernard Jones grafik)

 Tablo 1 ' de listelendiği gibi, RTX 6000 ve RTX 8000 GPU 'Lar aynı sayıda çekirdeğe, tek duyarlıklı performansa ve GPU bant genişliğine sahip olmakla birlikte, farklı GPU belleklerini de vardır. Her iki GPU 'nun da benzer bir yapılandırması olduğundan, performans aynı aralıkta de yer alabilmektedir. Bu uygulama için RTX GPU iyi ölçek ve her iki GPU için de performans aynıdır.

Volta V100S GPU performansı, Quadro RTX GPU 'lardan yaklaşık üç kat daha hızlıdır. Bu daha yüksek performans için temel faktör, V100S GPU 'nun daha yüksek GPU bellek bant genişi olur.


Yüksek Performanslı Linpack (HPL)

HPL, bilgi işlem performansını ölçen standart bir HPC karşılaştırmalı bir kıyaslandır. Dünyanın dört bir yanındaki ana bilgisayarlar tarafından TOP500 listesi tarafından karşılaştırmalı bir başvuru olarak kullanılır.

Aşağıdaki şekil, DSS 8440 sunucu kullanan RTX 6000, RTX 8000 ve V100S GPU 'ların performansını göstermektedir. Gördüğünüz gibi, RTX GPU 'ların performansı V100S GPU 'dan önemli ölçüde daha düşüktür. HPL, öncelikli olarak çift duyarlıklı kayan nokta işlemleri olan bir matris LU factorun gerçekleştirdiği için bu beklenir.

SLN321776_en_US__9image (18428)

(Farklı GPU 'Lar ileşekil. 3 HPL performans)

Teorik kayan nokta performansını, yani her iki GPU 'nun de en yüksek olduğunu karşılaştırdığımız takdirde V100S GPU performansının çok daha yüksek olduğunu görüyoruz. Tek bir RTX GPU 'daki teorik bir Rtepe değeri yaklaşık 500 adet Gpk'dir. Bu değer GPU başına daha az performans (Rmax) verir. Volta V100S GPU 'nun Rtepe değeri, her karttan daha yüksek performans elde etmenizi sağlayan 8.2 TFlops ' dir.


MLPerf

MLPerf paketi 'nin gelişiminde ML LED 'i için endüstri standardında performans kıyaslamaları ihtiyacı. Bu paket, ML donanımının ve yazılımlarının eğitim ve çıkarma performansını değerlendirmek için değerlendirmeler içerir. Bu bölüm yalnızca GPU 'nun eğitim performansını ele alarak geçerlidir. Aşağıdaki tabloda, GPU 'Ların değerlendirilmesi için kullanılan derin öğrenme iş yükleri, veri kümeleri ve hedef ölçütleri listelenmektedir.

Kıyaslama Güncellen Kalite hedefi Referans uygulama modeli
Resim sınıflandırması ImageNet (224x224) % 75,9 en yüksek-1 doğruluk ResNet-50 v 1.5
Nesne algılama
(ışık ağırlığı)
COCO 2017 %23 eşleşme SSD-ResNet34
Nesne algılama
(ağır ağırlık)
COCO 2017 0,377 Box minimum AP
0,339 Mask MINIMUM AP
Maske R-CNN
Çeviri
(recurkiralık)
WMT Ingilizce-Almanca 24,0 BLEU GNMT
Çeviri
(tekrarlamayan)
 WMT Ingilizce-Almanca  25,0 BLEU Transformat
Reinforcement Learning N/A Eğitime öncesi kontrol noktası Mini hareket

Tablo. 5 mlperf veri kümeleri ve hedef ölçütleri (Kaynak:https://mlperf.org/Training-Overview/#overviewSLN321776_en_US__6iC_External_Link_BD_v1 )

Aşağıdaki şekil, RTX ve V100S GPU 'ların her ikisi için de hedef ölçüte uymak için gereken zamanı göstermektedir:

SLN321776_en_US__11image (18441)
(Şekil. 4 Mlperf performansı)

Sonuçlar birden çok çalıştırma gerçekleştirildikten sonra, en yüksek ve en düşük değeri atarak ve listelenen yönergelere göre diğer çalışma değerinin ortalamasını aldığı düşünülür. Her iki RTX GPU 'nun da performansı benzerdir. Her iki RTX GPU arasındaki varyans yüzdesi en az ve MLPerf yönergelerine göre kabul aralığı içinde. Volta V100 GPU en iyi performansı sağlarken, RTX GPU 'Lar nesne algılama kıyaslanması dışında da iyi bir şekilde gerçekleştirilir.

Yayımlanma tarihinde, MLPerf 'deki görüntü sınıflandırması, bir evrleşme hatası nedeniyle RTX GPU 'Lar ile birlikte başarısızlıkla sonuçlandı. Bu sorunun gelecekteki bir cuDNN sürümünde düzeltilmesi beklenir.

Résolution

Özet

Bu blogda, HPC ve AI iş yükleri için Dell EMC DSS 8440 GPU sunucusu ve NVıDıA RTX GPU 'ların performansını tartıştık. Her iki RTX GPU 'nun da performansı benzerdir, ancak daha yüksek miktarda bellek gerektiren uygulamalar için RTX 8000 GPU en iyi bir seçimdir. Çift duyarlıklı iş yükleri veya yüksek bellek bant genişliği Volta V100S gerektiren iş yükleri ve yeni NVıDıA A100 GPU en iyi seçimdir.

Gelecekte, tek duyarlıklı uygulamalara sahip RTX GPU 'Lar ve RTX ve A100 GPU 'Lar üzerinde bir çıkarım incelemesi için bir performans incelemesi sağlamayı planlıyoruz.


Propriétés de l’article


Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

4

Type d’article

Solution