Numéro d’article: 000132886

HPC ve AI İş Yükleri için NVIDIA RTX GPU'ların Çalıştırdığı Dell EMC DSS 8440 Sunucusu (İngilizce)

Résumé: Dell EMC DSS8440 Server, yüksek performanslı bilgi Işlem, makine öğrenimi (ML) ve derin öğrenme iş yükleri için tasarlanan 2 soketli, 4U bir sunucudur. Bu makalede NVıDıA Volta V100S ve NVıDıA Tesla T4 Tencursor Core GPU 'lar gibi çeşitli GPU 'ların performansı ve bu sistemdeki NVıDıA Quadro RTX GPU 'Lar karşılaştırılmaktadır. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Derin sıkıştı ve filiz han

Dell EMC HPC ve AI yenilik laboratuarı 2020 Haziran

Dell EMC DSS8440 Server, yüksek performanslı bilgi Işlem, makine öğrenimi (ml) ve derin öğrenme iş yükleri için tasarlanan 2 soketli, 4U bir sunucudur. NVIDIA Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 ve NVIDIA Tesla T4 tencursor Core GPU 'lar gibi çeşitli GPU 'ların yanı sıra NVIDIA Quadro RTX GPU'ları destekler .

SLN321776_en_US__4image (18426)

(Şekil. 1 Dell EMC DSS840 Server)

Bu blogda, uygun maliyetli NVIDIA Quadro RTX 6000 ve NVıDıA Quadro RTX 8000 GPU 'ların performansını, çeşitli sektör standardı sınama araçlarını kullanarak üst katman Hızlandırıcı V100S GPU 'SU ile karşılaştırıyoruz. Bu, tek ve çift duyarlıklı iş yüklerine karşı test içerir. Quadro serisi uzun bir süre vardı, yani NVıDıA kat mimarisine sahip RTX GPU 'Lar geç 2018 ' de kullanıma sunuldu. Tablo 1 ' deki Teknik özellikler RTX 8000 GPU 'nun daha yüksek bellek yapılandırması açısından RTX 6000 ile üstün olduğunu gösteriyor. Ancak RTX 8000 ve RTX 6000 GPU 'Lar V100S GPU ile karşılaştırıldığında daha yüksek güç ihtiyaçlarına sahiptir. Daha yüksek bir bellek kapasitesi gerektiren iş yükleri için RTX 8000 daha iyi bir seçimdir.

Teknik Özellikler	RTX 6000	RTX 8000	V100S-32 GB
Mimari	Turing		Volta
Bellek	24 GB GDDR6	48 GB GDDR6	32 GB HBM2
Varsayılan saat hızı (MHz)	1395		1245
GPU maksimum saat hızı (MHz)	1770		1597
CUDA çekirdekleri	4608		5120
FP32 (maksimum TFLOPS)	16,3		16,4
Bellek bant genişliği (GB/sn)	672		1134
Power (Güç)	295 W		250 W

Tablo. 1 GPU teknik özellikleri

Sunucu	DellEMC, PowerEdge, DSS8440
İşlemci	2 x Intel Xeon 6248, 20 C @ 2,5 GHz
Bellek	24 x 32 GB @ 2933 MT/s (768 GB toplam)
'SUNA	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
Depolama	1 x Dell Express Flash NVMe 1 TB 2,5 "U. 2 (P4500)
Güç Kaynakları	4 x 2400 W

Tablo. 2 sunucu yapılandırma ayrıntıları

BIOS	2.5.4
İşletim Sistemi	RHEL 7,6
Kernel	3.10.0-957.el7.x86_64
Sistem Profili	Optimize Edilmiş Performans
CUDA araç kiti CUDA sürücüsü	10,1 440.33.01

Tablo. 3 sistem üretici yazılımı ayrıntıları

Uygulama	Sürüm
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel mkl 2018 güncelleme 4
LAMMPS	Mart 3 2020 openmpi – 4.0.3
MLPERF	v 0,6 eğitimi Docker 19,03

Tablo. 4 uygulama bilgileri

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 , Sandia Ulusal laboratuvarlarda ve Temple Üniversitesi 'nde araştırmacılar tarafından bakımı yapılan bir Molesel Dynamics uygulamasıdır. LAMMPS, NVıDıA GPU 'Larda verimli bir şekilde çalışmak için KOKKOS paketi ile derlenmişti . Lennard Jones veri kümesi, Şekil 2 ' de gösterildiği şekilde performans karşılaştırma ve zaman dilimlerini ölçmektedir.

SLN321776_en_US__8image (18427)

(Şekil. 2 mernard Jones grafik)

Tablo 1 ' de listelendiği gibi, RTX 6000 ve RTX 8000 GPU 'Lar aynı sayıda çekirdeğe, tek duyarlıklı performansa ve GPU bant genişliğine sahip olmakla birlikte, farklı GPU belleklerini de vardır. Her iki GPU 'nun da benzer bir yapılandırması olduğundan, performans aynı aralıkta de yer alabilmektedir. Bu uygulama için RTX GPU iyi ölçek ve her iki GPU için de performans aynıdır.

Volta V100S GPU performansı, Quadro RTX GPU 'lardan yaklaşık üç kat daha hızlıdır. Bu daha yüksek performans için temel faktör, V100S GPU 'nun daha yüksek GPU bellek bant genişi olur.

Yüksek Performanslı Linpack (HPL)

HPL, bilgi işlem performansını ölçen standart bir HPC karşılaştırmalı bir kıyaslandır. Dünyanın dört bir yanındaki ana bilgisayarlar tarafından TOP500 listesi tarafından karşılaştırmalı bir başvuru olarak kullanılır.

Aşağıdaki şekil, DSS 8440 sunucu kullanan RTX 6000, RTX 8000 ve V100S GPU 'ların performansını göstermektedir. Gördüğünüz gibi, RTX GPU 'ların performansı V100S GPU 'dan önemli ölçüde daha düşüktür. HPL, öncelikli olarak çift duyarlıklı kayan nokta işlemleri olan bir matris LU factorun gerçekleştirdiği için bu beklenir.

SLN321776_en_US__9image (18428)

(Farklı GPU 'Lar ileşekil. 3 HPL performans)

Teorik kayan nokta performansını, yani her iki GPU 'nun de en yüksek olduğunu karşılaştırdığımız takdirde V100S GPU performansının çok daha yüksek olduğunu görüyoruz. Tek bir RTX GPU 'daki teorik bir Rtepe değeri yaklaşık 500 adet Gpk'dir. Bu değer GPU başına daha az performans (Rmax) verir. Volta V100S GPU 'nun Rtepe değeri, her karttan daha yüksek performans elde etmenizi sağlayan 8.2 TFlops ' dir.

MLPerf

MLPerf paketi 'nin gelişiminde ML LED 'i için endüstri standardında performans kıyaslamaları ihtiyacı. Bu paket, ML donanımının ve yazılımlarının eğitim ve çıkarma performansını değerlendirmek için değerlendirmeler içerir. Bu bölüm yalnızca GPU 'nun eğitim performansını ele alarak geçerlidir. Aşağıdaki tabloda, GPU 'Ların değerlendirilmesi için kullanılan derin öğrenme iş yükleri, veri kümeleri ve hedef ölçütleri listelenmektedir.

Kıyaslama	Güncellen	Kalite hedefi	Referans uygulama modeli
Resim sınıflandırması	ImageNet (224x224)	% 75,9 en yüksek-1 doğruluk	ResNet-50 v 1.5
Nesne algılama (ışık ağırlığı)	COCO 2017	%23 eşleşme	SSD-ResNet34
Nesne algılama (ağır ağırlık)	COCO 2017	0,377 Box minimum AP 0,339 Mask MINIMUM AP	Maske R-CNN
Çeviri (recurkiralık)	WMT Ingilizce-Almanca	24,0 BLEU	GNMT
Çeviri (tekrarlamayan)	WMT Ingilizce-Almanca	25,0 BLEU	Transformat
Reinforcement Learning	N/A	Eğitime öncesi kontrol noktası	Mini hareket

Tablo. 5 mlperf veri kümeleri ve hedef ölçütleri (Kaynak:https://mlperf.org/Training-Overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

Aşağıdaki şekil, RTX ve V100S GPU 'ların her ikisi için de hedef ölçüte uymak için gereken zamanı göstermektedir:

SLN321776_en_US__11image (18441)
(Şekil. 4 Mlperf performansı)

Sonuçlar birden çok çalıştırma gerçekleştirildikten sonra, en yüksek ve en düşük değeri atarak ve listelenen yönergelere göre diğer çalışma değerinin ortalamasını aldığı düşünülür. Her iki RTX GPU 'nun da performansı benzerdir. Her iki RTX GPU arasındaki varyans yüzdesi en az ve MLPerf yönergelerine göre kabul aralığı içinde. Volta V100 GPU en iyi performansı sağlarken, RTX GPU 'Lar nesne algılama kıyaslanması dışında da iyi bir şekilde gerçekleştirilir.

Yayımlanma tarihinde, MLPerf 'deki görüntü sınıflandırması, bir evrleşme hatası nedeniyle RTX GPU 'Lar ile birlikte başarısızlıkla sonuçlandı. Bu sorunun gelecekteki bir cuDNN sürümünde düzeltilmesi beklenir.

Résolution

Özet

Bu blogda, HPC ve AI iş yükleri için Dell EMC DSS 8440 GPU sunucusu ve NVıDıA RTX GPU 'ların performansını tartıştık. Her iki RTX GPU 'nun da performansı benzerdir, ancak daha yüksek miktarda bellek gerektiren uygulamalar için RTX 8000 GPU en iyi bir seçimdir. Çift duyarlıklı iş yükleri veya yüksek bellek bant genişliği Volta V100S gerektiren iş yükleri ve yeni NVıDıA A100 GPU en iyi seçimdir.

Gelecekte, tek duyarlıklı uygulamalara sahip RTX GPU 'Lar ve RTX ve A100 GPU 'Lar üzerinde bir çıkarım incelemesi için bir performans incelemesi sağlamayı planlıyoruz.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell