Numéro d’article: 000132886

HPC 및 AI 워크로드용 NVIDIA RTX GPU로 구동되는 Dell EMC DSS 8440 서버(영문)

Résumé: Dell EMC DSS8440 서버는 고성능 컴퓨팅, 기계 학습 (ML) 및 심층 학습 워크 로드를 위해 설계 된 2 소켓, 4U 서버입니다. 이 문서에서는 NVIDIA Volta V100S 및 NVIDIA Tesla T4 Tensor Core Gpu와 같은 다양 한 Gpu와이 시스템의 NVIDIA quadro RTX Gpu와 관련 된 성능을 비교 합니다. ...

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article

Symptômes

Deepthi Cherlopalle 및 Frank 한자

Dell EMC HPC 및 AI 혁신 실습실 년 6 월 2020

DELL EMC DSS8440 서버는 고성능 컴퓨팅, 기계 학습 (ML) 및 심층 학습 워크 로드를 위해 설계 된 2 소켓, 4u 서버입니다. Nvidia Volta V100S SLN321776_en_US__1iC_External_Link_BD_v1 및 nvidia Tesla T4 Tensor Core Gpu 및 nvidia quadro Rtx gpu와 같은 다양 한 gpu를 지원 합니다 .

SLN321776_en_US__4image (18426)

(그림 1 Dell EMC DSS840 서버)

이 블로그에서는 다양 한 산업 표준 벤치마킹 툴을 사용 하 여 비용 효율적인 NVIDIA Quadro RTX 6000 및 NVIDIA Quadro RTX 8000 Gpu와의 성능을 평가 합니다. 단일 vs 배정밀도 작업 부하에 대 한 테스트를 포함 합니다. Quadro 시리즈는 오랫동안 존재 하는 반면, Turing 아키텍처가 포함 된 RTX Gpu는 후기 2018에서 실행 됩니다. 표 1의 사양은 RTX 8000 GPU가 더 높은 메모리 구성 측면에서 RTX 6000 보다 상위 인지를 보여 줍니다. 하지만 RTX 8000 및 RTX 6000 Gpu에는 V100S GPU에 비해 높은 수준의 전력이 필요 합니다. 더 높은 메모리 용량을 필요로 하는 워크 로드의 경우 RTX 8000을 선택 하는 것이 좋습니다.

사양	RTX 6000	RTX 8000	V100S-32 GB
아키텍처	Turing		Volta
Memory	24GB GDDR6	48 GB GDDR6	32 GB HBM2
기본 클럭 속도 (MHz)	1395		1245
GPU 최대 클럭 속도 (MHz)	1770		1597
CUDA 코어	4608		5120
FP32 (TFLOPS 최대값)	16.3		16.4
메모리 대역폭 (GB/s)	672		1134
전원	295 W		250W

표. GPU 사양 1 개

서버	DellEMC, PowerEdge, DSS8440
프로세서	2 x 인텔 제온 6248, 20 C @ 2.5 g h z
Memory	24 x 32 GB @ 2933 MT/s (768 GB 합계)
GPU	8 x Quadro RTX 6000	8 x Quadro RTX 8000	8 x Volta V100S-PCIe
스토리지	1 x Dell Express Flash NVMe 1tb 2.5 "U. 2 (P4500)
전원 공급 장치	4 x 2400W

표. 2 서버 구성 세부 정보

BIOS	2.5.4
OS	RHEL 7.6
커널	3.10.0-957.el7.x86_64
시스템 프로필	성능 최적화
고 대 도구 키트 드라이브	10.1 440.33.01

표. 3 개의 시스템 펌웨어 세부 정보

애플리케이션	버전
HPL	hpl_cuda_10 hpl_cuda_10.1_ompi-3.1_volta_pascal_kepler_3-14-19_ext Intel MKL 2018 업데이트 4
LAMMPS	3 2020 년 3 월 openmpi – 4.0.3 알아봅니다
MLPERF	v 0.6 교육 docker 19.03

표. 4 애플리케이션 정보

Cause

LAMMPS

LAMMPS SLN321776_en_US__6iC_External_Link_BD_v1 는 Sandia 국립 연구소 및 신전 대학에서 연구원에 의해 관리 되는 Molecular Dynamics 애플리케이션입니다. LAMMPS는 NVIDIA Gpu에서 효율적으로 실행 되도록 Kokkos 패키지 와 함께 컴파일됩니다 . 그림 2에 나와 있는 것 처럼 Lennard Jones dataset은 성능 비교와 Timesteps/s로 측정 됩니다.

SLN321776_en_US__8image (18427)

(그림. 2 개의 Lennard Jones 그래프)

표 1에 나와 있는 것 처럼 RTX 6000 및 RTX 8000 Gpu는 동일한 수의 코어, 단일 precision 성능 및 GPU 대역폭을 포함 하지만 GPU 메모리는 다릅니다. RTX Gpu에도 유사 하 게 구성 되어 있기 때문에 성능도 같은 범위에 있습니다. RTX Gpu 확장성은이 애플리케이션에 적합 하며 두 Gpu의 성능 모두 동일 합니다.

Volta V100S GPU 성능은 Quadro RTX Gpu 보다 약 3 배 빠릅니다. 이 더 높은 성능에 대 한 주요 요인은 V100S GPU의 GPU 메모리 대역폭을 크게 높이는 것입니다.

HPL(High Performance Linpack)

HPL은 컴퓨팅 성능을 측정 하는 표준 HPC 벤치 마크입니다. TOP500 목록에서 supercomputers 전 세계적으로 순위를 결정 하는 레퍼런스 벤치 마크로 사용 됩니다.

다음 그림에서는 DSS 8440 서버를 사용 하는 RTX 6000, RTX 8000 및 V100S Gpu의 성능을 보여 줍니다. 여기에서 볼 수 있듯이 RTX Gpu의 성능이 V100S GPU 보다 훨씬 낮습니다. 이는 HPL이 기본적으로 이중 정밀도 부동 소수점 작업 인 matrix LU factorization 수행 하는 것으로 예상 됩니다.

SLN321776_en_US__9image (18428)

(그림. 다양 한 gpu를 포함 하는 3 Hpl 성능)

이론상의 부동 소수점 성능을 비교 하는 경우 (즉, 두 Gpu 모두의 피크) V100S GPU 성능이 훨씬 더 높은 것을 확인할 수 있습니다. 단일 RTX GPU의 이론적인 Rpeak 값은 약 500GFlops입니다. 이 값은 GPU 당 성능 (Rmax)을 덜 산출 합니다. Volta V100S GPU에 대 한 Rpeak 값은 8.2 TFlops 이며,이로 인해 각 카드의 성능이 훨씬 향상 됩니다.

MLPerf

MLPerf 제품군의 개발에 대 한 ML led의 업계 표준 성능 벤치 마크가 필요 합니다. 이 제품군에는 ML 하드웨어 및 소프트웨어의 성향 습득 및 유추 성능을 평가 하기 위한 벤치 마크가 포함 되어 있습니다. 이 섹션에서는 Gpu의 교육 성능도 다룹니다. 다음 표에는 Gpu를 평가 하는 데 사용 되는 심층 학습 워크 로드, 데이터 세트 및 타겟 기준이 나열 되어 있습니다.

벤치 마크	형식화	품질 목표	레퍼런스 구현 모델
이미지 분류	ImageNet (224x224)	75.9% 최고 1 개 정확도	Resnet-50 v 1.5
오브젝트 감지 (옅은 중량)	COCO2017	23% 맵	SSD-ResNet34
오브젝트 감지 (중량 중량)	COCO2017	0.377 Box 최소 AP 0.339 마스크 최소 ap	Mask R-CNN
변환 (되풀이)	WMT 영어-독일어	24.0 BLEU	고 대
변환 (비 되풀이)	WMT 영어-독일어	25.0 BLEU	변압기
본문 학습	N/A	사전 훈련 된 체크 포인트	미니 이동

표. 5 개의 mlperf 데이터 세트 및 타겟 기준 (소스:https://mlperf.org/training-overview/#overview SLN321776_en_US__6iC_External_Link_BD_v1 )

다음 그림에서는 rtx 및 V100S gpu의 타겟 기준을 충족 하는 시간을 보여 줍니다.

SLN321776_en_US__11image (18441)
(그림. 4 개의 mlperf 성능)

결과는 여러 개의 실행을 수행 하 고, 가장 높은 값과 가장 낮은 값을 무시 하 고, 나열 된 지침에 따라 다른 실행을 평균 계산 하는 것으로 간주 됩니다. RTX Gpu에 대 한 성능도 유사 합니다. RTX Gpu 간의 분산 비율은 최소 및 MLPerf 지침에 따라 허용 범위 내에서 결정 됩니다. Volta V100 GPU는 최상의 성능을 제공 하는 반면 RTX Gpu는 오브젝트 검색 벤치 마크를 제외 하 고도 잘 작동 합니다.

게시 시에는 회선 오류로 인해 RTX Gpu와 함께 MLPerf에서 이미지 분류 벤치 마크가 실패 했습니다. 이 문제는 향후 cuDNN 릴리즈에서 해결 될 것으로 예상 됩니다.

Résolution

요약

이 블로그에서는 Dell EMC DSS 8440 GPU 서버 및 NVIDIA RTX Gpu를 HPC 및 AI 워크 로드의 성능에 대해 설명 했습니다. 두 RTX Gpu에 대 한 성능도 유사 하지만 RTX 8000 GPU는 더 많은 양의 메모리를 필요로 하는 애플리케이션에 가장 적합 합니다. 배정밀도 워크 로드 또는 높은 메모리 대역폭 Volta V100S을 필요로 하는 워크 로드와 새로운 NVIDIA A100 GPU를 선택 하는 것이 가장 좋습니다.

향후에는 RTX Gpu에 다른 단일 precision 애플리케이션을 사용 하는 성능 연구와 RTX 및 A100 Gpu에 대 한 유추 연구를 제공 해야 합니다.

Propriétés de l’article

Produit concerné

High Performance Computing Solution Resources

Dernière date de publication

25 févr. 2021

Version

Type d’article

Solution

Haut de la page

Bienvenue

Bienvenue dans l’univers Dell