V100S GPU가 설치된 DSS8440의 HPC 및 AI 성능(영문)

Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, 벤치마크

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

저자: Frank Han, Rengan Xu, Quy Ta
Dell EMC HPC & AI INNOVATION LAB, 2020년 5월

요약

이 블로그DSS8440에서는 HPL, LAMMPS 및 MLPerf-v0.6 스위트룸. 요약:

  • LAMMPS와 같이 GPU 대역폭의 제약을 받는 애플리케이션 새로운 V100S GPU를 활용할 수 있으며 단일 및 다중 GPU 모두에서 향상된 성능을 얻을 수 있습니다.
  • MLPerf에서 테스트한 것과 같은 딥 러닝 애플리케이션은 V100S의 더 높은 부스트 클럭과 더 높은 대역폭의 이점을 얻을 수 있습니다.
  • HPC 벤치마크 HPL과 같은 GPU 컴퓨팅 기반 애플리케이션은 V100-PCIe와 동일한 성능을 제공합니다.

이 블로그의 나머지 부분에서는 이 테스트의 세부 정보를 설명합니다.  향후 V100S 대신 RTX GPU가 탑재된 DSS8440에서 동일한 애플리케이션이 실행될 예정이며, AMD 플랫폼의 V100S 성능과 같은 다른 테스트도 실행될 예정입니다.

Resolution

테스트베드 개요

Dell EMC DSS8440 서버 가속기에 최적화된 서버로, 고성능 컴퓨팅 및 딥 러닝 워크로드를 위해 특별히 설계되었습니다. 이 NVIDIA V100S 는 Tesla Volta 시리즈의 최신 제품이며 이중 너비 32G PCIe 기반 GPU 카드입니다. 이 블로그에서는 HPL, LAMMPS 및 DSS8440 HPL, LAMMPS 및 MLPerf-v0.6 스위트룸.

테스트된 DSS 8440 서버의 하드웨어 및 소프트웨어 세부 정보와 V100S 및 V100-PCIe의 비교는 표 1 및 표 2에 나와 있습니다.

 

표 1: 하드웨어 및 소프트웨어 세부 정보

SLN321304_en_US__1image(15660)

표 2: V100S 및 V100-PCIe 사양 차이
SLN321304_en_US__2image(15661)

 

HPC 애플리케이션 성능

 

 SLN321304_en_US__3image(15658)

그림 1: V100S 및 V100-PCIe HPL 결과 DSS8440

그림 1은 HPL 성능 수치를 보여줍니다. HPL은 극한의 스트레스 테스트 애플리케이션이기 때문에 V100S와 V100-PCIe 사이에는 큰 차이가 없습니다. 를 위한 온도 공간이 거의 없습니다. GPU 부스트 기능따라서 GPU의 주파수는 기본 클럭 속도로 매우 빠르게 돌아갑니다. V100S와 V100-PCIe는 기본 클럭 속도가 거의 동일하기 때문에 HPL과 같은 GPU 컴퓨팅 경계 애플리케이션의 경우 V100S는 V100-PCIe와 거의 동일한 수준의 성능을 제공합니다. 

SLN321304_en_US__4image(15659)

그림 2: DSS8440의 V100S 및 V100-PCIe LAMMPS 결과

그림 2는 Lennard Jones 데이터 세트를 사용한 LAMMPS의 timestep/s 결과입니다. LAMMPS는 GPU 대역폭 제한 애플리케이션으로 알려진 분자 역학 코드의 예입니다. V100S는 이 테스트에서 V100-PCIe보다 27% 더 높은 성능을 제공합니다. 속도 향상은 15% 더 높은 부스트 주파수와 26% 더 많은 대역폭뿐만 아니라 최신 소프트웨어 버전에서도 기인합니다. V100-PCIe 번호는 LAMMPS 8Feb 2019 버전에서 이전 KOKKOS 패키지를 사용하여 얻었습니다. 그러나 2020년 1월 24일 최신 버전에는 KOKKOS가 있는 GPU에서 cuFFT를 사용하기 위한 지원이 추가되었습니다. 대부분의 세부 정보는 다음에서 확인할 수 있습니다. LAMMPS 2020년 1월 24일 릴리스 노트에 관한 자세한 내용을 참조하십시오.

 

딥 러닝 애플리케이션 성능

SLN321304_en_US__5image(15662)

그림 3: V100S 및 V100-PCIe MLPerf 결과 DSS8440

MLPerf 교육 클로즈드 디비전 0.6 버전 이미지 분류(ResNet-50), 객체 감지(Mask R-CNN 및 SSD), 번역(NMT 및 트랜스포머) 및 강화 학습(MiniGo)을 포함한 광범위한 딥 러닝 영역을 다루는 6개의 하위 테스트가 있습니다. 두 GPU 카드의 비교 결과는 그림 3에 나와 있습니다. V100S용 MLPerf 제품군에서 약 1-5%의 성능 향상이 관찰되었으며, 이는 결과 로그 파일의 1-5% 높은 처리량과 일치합니다. GPU 클럭 속도의 실시간 출력을 모니터링한 결과, V100S GPU가 모든 테스트에서 1-5% 더 높은 속도로 실행되는 것으로 관찰되었으므로 V100S의 더 높은 부스트 주파수에서 성능 이점이 있었습니다.

결론 및 향후 작업

이 블로그에서는 HPL, LAMMPS를 사용한 HPC 애플리케이션 성능과 MLPerf를 사용한 딥 러닝 성능을 동일한 DSS8440 서버의 V100S 및 V100-PCIe GPU 카드와 비교했습니다. LAMMPS와 같이 GPU 대역폭의 제약을 받는 애플리케이션은 새로운 V100S GPU를 활용할 수 있으며 단일 및 다중 GPU 모두에서 향상된 성능을 얻을 수 있습니다. MLPerf에서 테스트한 딥 러닝 애플리케이션은 V100S의 더 높은 부스트 클럭과 더 높은 대역폭의 이점도 얻을 수 있습니다. GPU 컴퓨팅 제한 HPC 벤치마크 HPL은 V100-PCIe와 동일한 성능을 제공합니다. 미래에는 DSS8440의 동일한 애플리케이션이 RTX GPU로 실행될 것이며, AMD 플랫폼에서의 V100S 성능과 같은 몇 가지 다른 테스트가 검토될 것입니다.

Affected Products

DSS 8440, High Performance Computing Solution Resources
Article Properties
Article Number: 000133353
Article Type: Solution
Last Modified: 16 Jul 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.