V100S GPU가 설치된 DSS8440의 HPC 및 AI 성능(영문)
Summary: GPU, V100S, V100, DSS8440, 8 GPU, MLPerf, HPL, LAMMPS, 벤치마크
Symptoms
Dell EMC HPC & AI INNOVATION LAB, 2020년 5월
요약
이 블로그DSS8440에서는 HPL, LAMMPS 및 MLPerf-v0.6 스위트룸. 요약:
- LAMMPS와 같이 GPU 대역폭의 제약을 받는 애플리케이션은 새로운 V100S GPU를 활용할 수 있으며 단일 및 다중 GPU 모두에서 향상된 성능을 얻을 수 있습니다.
- MLPerf에서 테스트한 것과 같은 딥 러닝 애플리케이션은 V100S의 더 높은 부스트 클럭과 더 높은 대역폭의 이점을 얻을 수 있습니다.
- HPC 벤치마크 HPL과 같은 GPU 컴퓨팅 기반 애플리케이션은 V100-PCIe와 동일한 성능을 제공합니다.
이 블로그의 나머지 부분에서는 이 테스트의 세부 정보를 설명합니다. 향후 V100S 대신 RTX GPU가 탑재된 DSS8440에서 동일한 애플리케이션이 실행될 예정이며, AMD 플랫폼의 V100S 성능과 같은 다른 테스트도 실행될 예정입니다.
Resolution
테스트베드 개요
이 Dell EMC DSS8440 서버 가속기에 최적화된 서버로, 고성능 컴퓨팅 및 딥 러닝 워크로드를 위해 특별히 설계되었습니다. 이 NVIDIA V100S 는 Tesla Volta 시리즈의 최신 제품이며 이중 너비 32G PCIe 기반 GPU 카드입니다. 이 블로그에서는 HPL, LAMMPS 및 DSS8440 HPL, LAMMPS 및 MLPerf-v0.6 스위트룸.
테스트된 DSS 8440 서버의 하드웨어 및 소프트웨어 세부 정보와 V100S 및 V100-PCIe의 비교는 표 1 및 표 2에 나와 있습니다.
표 1: 하드웨어 및 소프트웨어 세부 정보

표 2: V100S 및 V100-PCIe 사양 차이
HPC 애플리케이션 성능

그림 1: V100S 및 V100-PCIe HPL 결과 DSS8440
그림 1은 HPL 성능 수치를 보여줍니다. HPL은 극한의 스트레스 테스트 애플리케이션이기 때문에 V100S와 V100-PCIe 사이에는 큰 차이가 없습니다. 를 위한 온도 공간이 거의 없습니다. GPU 부스트 기능따라서 GPU의 주파수는 기본 클럭 속도로 매우 빠르게 돌아갑니다. V100S와 V100-PCIe는 기본 클럭 속도가 거의 동일하기 때문에 HPL과 같은 GPU 컴퓨팅 경계 애플리케이션의 경우 V100S는 V100-PCIe와 거의 동일한 수준의 성능을 제공합니다.

그림 2: DSS8440의 V100S 및 V100-PCIe LAMMPS 결과
그림 2는 Lennard Jones 데이터 세트를 사용한 LAMMPS의 timestep/s 결과입니다. LAMMPS는 GPU 대역폭 제한 애플리케이션으로 알려진 분자 역학 코드의 예입니다. V100S는 이 테스트에서 V100-PCIe보다 27% 더 높은 성능을 제공합니다. 속도 향상은 15% 더 높은 부스트 주파수와 26% 더 많은 대역폭뿐만 아니라 최신 소프트웨어 버전에서도 기인합니다. V100-PCIe 번호는 LAMMPS 8Feb 2019 버전에서 이전 KOKKOS 패키지를 사용하여 얻었습니다. 그러나 2020년 1월 24일 최신 버전에는 KOKKOS가 있는 GPU에서 cuFFT를 사용하기 위한 지원이 추가되었습니다. 대부분의 세부 정보는 다음에서 확인할 수 있습니다. LAMMPS 2020년 1월 24일 릴리스 노트에 관한 자세한 내용을 참조하십시오.
딥 러닝 애플리케이션 성능

그림 3: V100S 및 V100-PCIe MLPerf 결과 DSS8440
MLPerf 교육 클로즈드 디비전 0.6 버전 이미지 분류(ResNet-50), 객체 감지(Mask R-CNN 및 SSD), 번역(NMT 및 트랜스포머) 및 강화 학습(MiniGo)을 포함한 광범위한 딥 러닝 영역을 다루는 6개의 하위 테스트가 있습니다. 두 GPU 카드의 비교 결과는 그림 3에 나와 있습니다. V100S용 MLPerf 제품군에서 약 1-5%의 성능 향상이 관찰되었으며, 이는 결과 로그 파일의 1-5% 높은 처리량과 일치합니다. GPU 클럭 속도의 실시간 출력을 모니터링한 결과, V100S GPU가 모든 테스트에서 1-5% 더 높은 속도로 실행되는 것으로 관찰되었으므로 V100S의 더 높은 부스트 주파수에서 성능 이점이 있었습니다.
결론 및 향후 작업
이 블로그에서는 HPL, LAMMPS를 사용한 HPC 애플리케이션 성능과 MLPerf를 사용한 딥 러닝 성능을 동일한 DSS8440 서버의 V100S 및 V100-PCIe GPU 카드와 비교했습니다. LAMMPS와 같이 GPU 대역폭의 제약을 받는 애플리케이션은 새로운 V100S GPU를 활용할 수 있으며 단일 및 다중 GPU 모두에서 향상된 성능을 얻을 수 있습니다. MLPerf에서 테스트한 딥 러닝 애플리케이션은 V100S의 더 높은 부스트 클럭과 더 높은 대역폭의 이점도 얻을 수 있습니다. GPU 컴퓨팅 제한 HPC 벤치마크 HPL은 V100-PCIe와 동일한 성능을 제공합니다. 미래에는 DSS8440의 동일한 애플리케이션이 RTX GPU로 실행될 것이며, AMD 플랫폼에서의 V100S 성능과 같은 몇 가지 다른 테스트가 검토될 것입니다.