PowerEdge: Accelerating Genomic Data Analysis With NVIDIA Clara Parabricks With The Dell EMC DSS 8440 Server and NVIDIA T4 GPUs(영문)

Summary: 이 문서에서는 NVIDIA T4 GPU가 탑재된 Dell EMC DSS 8440에서 NVIDIA Parabricks를 사용하여 게놈 데이터 분석을 가속화하는 방법에 대한 정보를 제공합니다.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

개요

NGS(Next Generation Sequencing) 데이터를 처리하는 첫 번째 단계를 1차 분석이라고 합니다. 이 단계는 염기 서열 분석 장비에 특정하며 염기 서열 분석 읽기가 포함된 여러 개의 FASTQ 파일을 생성합니다. 2차 분석이라고 하는 다음 단계에서는 FASTQ 염기 서열 분석 읽기가 참조 게놈 또는 참조 유전체에 매핑됩니다. 더 많은 처리를 통해 관심 샘플과 참조 간의 변형 또는 차이점을 식별합니다. 변형은 후속 다운스트림 단계에서 주석이 달리고 해석됩니다. 단일 샘플의 2차 분석 시간은 데이터 크기, 사용 가능한 컴퓨팅 리소스, 소프트웨어 및 분석 워크플로에 따라 몇 시간에서 며칠까지 소요됩니다. 

2차 분석은 특히 수백 개에서 수천 개의 게놈을 처리할 때 컴퓨팅 및 스토리지 집약적인 프로세스입니다. 2차 분석 병목 현상을 방지하기 위한 많은 전략이 있습니다. 최근까지 GPU 또는 FPGA를 사용하는 하드웨어 가속화의 도입은 하드웨어 가속기에 필요한 맞춤 구성된 소프트웨어로 인해 낮은 수준이었습니다. Parabricks2019년 엔비디아가 인수한 유전체학 소프트웨어는 GPU로 다양한 게놈 분석 워크플로우를 수행하는 소프트웨어 스택을 개척했다. 테스트 결과 Parabricks2년 전쯤. Dell은 서버 및 스토리지 솔루션에 많은 기술적 발전을 도입했으며, NVIDIA Clara Parabricks 가속이 향상되고 변형 호출자가 추가된 강력한 버전을 출시했습니다. 예를 들어, NVIDIA® Tesla® T4 GPU가 탑재된 Dell EMC DSS 8440 서버를 기반으로 하는 다중 GPU 서버 설계는 가격과 성능 간의 매력적인 균형을 제공하면서 2차 분석을 가속화할 수 있을 것으로 기대했습니다. 이 블로그에서는 NVIDIA Clara에 대한 새로운 레퍼런스 아키텍처 및 벤치마크 결과를 보고합니다 Parabricks 다중 Tesla® T4 GPU, DSS 8440 서버와 Dell Isilon F800이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다. 스토리지를 비교한 2차 분석. 

참조 아키텍처

그림 1은 테스트 완료된 참조 아키텍처를 보여 줍니다. 이 아키텍처는 모듈형이며 확장이 용이합니다. The NVIDIA Clara Parabricks 애플리케이션 소프트웨어는 하나 이상의 GPU를 사용하여 스케일 아웃을 최대한 간소화합니다. 하드웨어 구성 요소는 관리 노드인 Dell PowerEdge R640 , GPU 컴퓨팅용 DSS 8440 서버 및 Dell EMC Isilon F800 스토리지로 구성됩니다.  

서버와 스위치 간의 연결을 보여 주는 네트워크 다이어그램 
그림 1 테스트 완료된 참조 아키텍처
 


DSS 8440, 소켓 2개, 4U 서버는 최대 10개의 업계 최고 NVIDIA® Tesla® V100S Tensor Core GPU, 최대 10개의 NVIDIA® Quadro RTX™ GPU 또는 최대 16개의 NVIDIA Tesla T4 GPU를 장착하여 놀라운 성능을 제공합니다. DSS 8440의 상세한 구성은 표 1에 나와 있습니다.

 

Dell EMC DSS 8440
CPU 2x Xeon® Gold 6248R 24 cores 3.0 GHz
RAM 24x 64GB at 2933 MTps
Operating System Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS System Profile Performance Optimized
Logical Processor Disabled
Virtualization Technology Disabled
Accelerators 16x NVIDIA® Tesla® T4 GPUs
Parabricks v3.0.0.05


Z9100-ON 스위치 두 개로 컴퓨팅 노드와 Isilon F800 스토리지 클러스터를 상호 연결했습니다. 관리에 추가 스위치 N2248X-ON이 사용됩니다.
 

NGS 데이터

2차 분석 런타임 벤치마킹을 위한 데이터는 각각 10배, 30배, 50배의 샘플 커버리지를 나타내는 3개의 인간 전체 게놈 시퀀싱(WGS) 데이터 세트인 ERR091571이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다., SRR3124837이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.ERR194161이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.로 구성되었습니다. 이러한 데이터 세트는 유럽 뉴클레오티드 아카이브(ENA)이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.에서 사용할 수 있습니다.

 

성능 평가

소프트웨어 개선 사항으로 사용 시간이 단축됩니다.
NVIDIA는 NVIDIA Clara에 대한 소프트웨어 개선 사항을 지속적으로 도입합니다. Parabricks. 그림 2는 두 버전 간의 런타임 감소를 보여줍니다. Parabricks V100 GPU 4개가 장착된 Dell PowerEdge C4140 서버를 사용하여 생식 세포 파이프라인 실행 테스트 환경. v2.1.0에서 v3.0.0으로 전환하면 런타임이 42% 단축되었습니다.

WGS 데이터를 보여주는 NVIDIA clara parabricks 막대 차트 
그림 2: 파이프라인 런타임을 호출하는 Parabricks 생식 계열 변형의 최신 버전입니다.

 

16x T4를 사용하는 DSS 8440의 성능

NVIDIA Clara의 런타임 Parabricks 단일 T4 GPU를 사용한 2차 분석은 하나의 V100 GPU를 사용하는 것보다 약 30% 느립니다. 그러나 T4 GPU 2개는 V100 GPU 1개보다 약 10% 더 많은 TFLOPS를 약 절반의 비용으로 제공합니다. DSS 8440은 최대 16개의 PCIe 슬롯을 제공하므로 4개의 V100 GPU가 있는 C4140 시스템과 유사한 런타임 성능을 제공하지만 더 낮은 비용으로 T4 GPU 기반 서버를 설계할 수 있습니다.
Parabricks 생식세포 분석은 16개의 T4 GPU가 탑재된 PowerEdge DSS 8440을 사용하여 수행되었습니다. 앞서 설명한 각 WGS 샘플 데이터 세트에 대해 보조 분석당 1, 2, 4, 8 및 16개의 T4 GPU를 사용하여 런타임을 기록했습니다. 결과는 그림 3~5에 나와 있습니다. 전체적으로, 분석당 GPU 수가 증가해도 런타임이 계속 증가하지 않습니다. 확장 패턴은 샘플당 데이터 양이 10배에서 50배 범위로 증가하는 것과 비슷합니다. 
여기에 나와 있지는 않지만 Parabricks 분석당 8개 이상의 V100 GPU를 사용하는 런타임 결과는 T4 GPU만큼 효율적으로 확장되지 않았습니다. 추가 테스트를 통해 6개의 T4 GPU가 4개의 V100 GPU와 거의 동일한 런타임 결과를 생성한다는 것이 입증되었습니다.

10x WGS의 GPU 런타임을 보여주는 성능 비교 막대 차트 
그림 3 10개의 WGS와 성능 비교
 

30x WGS의 GPU 런타임을 보여주는 성능 비교 막대 차트 
그림 4 30개의 WGS

50x WGS의 GPU 런타임을 보여주는 성능 비교 막대 차트
와 성능 비교그림 5 50개의 WGS와 성능 비교 


결론

16개의 T4 GPU가 장착된 DSS 8440은 하루에 30개의 50x 인간 게놈을 처리할 수 있습니다. 기존 x86 CPU 아키텍처를 사용하는 비슷한 일일 분석 처리량에는 10개의 PowerEdge C6420 컴퓨팅 노드가 필요합니다. 전체 아키텍처에 대해서는 Dell Ready Solution for HPC Life Sciences: Cascade Lake CPU 및 Lustre ME4 Refresh를 사용한 BWA-GATK 파이프라인 처리량 테스트.  


그러나 16개의 T4 GPU를 모두 사용하여 하나의 샘플을 처리하는 것은 이점이 거의 없습니다. 분석당 16개의 GPU를 사용하는 것이 8개의 GPU를 사용하는 것보다 기껏해야 10% 더 빠르기 때문입니다. DSS 8440은 여러 번의 2차 분석을 병렬로 수행할 수 있도록 설계되었습니다. 샘플당 8개의 T4 GPU를 할당하면 일일 분석 처리량이 하루에 최대 50개의 게놈으로 증가합니다. 샘플당 4개의 GPU를 사용하면 분석 처리량이 하루에 최대 70개의 게놈으로 증가합니다. 가장 중요한 것은 T4 GPU를 사용한 일일 출력이 V100 GPU 설계를 사용하는 비용의 절반에도 못 미친다는 것입니다.
속도 외에도 다른 분석 툴과의 호환성은 결과의 비교에 필수적입니다. 이 Parabricks 생식계열 분석 결과는 이전 테스트에서 잘 알려진 BWA-GATK Haplotype 호출자 분석과 거의 동일합니다. 또한 Parabricks 변형 호출 결과를 다음과 같은 다른 도구 집합과 비교하고 싶었습니다. samtools/mpileup. 이 두 가지 다른 도구는 식별된 변이체에 대해 ~90%의 전체 일치에 도달하며, 중요한 유전자를 포함하는 많은 잘 알려진 게놈 영역의 변이는 99% 이상 일치합니다.

Additional Information

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640
Article Properties
Article Number: 000180441
Article Type: How To
Last Modified: 12 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.