Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

HPC Life Sciences를 위한 Dell EMC Ready Solution Cascade Lake CPU 및 Lustre ME4 Refresh를 사용한 BWA-GATK 파이프라인 처리량 테스트

Résumé: HPC Life Sciences를 위한 Dell EMC Ready Solution Cascade Lake CPU 및 Lustre ME4 Refresh를 사용한 BWA-GATK 파이프라인 처리량 테스트

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Dell EMC Ready Solutions for HPC Life Sciences의 64개 컴퓨팅 노드 구성은 하루에 194개의 게놈을 처리할 수 있습니다(범위의 50배).

개요

변종 호출이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다. 은 시퀀스 데이터에서 변형을 식별하는 프로세스입니다. 이 프로세스를 통해 개별 게놈 또는 전사체의 특정 위치에 단일 SNP(Nucleotide Polymorphism), 삽입 및 삭제(인들) 및 구조 변이(SV)가 있는지 여부를 결정하는 데 도움이 됩니다. 유전체 변이를 식별하는 주된 목표는 인간의 질병과 연관되어 있다는 것입니다. 모든 인간 질병이 유전적 변이와 관련이 있는 것은 아니지만 변이 호출은 유전적 변이로 인한 특정 질환을 다루는 유전체학자에게 유용한 지침을 제공할 수 있습니다. BWA-GATK는 인간 NGS 데이터에서 배선 및 체형적 유전자를 식별하도록 설계된 NGS(Next Generation Sequencing) 컴퓨팅 툴 중 하나입니다. 몇 가지 변형 식별 툴이 있으며, 완벽하게 작동하는 단일 툴은 없다는 것을 알고 있습니다(1). 그러나 Dell EMC Ready Solutions for HPC Life Sciences가 복잡하고 방대한 NGS 워크로드를 얼마나 잘 처리할 수 있는지 보여주기 위해 가장 인기 있는 툴 중 하나인 GATK를 벤치마킹 툴로 선택했습니다. 
이 블로그의 목적은 Dell EMC Ready Solutions for HPC Lustre Storage(ME4 Series Refresh)(2)를 통해 BWA-GATK 파이프라인 벤치마크용 인텔® 제온® 골드 6248 프로세서에 대한 유용한 성능 정보를 제공하는 것입니다. 제온® Gold 6248 CPU는 하이퍼 스레딩을 사용할 때 20개의 물리적 코어 또는 40개의 논리적 코어를 제공합니다. 테스트 클러스터 구성은 표 1에 요약되어 있습니다.

표 1 테스트된 컴퓨팅 노드 구성
 
Dell EMC PowerEdge C6420
CPU 제온® 골드 6248 20코어 2.5GHz(Cascade Lake) 2개
RAM 2933MTps에서 16GB 12개
OS RHEL 7.6
상호 연결 인텔® Omni-Path
BIOS 시스템 프로필 성능 최적화
논리 프로세서 Disabled
가상화 기술 Disabled
BWA 0.7.15-r1140
Samtools 1.6
GATK 3.6-0-g89b7209

테스트된 컴퓨팅 노드는 인텔® Omni-Path를 통해 Dell EMC Ready Solutions for HPC Lustre Storage에 연결되었습니다. 스토리지의 요약 구성은 표 2에 나와 있습니다.
표 2 솔루션 하드웨어 및 소프트웨어 사양
 
Dell EMC Ready Solution for Lustre Storage
노드 수 1개의 Dell EMC PowerEdge R640 as Integrated Manager for Lustre(IML)
2x Dell EMC PowerEdge R740 as Metadata Server (MDS)
2x Dell EMC PowerEdge R740 as Object Storage Server (OSS)
프로세서 IML 서버: 듀얼 인텔 제온 골드 5118 @ 2.3GHz
MDS 및 OSS 서버: 듀얼 인텔 제온 골드 6136@ 3.00GHz
메모리 IML 서버: 8GB 2,666MT/s DDR4 RDIMM MDS 및 OSS 서버 12개
: 24 x 16GiB 2,666MT/s DDR4 RDIMM
외장형 스토리지
컨트롤러
2개의 Dell 12Gb/s SAS HBA(각 MDS)
4개의 Dell 12Gb/s SAS HBA(각 OSS)
오브젝트 스토리지
엔클로저
ME4084 4개, 총 336 x 8TB NL 7.2K rpm SAS HDD
메타데이터 스토리지 엔클로
ME4024 1개, 960GB SAS SSD 24개 최대 4.68B inode 지원
RAID 컨트롤러 ME4084 및 ME4024 엔클로저의 듀플렉스 SAS RAID 컨트롤러
운영 체제 CentOS 7.5 x86_64
RHEL(Red Hat Enterprise Linux) 7.5 x86_64
BIOS 버전 1.4.5
인텔 Omni-Path
IFS 버전
10.8.0.0
Lustre 파일 시스템
버전
2.10.4
IML 버전 4.0.7.0

테스트 데이터는 Illumina의 Platinum Genomes 중 하나에서 선택되었습니다. ERR194161 Illumina에서 제출한 Illumina HiSeq 2000과 함께 처리되었으며 EMBL-EBI에서 얻을 수 있습니다. 이 개인의 DNA 식별자는 NA12878. 연결된 웹 사이트의 데이터에 대한 설명은 이 샘플 >의 범위가 30배 더 깊다는 것을 보여줍니다.

성능 평가

단일 샘플 다중 노드 성능

그림 1에서는 WGS(Whole Genome Sequencing) 데이터가 50배인 다양한 샘플 및 컴퓨팅 노드의 런타임이 요약되어 있습니다. 여기에서 수행된 테스트는 개별 구성 요소에 대한 비교가 아니라 서버 수준에서 성능을 입증하도록 설계되었습니다. 그림 1의 데이터 포인트는 동시에 처리되는 컴퓨팅 노드당 하나의 샘플(그림의 X축)을 기준으로 총 샘플 수를 기준으로 계산됩니다. BWA-GATK 파이프라인 정보에 대한 자세한 내용은 Broad Institute 웹 사이트(3)에서 확인할 수 있습니다. 테스트에 사용되는 최대 컴퓨팅 노드 수는 C6420s의 64배입니다. Lustre ME4를 사용한 C6420s는 Lustre MD3보다 더 나은 확장 동작을 보여줍니다.

  Lustre MD3와 Lustre ME4의 성능 비교
그림 1 Lustre MD3와 Lustre ME4의 성능 비교

여러 샘플 다중 노드 성능

NGS 파이프라인을 실행하는 일반적인 방법은 컴퓨팅 노드에서 여러 샘플을 실행하고 여러 컴퓨팅 노드를 사용하여 NGS 데이터 프로세스의 처리량을 극대화하는 것입니다. 테스트에 사용되는 컴퓨팅 노드 수는 C6420 컴퓨팅 노드의 64개이며 노드당 샘플 수는 5개입니다. 최대 320개의 샘플이 동시에 처리되어 작업 실패 없이 하루 최대 게놈 수를 추정할 수 있습니다.
그림 2에서와 같이 단일 C6420 컴퓨팅 노드는 5개의 샘플을 동시에 처리할 때 하루에 전체 인간 게놈 50개 중 3.24개를 처리할 수 있습니다. 각 샘플에 대해 7코어 및 30GB 메모리가 할당됩니다. 

  최대 64개의 C6420 및 Lustre ME4를 사용한 처리량 테스트
그림 2 최대 64개의 C6420 및 Lustre ME4

를 사용한 처리량 테스트전체 인간 게놈 50개 중 320개는 C6420 컴퓨팅 노드 중 64개에서 40시간 안에 처리할 수 있습니다.  즉, 테스트 구성의 성능은 전체 인간 게놈에 대해 하루에 194개의 게놈 으로 요약되며 범위는 50배입니다.

결론

WGS의 데이터 크기가 지속적으로 증가함에 따라 WGS의 현재 평균 크기는 50배입니다. 이는 BWA-GATK 파이프라인을 벤치마킹하기 시작한 4년 전의 일반적인 WGS보다 5배 더 큰 수치입니다. 증가하는 데이터는 파이프라인의 대부분의 애플리케이션도 CPU 클럭 속도로 바인딩되기 때문에 스토리지 측 용량에 부담을 주지 않습니다. 따라서 데이터 크기가 증가함에 따라 파이프라인은 더 많은 쓰기를 생성하지 않고 더 오래 실행됩니다.
그러나 더 많은 데이터를 병렬화해야 하므로 프로세스 중에 더 많은 수의 임시 파일이 생성되며, 동시에 열린 임시 파일 수가 증가하면 Linux 운영 체제에서 열린 파일 제한이 소진됩니다. 열려 있는 파일 수의 제한을 초과하여 애플리케이션 중 하나가 자동으로 완료되지 않습니다. 간단한 해결책은 한도를 150K로 늘리는 것입니다 >. 
그럼에도 불구하고 Lustre ME4를 스크래치 공간으로 사용할 수 있는 Ready Solution은 이전 버전보다 처리량이 더 낫습니다. 이제 64개의 노드 Ready Solution은 50배의 WGS에 대해 하루 194개의 게놈 처리 능력을 표시합니다.

자료 

1. 차세대 게놈 시퀀싱 데이터에 대한 변종 분석을 위한 툴에 대한 설문조사입니다. Pabinger S, D locker A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J, Portjanoski Z. 2, s.l. : Brief Bioinform, 2014년 3월, Vol. 15(2). 10.1093/bib/bbs086.
2. Dell EMC Ready Solution for HPC Lustre Storage.  (HPC 팀에서 가져온 참조용 문서가 더 이상 제공되지 않음)
3. 게놈 분석 툴킷. https://software.broadinstitute.org/gatk/ 이 하이퍼링크는 Dell Technologies 외부의 웹사이트로 연결됩니다.

Propriétés de l’article


Produit concerné

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Dernière date de publication

11 janv. 2024

Version

6

Type d’article

Solution