Konfiguracja 64 węzłów obliczeniowych rozwiązań Dell EMC Ready Solutions dla nauk przyrodniczych HPC może przetwarzać 194 genomy dziennie (50x głębokość zasięgu).
Omówienie
Wywoływanie wariantów to proces, w ramach którego identyfikujemy warianty z danych sekwencji. Proces ten pomaga ustalić, czy w pojedynczym genomie lub w wariantach strukturalnych (SPS) występują pojedyncze błędy (SCP), wstawienia i usunięcia (wycięcia) oraz warianty konstrukcyjne (SVs) w danym miejscu w pojedynczym genomie lub terkotanie. Głównym celem identyfikacji odmian genomicznych jest powiązanie z ludzkim nieprawidłowościem. Choć nie wszystkie cechy ludzkich są powiązane z różnicami w działaniu, warianty wywoływania mogą stanowić cenną wskazówkę dla wyścierniaków pracujących nad konkretną chorobą spowodowaną różnicami w działaniu. BWA-GATK jest jednym z narzędzi obliczeniowych sekwencjonowania nowej generacji (NGS), które są przeznaczone do identyfikacji zarazków i somatycznych błędów z danych NGS człowieka. Istnieje kilka narzędzi identyfikacji wariantów i rozumiemy, że nie ma jednego narzędzia, które działa doskonale (1). Wybieramy jednak GATK, który jest jednym z najpopularniejszych narzędzi jako nasze narzędzie do testów porównawczych, aby pokazać, jak rozwiązania Dell EMC Ready dla nauk przyrodniczych HPC mogą przetwarzać złożone i masowe obciążenia robocze NGS.
Celem tego bloga jest dostarczenie cennych informacji o wydajności procesora Intel® Xeon® Gold 6248 dla potoku BWA-GATK z rozwiązaniami Dell EMC Ready Dla HPC Lustre Storage (odświeżenie serii ME4) (2). Procesor Xeon® Gold 6248 jest wyposażony w 20 rdzeni fizycznych lub 40 rdzeni logicznych podczas korzystania z wielowątkowości. Konfiguracje klastrów testowych podsumowano w tabeli 1.
Dell EMC PowerEdge C6420 | |
---|---|
Procesor | 2x Xeon® Gold 6248, 20 rdzeni, 2,5 GHz (Cascade Lake) |
RAM | 12 x 16 GB przy prędkości 2933 MTps |
System operacyjny | RHEL 7.6 |
Połączenia | Intel® Omni-Path |
Profil systemu BIOS | Zoptymalizowana wydajność |
Procesor logiczny | Disabled |
Technologia wirtualizacji | Disabled |
BWA | 0,7,15-r1140 |
Narzędzia Samtools | 1.6 |
GATK | 3,6-0-g89b7209 |
Rozwiązanie Dell EMC Ready dla pamięci masowej Lustre | |
---|---|
Liczba węzłów | 1x Dell EMC PowerEdge R640 jako integrated manager lustre (IML) 2x Dell EMC PowerEdge R740 jako serwer metadanych (MDS) 2x Dell EMC PowerEdge R740 jako serwer pamięci masowej obiektów (OSS) |
Procesory | Serwer IML: Dwa procesory Intel Xeon Gold 5118 z mds 2,3 GHz i serwerami OSS: Dwa procesory Intel Xeon Gold 6136, 3,00 GHz |
Pamięć | Serwer IML: 12 serwerów MDS i OSS DDR4 RDIMM 8 GB 2666 MT/s: 24 moduły RDIMM DDR4 16 GB 2 666 MT/s |
Zewnętrzne kontrolery pamięci masowej |
2 karty HBA SAS 12 Gb/s firmy Dell (w każdym MDS) 4 karty HBA SAS 12 Gb/s firmy Dell (w każdym systemie operacyjnym) |
Obudowy do przechowywania obiektów |
4 dyski twarde ME4084 z łącznie 336 dyskami twardymi SAS 336 x 8 TB NL 7,2 tys. obr./min |
Obudowa pamięci masowej metadanych |
1 dysk ME4024 z 24 dyskami SSD SAS 960 GB. Obsługa do 4,68 B wędów |
Kontrolery RAID | Dwukierunkowe kontrolery SAS RAID w obudowach ME4084 i ME4024 |
System operacyjny | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
Wersja systemu BIOS | 1.4.5 |
Wersja Intel Omni-Path IFS |
10.8.0.0 |
Wersja systemu plików Lustre |
2.10.4 |
Wersja IML | 4.0.7.0 |