Конфигурация с 64 вычислительными узлами готовых решений Dell EMC для медико-биологических наук, в которые применяются технологии HPC, может обрабатывать 194 генома в день (глубина охвата в 50 раз).
Обзор
Вызов вариантов — это процесс, по которому мы определяем варианты из данных последовательности. Этот процесс помогает определить, существуют ли отдельные нуклеоцидные полиморфизмы (SNP), вставки и удаления (indels) и структурные варианты (SV) в заданном положении в индивидуальном геноме или трансивере. Основная цель выявления вариантов генома — это связь с заболеваниями человека. Хотя не все человеческие заболевания связаны с геномами, вызовы вариантов могут предоставить ценное руководство для специалистов по генетической диагностике, работающих с определенными заболеваниями, вызванными генетической изменениями. BWA-GATK — это один из вычислительных инструментов следующего поколения секвенирования (NGS), предназначенных для выявления геномных и соматических транзакций из данных ngS, созданных человеком. Существует несколько инструментов идентификации вариантов, и мы понимаем, что не существует одного идеального инструмента (1). Однако мы выбрали вариант GATK, который является одним из самых популярных инструментов для сравнительной оценки, чтобы продемонстрировать, насколько эффективно готовые решения Dell EMC для медико-биологических наук, в которых применяются технологии HPC, могут обрабатывать сложные и масштабные рабочие нагрузки NGS.
Цель данного блога — предоставить ценную информацию о производительности процессора Intel® Xeon® Gold 6248 для эталонного теста конвейера BWA-GATK с готовыми решениями Dell EMC для СХД Lustre с применением HPC (обновление серии ME4) (2). При использовании технологии Hyper-Threading процессор Xeon® Gold 6248 имеет 20 физических или 40 логических ядер. Тестовая конфигурация кластера приведена в табл. 1.
Dell EMC PowerEdge C6420 | |
---|---|
ЦП | 2 20-ядерных процессора Xeon® Gold 6248, 2,5 ГГц (Cascade Lake) |
ОЗУ | 12 по 16 Гбайт при 2933 MTp |
ОС | RHEL 7.6 |
Соединение | Путь Intel® Omni-Path |
Системный профиль BIOS | Оптимизация производительности |
Логический процессор | Disabled |
Технология виртуализации | Disabled |
BWA | 0,7.15-r1140 |
Самтулс (Samtools) | 1.6 |
GATK | 3.6-0-g89b7209 |
Готовое решение Dell EMC для СХД Lustre | |
---|---|
Количество узлов | 1 сервер Dell EMC PowerEdge R640 в качестве интегрированного диспетчера для Lustre (IML) 2 сервера Dell EMC PowerEdge R740 в качестве сервера метаданных (MDS), 2 сервера Dell EMC PowerEdge R740 в качестве сервера объектного хранения данных (OSS) |
Процессоры | Сервер IML: Два сервера Intel Xeon Gold 5118 с частотой 2,3 ГГц, MDS и OSS: Два процессора Intel Xeon Gold 6136, 3 ГГц |
Модули | Сервер IML: 12 серверов DDR4 RDIMM MDS и OSS, 8 Гбайт, 2666 МТ/с: 24 модуля RDIMM DDR4, 16 ГиБ, 2666 МТ/с |
Внешние контроллеры СХД |
2 HBA-адапта SAS Dell 12 Гбит/с (на каждом MDS) 4 HBA-адапта SAS Dell 12 Гбит/с (в каждой ОС) |
Полки объектных СХД |
4 x ME4084 с 336 жесткими дисками SAS NL 8 Тбайт, 7200 об/мин |
Шасси системы хранения метаданных |
1 массив ME4024 с 24 твердотельных накопителями SAS емкостью 960 Гбайт. Поддержка до 4,68 индексных дескрипторов B |
RAID-контроллеры | Дуплексные RAID-контроллеры SAS в корпусах ME4084 и ME4024 |
Операционная система | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
Версия BIOS | 1.4.5 |
Версия Intel Omni-Path IFS |
10.8.0.0 |
Версия файловой системы Lustre |
2.10.4 |
Версия IML | 4.0.7.0 |