Готове рішення Dell EMC для HPC Life Sciences: Тести пропускної здатності BWA-GATK Pipeline з процесором Cascade Lake і Lustre ME4 Refresh

Summary: Архівація як стаття базується на документації HPC, яка більше не розміщується в Інтернеті, і стаття не може бути відредагована, щоб відповідати очікуванням KB Готове рішення Dell EMC для HPC Life Sciences: Тести пропускної здатності BWA-GATK Pipeline з процесором Cascade Lake і Lustre ME4 Refresh ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Конфігурація 64-обчислювальних вузлів Dell EMC Ready Solutions for HPC Life Sciences може обробляти 194 геноми на день (50-кратна глибина покриття).

Огляд

Варіант викликуЦе гіперпосилання веде вас на веб-сайт за межами Dell Technologies. — це процес, за допомогою якого ми ідентифікуємо варіанти з даних послідовностей. Цей процес допомагає визначити, чи існують однонуклеотидні поліморфізми (SNP), вставки та делеції (індели) та/або структурні варіанти (SVs) у певному положенні в окремому геномі або транскриптомі. Основною метою виявлення геномних варіацій є зв'язок із захворюваннями людини. Хоча не всі людські захворювання пов'язані з генетичними варіаціями, виклик варіантів може стати цінним орієнтиром для генетиків, які працюють над певним захворюванням, викликаним генетичними варіаціями. BWA-GATK — це один із обчислювальних інструментів Next Generation Sequencing (NGS), який призначений для виявлення зародкової лінії та соматичних мутацій на основі даних NGS людини. Існує кілька інструментів ідентифікації варіантів, і ми розуміємо, що немає жодного інструменту, який би працював ідеально (1). Однак ми вибрали GATK, який є одним із найпопулярніших інструментів, як наш інструмент порівняльного аналізу, щоб продемонструвати, наскільки добре Dell EMC Ready Solutions для HPC Life Sciences може обробляти складні та масивні робочі навантаження NGS. 
Метою цього блогу є надання цінної інформації про продуктивність процесора Intel® Xeon® Gold 6248 для тесту конвеєра BWA-GATK з Dell EMC Ready Solutions for HPC Lustre Storage (оновлення серії ME4) (2). Процесор Xeon® Gold 6248 має 20 фізичних ядер або 40 логічних ядер при використанні гіперпоточності. Конфігурації тестових кластерів узагальнені в таблиці 1.

Таблиця 1 Конфігурація перевіреного обчислювального вузла
 
Dell EMC PowerEdge C6420
ЦП 2x Xeon® Gold 6248 20 ядер 2,5 ГГц (Cascade Lake)
БАРАН 12x 16 ГБ зі швидкістю 2933 МТс
ОС ХЕЛ 7.6
З'єднання ® Технологія Intel Omni-Path
Профіль системи BIOS Оптимізована продуктивність
Логічний процесор Вимкнуто
Технологія віртуалізації Вимкнуто
BWA 0.7.15-р1140
Samtools 1.6
ГАТК 3.6-0-g89b7209

Тестовані обчислювальні вузли були підключені до Dell EMC Ready Solutions for HPC Lustre Storage через Intel® Omni-Path. Зведена конфігурація сховища наведена в таблиці 2.
Таблиця 2 Апаратні та програмні характеристики рішення
 
Готове рішення Dell EMC для зберігання блиску
Кількість вузлів 1x Dell EMC PowerEdge R640 як інтегрований менеджер для Lustre (IML)
2x Dell EMC PowerEdge R740 як сервер метаданих (MDS)
2x Dell EMC PowerEdge R740 як сервер об'єктного зберігання (OSS)
Процесори Сервер IML: Два сервери Intel Xeon Gold 5118 @ 2.3 ГГц
MDS і OSS: Два процесори Intel Xeon Gold 6136 @ 3.00 ГГц
Пам'ять Сервер IML: 12 серверів x 8 ГБ, DDR4 RDIMM,
MDS і OSS, 2 666 МТ/с: 24 x 16 ГіБ, 2 666 МТ/с DDR4 RDIMM
Зовнішні контролери пам'яті
2 x Dell 12 Гбіт/с SAS HBA (на кожному MDS)
4 x Dell 12 Гбіт/с SAS HBA (на кожному OSS)
Корпуси для зберігання
предметів
4x ME4084 із загальною кількістю жорстких дисків SAS 336 x 8 ТБ NL 7.2K rpm
Корпус для зберігання
метаданих
1x ME4024 з 24 твердотільними накопичувачами SAS на 960 ГБ. Підтримує до 4,68 B індексних дескрипторів
Контролери RAID Дуплексні SAS RAID контролери в корпусах ME4084 та ME4024
Операційна система CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Версія BIOS 1.4.5
Версія Intel Omni-Path
IFS
10.8.0.0
Версія файлової системи
Lustre
2.10.4
Версія IML 4.0.7.0

Дані тесту були обрані з одного з платинових геномів Illumina. ERR194161 була оброблена за допомогою Illumina HiSeq 2000, представленої компанією Illumina, і може бути отримана в EMBL-EBI. Ідентифікатор ДНК цієї особи – NA12878. Опис даних з веб-сайту за посиланням показує, що ця вибірка має >30-кратну глибину охоплення.

Оцінка ефективності

Продуктивність однієї вибірки кількох вузлів

На рисунку 1 підсумовано час виконання різної кількості зразків і обчислювальних вузлів з 50-кратними даними секвенування цілого геному (WGS). Тести, що виконуються тут, призначені для демонстрації продуктивності на рівні сервера, а не для порівняння окремих компонентів. Точки даних на рисунку 1 розраховуються на основі загальної кількості зразків, по одній вибірці на обчислювальний вузол (вісь X на малюнку), які обробляються одночасно. Детальну інформацію про трубопровід BWA-GATK можна отримати на веб-сайті Broad Institute (3). Максимальна кількість обчислювальних вузлів, що використовуються для тестів, становить 64 C6420. C6420 з Lustre ME4 демонструють кращу поведінку масштабування, ніж Lustre MD3.

 Порівняння продуктивності Lustre MD3 та Lustre ME4
Рисунок 1: Порівняння продуктивності між Lustre MD3 та Lustre ME4

Кілька прикладів продуктивності кількох вузлів

Типовим способом запуску конвеєра NGS є запуск кількох зразків на обчислювальному вузлі та використання кількох обчислювальних вузлів для максимізації пропускної здатності процесу даних NGS. Кількість обчислювальних вузлів, що використовуються для тестів, становить 64 з обчислювальних вузлів C6420, а кількість зразків на вузол становить п'ять зразків. Одночасно обробляється до 320 зразків, щоб оцінити максимальну кількість геномів на день без збою в роботі.
Як показано на рисунку 2, один обчислювальний вузол C6420 може обробляти 3,24 з 50 цілих геномів людини на день, коли 5 зразків обробляються одночасно. Для кожного зразка виділено 7 ядер і 30 ГБ пам'яті. 

 Тести пропускної здатності з 64 літаками C6420 і Lustre ME4
Рисунок 2: Тести пропускної здатності з до 64 C6420 і Lustre ME4

320 з 50 повних геномів людини можуть бути оброблені 64 з обчислювальних вузлів C6420 за 40 годин.  Іншими словами, продуктивність тестової конфігурації підсумовується як 194 геноми на день для всього геному людини з 50-кратною глибиною покриття.

Висновок

Оскільки обсяг даних WGS постійно зростає. Поточний середній розмір WGS становить 50x. Це в 5 разів більше, ніж типова WGS 4 роки тому, коли ми почали порівнювати трубопровід BWA-GATK. Збільшення обсягу даних не напружує ємність сховища, оскільки більшість додатків у конвеєрі також обмежені тактовою частотою процесора. Отже, зі збільшенням розміру даних воронка працює довше, а не генерує більше записів.
Однак під час процесу створюється більша кількість тимчасових файлів через те, що потрібно розпаралелити більше даних, і це збільшене число тимчасових файлів, відкритих одночасно, вичерпує ліміт відкритих файлів в операційній системі Linux. Одна з програм непомітно не може завершити, досягнувши ліміту кількості відкритих файлів. Просте рішення – збільшити ліміт до >150 тис. 
Тим не менш, Ready Solution з Lustre ME4 як місцем для подряпин має кращу пропускну здатність, ніж попередня версія. Тепер 64 вузли Ready Solution маркують 194 генома на добу обчислювальної потужності для 50x WGS.

Ресурси 

1. Огляд інструментів для варіантного аналізу даних секвенування геному наступного покоління. Пабінгер С., Дандер А., Фішер М., Снайдер Р., Сперк М., Єфремова М., Крабіхлер Б., Шпейхер М.Р., Зшоке Дж., Траяноскі З. 2, С.Л. : Короткий Біоінформ, 2014 Березень, Том 15 (2). 10.1093/нагрудник/BBS086.
2. Готове рішення Dell EMC для зберігання HPC Lustre.  (Стаття більше не доступна для ознайомлення, витягнута командою HPC)
3. Інструментарій аналізу геному. https://software.broadinstitute.org/gatk/Це гіперпосилання веде вас на веб-сайт за межами Dell Technologies.

Cause

Архівація як стаття базується на документації HPC, яка більше не розміщується в Інтернеті, і стаття не може бути відредагована, щоб відповідати очікуванням KB

Resolution

Архівація як стаття базується на документації HPC, яка більше не розміщується в Інтернеті, і стаття не може бути відредагована, щоб відповідати очікуванням KB

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sep 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.