Готове рішення Dell EMC для HPC Life Sciences: Тести пропускної здатності BWA-GATK Pipeline з процесором Cascade Lake і Lustre ME4 Refresh
Summary: Архівація як стаття базується на документації HPC, яка більше не розміщується в Інтернеті, і стаття не може бути відредагована, щоб відповідати очікуванням KB Готове рішення Dell EMC для HPC Life Sciences: Тести пропускної здатності BWA-GATK Pipeline з процесором Cascade Lake і Lustre ME4 Refresh ...
Symptoms
Конфігурація 64-обчислювальних вузлів Dell EMC Ready Solutions for HPC Life Sciences може обробляти 194 геноми на день (50-кратна глибина покриття).
Огляд
Варіант виклику — це процес, за допомогою якого ми ідентифікуємо варіанти з даних послідовностей. Цей процес допомагає визначити, чи існують однонуклеотидні поліморфізми (SNP), вставки та делеції (індели) та/або структурні варіанти (SVs) у певному положенні в окремому геномі або транскриптомі. Основною метою виявлення геномних варіацій є зв'язок із захворюваннями людини. Хоча не всі людські захворювання пов'язані з генетичними варіаціями, виклик варіантів може стати цінним орієнтиром для генетиків, які працюють над певним захворюванням, викликаним генетичними варіаціями. BWA-GATK — це один із обчислювальних інструментів Next Generation Sequencing (NGS), який призначений для виявлення зародкової лінії та соматичних мутацій на основі даних NGS людини. Існує кілька інструментів ідентифікації варіантів, і ми розуміємо, що немає жодного інструменту, який би працював ідеально (1). Однак ми вибрали GATK, який є одним із найпопулярніших інструментів, як наш інструмент порівняльного аналізу, щоб продемонструвати, наскільки добре Dell EMC Ready Solutions для HPC Life Sciences може обробляти складні та масивні робочі навантаження NGS.
Метою цього блогу є надання цінної інформації про продуктивність процесора Intel® Xeon® Gold 6248 для тесту конвеєра BWA-GATK з Dell EMC Ready Solutions for HPC Lustre Storage (оновлення серії ME4) (2). Процесор Xeon® Gold 6248 має 20 фізичних ядер або 40 логічних ядер при використанні гіперпоточності. Конфігурації тестових кластерів узагальнені в таблиці 1.
| Dell EMC PowerEdge C6420 | |
|---|---|
| ЦП | 2x Xeon® Gold 6248 20 ядер 2,5 ГГц (Cascade Lake) |
| БАРАН | 12x 16 ГБ зі швидкістю 2933 МТс |
| ОС | ХЕЛ 7.6 |
| З'єднання | ® Технологія Intel Omni-Path |
| Профіль системи BIOS | Оптимізована продуктивність |
| Логічний процесор | Вимкнуто |
| Технологія віртуалізації | Вимкнуто |
| BWA | 0.7.15-р1140 |
| Samtools | 1.6 |
| ГАТК | 3.6-0-g89b7209 |
Тестовані обчислювальні вузли були підключені до Dell EMC Ready Solutions for HPC Lustre Storage через Intel® Omni-Path. Зведена конфігурація сховища наведена в таблиці 2.
Таблиця 2 Апаратні та програмні характеристики рішення
| Готове рішення Dell EMC для зберігання блиску | |
|---|---|
| Кількість вузлів | 1x Dell EMC PowerEdge R640 як інтегрований менеджер для Lustre (IML) 2x Dell EMC PowerEdge R740 як сервер метаданих (MDS) 2x Dell EMC PowerEdge R740 як сервер об'єктного зберігання (OSS) |
| Процесори | Сервер IML: Два сервери Intel Xeon Gold 5118 @ 2.3 ГГц MDS і OSS: Два процесори Intel Xeon Gold 6136 @ 3.00 ГГц |
| Пам'ять | Сервер IML: 12 серверів x 8 ГБ, DDR4 RDIMM, MDS і OSS, 2 666 МТ/с: 24 x 16 ГіБ, 2 666 МТ/с DDR4 RDIMM |
| Зовнішні контролери пам'яті |
2 x Dell 12 Гбіт/с SAS HBA (на кожному MDS) 4 x Dell 12 Гбіт/с SAS HBA (на кожному OSS) |
| Корпуси для зберігання предметів |
4x ME4084 із загальною кількістю жорстких дисків SAS 336 x 8 ТБ NL 7.2K rpm |
| Корпус для зберігання метаданих |
1x ME4024 з 24 твердотільними накопичувачами SAS на 960 ГБ. Підтримує до 4,68 B індексних дескрипторів |
| Контролери RAID | Дуплексні SAS RAID контролери в корпусах ME4084 та ME4024 |
| Операційна система | CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
| Версія BIOS | 1.4.5 |
| Версія Intel Omni-Path IFS |
10.8.0.0 |
| Версія файлової системи Lustre |
2.10.4 |
| Версія IML | 4.0.7.0 |
Дані тесту були обрані з одного з платинових геномів Illumina. ERR194161 була оброблена за допомогою Illumina HiSeq 2000, представленої компанією Illumina, і може бути отримана в EMBL-EBI. Ідентифікатор ДНК цієї особи – NA12878. Опис даних з веб-сайту за посиланням показує, що ця вибірка має >30-кратну глибину охоплення.
Оцінка ефективності
Продуктивність однієї вибірки кількох вузлів
На рисунку 1 підсумовано час виконання різної кількості зразків і обчислювальних вузлів з 50-кратними даними секвенування цілого геному (WGS). Тести, що виконуються тут, призначені для демонстрації продуктивності на рівні сервера, а не для порівняння окремих компонентів. Точки даних на рисунку 1 розраховуються на основі загальної кількості зразків, по одній вибірці на обчислювальний вузол (вісь X на малюнку), які обробляються одночасно. Детальну інформацію про трубопровід BWA-GATK можна отримати на веб-сайті Broad Institute (3). Максимальна кількість обчислювальних вузлів, що використовуються для тестів, становить 64 C6420. C6420 з Lustre ME4 демонструють кращу поведінку масштабування, ніж Lustre MD3.
Рисунок 1: Порівняння продуктивності між Lustre MD3 та Lustre ME4
Кілька прикладів продуктивності кількох вузлів
Типовим способом запуску конвеєра NGS є запуск кількох зразків на обчислювальному вузлі та використання кількох обчислювальних вузлів для максимізації пропускної здатності процесу даних NGS. Кількість обчислювальних вузлів, що використовуються для тестів, становить 64 з обчислювальних вузлів C6420, а кількість зразків на вузол становить п'ять зразків. Одночасно обробляється до 320 зразків, щоб оцінити максимальну кількість геномів на день без збою в роботі.Як показано на рисунку 2, один обчислювальний вузол C6420 може обробляти 3,24 з 50 цілих геномів людини на день, коли 5 зразків обробляються одночасно. Для кожного зразка виділено 7 ядер і 30 ГБ пам'яті.
Рисунок 2: Тести пропускної здатності з до 64 C6420 і Lustre ME4
320 з 50 повних геномів людини можуть бути оброблені 64 з обчислювальних вузлів C6420 за 40 годин. Іншими словами, продуктивність тестової конфігурації підсумовується як 194 геноми на день для всього геному людини з 50-кратною глибиною покриття.
Висновок
Оскільки обсяг даних WGS постійно зростає. Поточний середній розмір WGS становить 50x. Це в 5 разів більше, ніж типова WGS 4 роки тому, коли ми почали порівнювати трубопровід BWA-GATK. Збільшення обсягу даних не напружує ємність сховища, оскільки більшість додатків у конвеєрі також обмежені тактовою частотою процесора. Отже, зі збільшенням розміру даних воронка працює довше, а не генерує більше записів.Однак під час процесу створюється більша кількість тимчасових файлів через те, що потрібно розпаралелити більше даних, і це збільшене число тимчасових файлів, відкритих одночасно, вичерпує ліміт відкритих файлів в операційній системі Linux. Одна з програм непомітно не може завершити, досягнувши ліміту кількості відкритих файлів. Просте рішення – збільшити ліміт до >150 тис.
Тим не менш, Ready Solution з Lustre ME4 як місцем для подряпин має кращу пропускну здатність, ніж попередня версія. Тепер 64 вузли Ready Solution маркують 194 генома на добу обчислювальної потужності для 50x WGS.
Ресурси
1. Огляд інструментів для варіантного аналізу даних секвенування геному наступного покоління. Пабінгер С., Дандер А., Фішер М., Снайдер Р., Сперк М., Єфремова М., Крабіхлер Б., Шпейхер М.Р., Зшоке Дж., Траяноскі З. 2, С.Л. : Короткий Біоінформ, 2014 Березень, Том 15 (2). 10.1093/нагрудник/BBS086.2. Готове рішення Dell EMC для зберігання HPC Lustre. (Стаття більше не доступна для ознайомлення, витягнута командою HPC)
3. Інструментарій аналізу геному. https://software.broadinstitute.org/gatk/
Cause
Архівація як стаття базується на документації HPC, яка більше не розміщується в Інтернеті, і стаття не може бути відредагована, щоб відповідати очікуванням KB
Resolution
Архівація як стаття базується на документації HPC, яка більше не розміщується в Інтернеті, і стаття не може бути відредагована, щоб відповідати очікуванням KB