Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Profitez de récompenses et de remises réservées aux membres
  • Créez et accédez à une liste de vos produits
  • Gérer vos sites, vos produits et vos contacts au niveau des produits Dell EMC à l’aide de la rubrique Gestion des informations de l’entreprise.

Готове рішення Dell EMC для HPC Life Sciences: Тести пропускної здатності трубопроводу BWA-GATK з процесором Cascade Lake і Lustre ME4 Refresh

Résumé: Готове рішення Dell EMC для HPC Life Sciences: Тести пропускної здатності трубопроводу BWA-GATK з процесором Cascade Lake і Lustre ME4 Refresh

Cet article a peut-être été traduit automatiquement. Si vous avez des commentaires concernant sa qualité, veuillez nous en informer en utilisant le formulaire au bas de cette page.

Contenu de l’article


Symptômes

Конфігурація 64-обчислювальних вузлів Dell EMC Ready Solutions for HPC Life Sciences може обробляти 194 геноми на день (50-кратна глибина покриття).

Огляд

Варіанти викликуЦе гіперпосилання спрямовує вас на веб-сайт за межами Dell Technologies. — це процес, за допомогою якого ми ідентифікуємо варіанти з даних послідовностей. Цей процес допомагає визначити, чи існують однонуклеотидні поліморфізми (SNP), вставки та делеції (індели) та/або структурні варіанти (SV) у певній позиції в окремому геномі або транскриптомі. Основною метою виявлення геномних варіацій є зв'язок із захворюваннями людини. Хоча не всі захворювання людини пов'язані з генетичними варіаціями, виклик варіантів може стати цінним орієнтиром для генетиків, які працюють над конкретним захворюванням, викликаним генетичними варіаціями. BWA-GATK — це один із обчислювальних інструментів секвенування наступного покоління (NGS), який призначений для ідентифікації зародкової лінії та соматичних мутацій на основі даних NGS людини. Існує кілька інструментів ідентифікації варіантів, і ми розуміємо, що не існує жодного інструменту, який би працював ідеально (1). Однак ми вибрали GATK, який є одним із найпопулярніших інструментів, як наш інструмент порівняльного аналізу, щоб продемонструвати, наскільки добре Dell EMC Ready Solutions for HPC Life Sciences може обробляти складні та масивні робочі навантаження NGS. 
Метою цього блогу є надання цінної інформації про продуктивність процесора Intel® Xeon® Gold 6248 для тесту трубопроводу BWA-GATK з Dell EMC Ready Solutions for HPC Lustre Storage (оновлення серії ME4) (2). Процесор Xeon® Gold 6248 оснащений 20 фізичними ядрами або 40 логічними ядрами при використанні гіперпоточності. Конфігурації тестових кластерів узагальнені в таблиці 1.

Таблиця 1 Перевірена конфігурація обчислювального вузла
 
Dell EMC PowerEdge C6420
ЦП 2x Xeon® Gold 6248 20 ядер 2,5 ГГц (Cascade Lake)
БАРАН 12x 16 ГБ зі швидкістю 2933 МТс
ОС ХЕЛ 7.6
З'єднання ® Intel Omni-Path
Профіль системи BIOS Оптимізована продуктивність
Логічний процесор Вимкнуто
Технологія віртуалізації Вимкнуто
BWA 0.7.15-R1140
Samtools 1.6
ГАТК 3.6-0-g89b7209

Тестовані обчислювальні вузли були підключені до Dell EMC Ready Solutions for HPC Lustre Storage через Intel® Omni-Path. Зведена конфігурація сховища наведена в таблиці 2.
Таблиця 2 Апаратні та програмні характеристики рішення
 
Готове рішення Dell EMC для зберігання блиску
Кількість вузлів 1x Dell EMC PowerEdge R640 як інтегрований менеджер для Lustre (IML) 2x Dell EMC PowerEdge R740 як сервер метаданих (MDS) 2x Dell EMC PowerEdge R740 як сервер об'єктного зберігання (OSS)

Процесори IML-сервер: Два сервери Intel Xeon Gold 5118 @ 2.3 ГГц
MDS і OSS: Два процесори Intel Xeon Gold 6136 @ 3.00 ГГц
Пам'ять IML-сервер: 12 x 8 ГБ 2 666 МТ/с DDR4 RDIMM, сервери
MDS і OSS: 24 x 16 Гб, 2 666 МТ/с DDR4 RDIMM
Зовнішні контролери пам'яті
2 x Dell 12 Гбіт/с SAS HBA (на кожному MDS) 4 x Dell 12 Гбіт/с SAS HBA (на кожному OSS)
Корпуси для зберігання
об'єктів
4x ME4084 із загальною кількістю жорстких дисків SAS 336 x 8 ТБ NL 7,2 K об/хв
Корпус для зберігання
метаданих
1x ME4024 з 24 твердотільними накопичувачами SAS по 960 ГБ. Підтримка до 4,68 B inodes
RAID-контролери Дуплексні SAS RAID-контролери в корпусах ME4084 і ME4024
Операційна система CentOS 7.5 x86_64 Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Версія BIOS 1.4.5
Версія Intel Omni-Path
IFS
10.8.0.0
Версія файлової системи
Lustre
2.10.4
Версія IML 4.0.7.0

Дані тесту були обрані з одного з платинових геномів Illumina. ERR194161 було оброблено за допомогою Illumina HiSeq 2000, представленого компанією Illumina, і його можна отримати в EMBL-EBI. Ідентифікатор ДНК цієї особи – NA12878. Опис даних з веб-сайту, на який посилається, показує, що ця вибірка має >30-кратну глибину охоплення.

Оцінка ефективності

Продуктивність однієї вибірки кількох вузлів

На рисунку 1 підсумовано час виконання різної кількості зразків та обчислювальних вузлів із 50-кратними даними секвенування цілого геному (WGS). Тести, що виконуються тут, призначені для демонстрації продуктивності на рівні сервера, а не для порівняння окремих компонентів. Точки даних на рисунку 1 обчислюються на основі загальної кількості зразків, по одній вибірці на обчислювальний вузол (вісь X на малюнку), які обробляються одночасно. Детальну інформацію про трубопровід BWA-GATK можна отримати на веб-сайті Broad Institute (3). Максимальна кількість обчислювальних вузлів, що використовуються для тестів, становить 64 C6420. C6420 з Lustre ME4 демонструють кращу поведінку масштабування, ніж Lustre MD3.

  Порівняння продуктивності Lustre MD3 та Lustre ME4
Рисунок 1 Порівняння продуктивності між Lustre MD3 та Lustre ME4

Продуктивність кількох зразків кількох вузлів

Типовим способом запуску конвеєра NGS є запуск кількох вибірок на обчислювальному вузлі та використання кількох обчислювальних вузлів для максимізації пропускної здатності процесу даних NGS. Кількість обчислювальних вузлів, що використовуються для тестів, становить 64 обчислювальних вузлів C6420, а кількість вибірок на вузол становить п'ять зразків. Одночасно обробляється до 320 зразків, щоб оцінити максимальну кількість геномів на день без збоїв у роботі.
Як показано на рисунку 2, один обчислювальний вузол C6420 може обробляти 3,24 з 50 геномів людини на день, коли 5 зразків обробляються одночасно. Для кожного зразка виділено 7 ядер і 30 ГБ пам'яті. 

  Випробування пропускної здатності з 64 літаками C6420 та Lustre ME4
Рисунок 2 Випробування пропускної здатності до 64 C6420 і Lustre ME4

320 з 50 геномів людини можуть бути оброблені за допомогою 64 з обчислювальних вузлів C6420 за 40 годин.  Іншими словами, продуктивність тестової конфігурації підсумовується як 194 геноми на день для всього геному людини з 50-кратною глибиною покриття.

Висновок

Оскільки обсяг даних WGS постійно зростає. Поточний середній розмір WGS становить 50x. Це в 5 разів більше, ніж типова WGS 4 роки тому, коли ми починали бенчмаркувати трубопровід BWA-GATK. Збільшення обсягу даних не напружує ємність сховища, оскільки більшість додатків у конвеєрі також обмежені тактовою частотою процесора. Отже, зі збільшенням розміру даних конвеєр працює довше, а не генерує більше записів.
Однак під час процесу генерується більша кількість тимчасових файлів через те, що потрібно розпаралелити більше даних, і це збільшення кількості тимчасових файлів, відкритих одночасно, вичерпує ліміт відкритих файлів в операційній системі Linux. Одна з програм непомітно не завершує роботу, досягаючи ліміту кількості відкритих файлів. Просте рішення – збільшити ліміт до >150 тис. 
Тим не менш, готове рішення з Lustre ME4 в якості скретч-простору має кращу пропускну здатність, ніж попередня версія. Тепер 64 вузли Ready Solution позначають 194 геноми на день обчислювальної потужності для 50x WGS.

Ресурси 

1. Огляд інструментів для варіантного аналізу даних секвенування геному наступного покоління. Пабінгер С., Дандер А., Фішер М., Снайдер Р., Сперк М., Єфремова М., Крабіхлер Б., Шпейхер М.Р., Зшоке Дж., Траяноскі З. 2, с.л. : Короткий Біоінформ, 2014 Березень, Том 15 (2). 10.1093/bib/BBS086.
2. Готове рішення Dell EMC для зберігання блиску HPC.  (Стаття більше не доступна для довідки, витягнута командою HPC)
3. Інструментарій аналізу геному. https://software.broadinstitute.org/gatk/ Це гіперпосилання спрямовує вас на веб-сайт за межами Dell Technologies.

Propriétés de l’article


Produit concerné

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Dernière date de publication

11 janv. 2024

Version

6

Type d’article

Solution