PowerEdge: Прискорення аналізу геномних даних за допомогою NVIDIA Clara Parabricks з сервером Dell EMC DSS 8440 і графічними процесорами NVIDIA T4
Summary: У цій статті представлена інформація про прискорення аналізу геномних даних за допомогою NVIDIA Parabricks на Dell EMC DSS 8440 з графічними процесорами NVIDIA T4.
Instructions
Огляд
Перший крок для обробки даних секвенування наступного покоління (NGS) називається первинним аналізом. Цей крок є специфічним для інструменту секвенування та генерує кілька файлів FASTQ, що містять послідовне зчитування. На наступному етапі, відомому як вторинний аналіз, зчитування секвенування FASTQ зіставляються з еталонним геномом або еталонним транскриптомом. Додаткова обробка виявляє варіанти або відмінності між зразком, що цікавить, і еталонним. Варіанти анотуються та інтерпретуються на наступних етапах. Час вторинного аналізу для однієї вибірки коливається від годин до днів, залежно від розміру даних, доступних обчислювальних ресурсів, програмного забезпечення та аналітичного робочого процесу.
Вторинний аналіз — це процес, що вимагає великих обчислень і зберігання, особливо при обробці сотень і тисяч геномів. Існує багато стратегій, щоб уникнути вузьких місць вторинного аналізу. До недавнього часу впровадження апаратного прискорення за допомогою графічних процесорів або FPGA залишалося низьким через спеціальне програмне забезпечення, необхідне для апаратних прискорювачів. Parabricks' Програмне забезпечення для геноміки, яке було придбано NVIDIA у 2019 році, стало піонером у програмному стеку для виконання різних робочих процесів геномного аналізу з графічними процесорами. Ми перевірили Parabricksблизько двох років тому. Dell представила багато технологічних досягнень у своїх серверах і рішеннях для зберігання даних, а NVIDIA Clara Parabricks Компанія випустила надійні версії з посиленим прискоренням і додаванням варіантних абонентів. Наприклад, конструкція сервера з кількома графічними процесорами на основі сервера Dell EMC DSS 8440 з графічними процесорами NVIDIA® Tesla® T4 виглядала багатообіцяючою для прискорення вторинного аналізу, пропонуючи при цьому привабливий баланс між ціною та продуктивністю. У цьому блозі повідомляється про нову еталонну архітектуру та результати бенчмарків для NVIDIA Clara Parabricks вторинний аналіз на графічному процесорі Tesla® T4, сервері DSS 8440 зі сховищем Dell Isilon F800 .
Еталонна архітектура
Рисунок 1 ілюструє перевірену еталонну архітектуру. Архітектура модульна і проста в масштабуванні. Модель NVIDIA Clara Parabricks Прикладне програмне забезпечення використовує один або кілька графічних процесорів, що робить масштабування максимально простим. Апаратні будівельні блоки складаються з Dell PowerEdge R640 як вузла керування, сервера DSS 8440 для обчислень на GPU та сховища Dell EMC Isilon F800.
Рисунок 1: Перевірено еталонну архітектуру
DSS 8440, 2 роз'єми, сервер 4U може використовувати до 10 провідних у галузі графічних процесорів NVIDIA® Tesla® V100S Tensor Core, до 10 графічних процесорів NVIDIA® Quadro RTX™ або до 16 графічних процесорів NVIDIA Tesla T4, що забезпечують величезну потужність. Детальна конфігурація СППР 8440 наведена в таблиці 1.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
Два перемикачі Z9100-ON забезпечили взаємозв'язок між обчислювальним вузлом і кластером зберігання даних Isilon F800. Для управління використовується додатковий перемикач N2248X-ON.
Дані NGS
Дані для порівняльного аналізу вторинного аналізу складалися з трьох наборів даних людського секвенування всього геному (WGS), ERR091571, SRR3124837
та ERR194161
, що представляють 10x, 30x та 50x охоплення вибірки відповідно. Ці набори даних доступні в Європейському архіві нуклеотидів (ENA).
Оцінка ефективності
Удосконалення програмного забезпечення скорочують час виконання.
NVIDIA продовжує впроваджувати програмні вдосконалення NVIDIA Clara Parabricks. На рисунку 2 показано скорочення часу виконання між двома версіями Parabricks запуск трубопроводу зародкової лінії за допомогою сервера Dell PowerEdge C4140 з тестовим середовищем 4 графічних процесорів V100. Перехід від версії 2.1.0 до версії 3.0.0 зменшив час виконання на 42%.
Малюнок 2: Остання версія варіанту зародкової лінії Parabricks, що викликає середовище виконання конвеєра.
Продуктивність DSS 8440 з 16x T4s
Час роботи NVIDIA Clara Parabricks вторинний аналіз з використанням одного графічного процесора T4 відбувається приблизно на 30% повільніше, ніж з використанням одного графічного процесора V100. Однак два (2) графічні процесори T4 забезпечують приблизно на 10% більше TFLOPS, ніж один (1) графічний процесор V100 приблизно вдвічі дешевше. DSS 8440 забезпечує до 16 слотів PCIe, що відкриває можливість спроектувати сервер на базі графічного процесора T4, який забезпечує таку ж продуктивність роботи, як і система C4140 з чотирма графічними процесорами V100, але за нижчою вартістю.
Об'єкт Parabricks Аналіз зародкової лінії проводився за допомогою PowerEdge DSS 8440 з 16 графічними процесорами T4. Для кожного набору даних зразка WGS, описаного раніше, час виконання було записано з використанням 1, 2, 4, 8 і 16 графічних процесорів T4 на вторинний аналіз. Результати відображені на малюнках з 3 по 5. Загалом, час виконання не масштабується лінійно, оскільки кількість графічних процесорів на аналіз збільшується. Картина масштабування схожа на збільшення кількості даних на вибірку від 10 до 50 разів охоплення.
Хоча тут це не представлено, більш раннє розслідування Dell EMC щодо Parabricks Результати виконання з використанням восьми або більше графічних процесорів V100 на аналіз не масштабувалися так ефективно, як графічні процесори T4. Додаткові тестування показали, що 6 графічних процесорів T4 генерували результати роботи, майже ідентичні 4 графічним процесорам V100.
Рисунок 3: Порівняння продуктивності з 10x WGS
Рисунок 4 Порівняння продуктивності з 30x WGS
Рисунок 5: Порівняння продуктивності з 50x WGS
Висновок
DSS 8440 з шістнадцятьма графічними процесорами T4 може обробляти тридцять 50-кратних геномів людини на день. Аналогічна щоденна пропускна здатність аналізу з використанням традиційної архітектури процесора x86 вимагає десяти обчислювальних вузлів PowerEdge C6420. Повна архітектура обговорюється в Dell Ready Solution for HPC Life Sciences: Тести пропускної здатності BWA-GATK Pipeline з процесором Cascade Lake і Lustre ME4 Refresh.
Однак виділення всіх 16 графічних процесорів T4 для обробки одного зразка дає мало переваг, оскільки використання 16 графічних процесорів на аналіз у кращому випадку на 10% швидше, ніж використання 8 графічних процесорів. Конструкція DSS 8440 дозволяє проводити кілька вторинних аналізів паралельно. Призначаючи вісім графічних процесорів T4 на зразок, щоденна пропускна здатність аналізу збільшується до ~50 геномів на день. Використання чотирьох графічних процесорів на зразок збільшує пропускну здатність аналізу до ~70 геномів на день. Що ще важливіше, цей щоденний вихід із використанням графічних процесорів T4 становить менше половини вартості використання дизайну графічного процесора V100.
Крім швидкості, для порівнянності результатів важлива сумісність з іншими інструментами аналізу. Об'єкт Parabricks Результати аналізу зародкової лінії майже ідентичні добре відомому аналізу гаплотипу абонента BWA-GATK з попередніх тестів. Ми також хотіли порівняти результати виклику варіанту Parabricks з іншими наборами інструментів, такими як samtools/mpileup. Ці два різні інструменти досягають ~90% загальної згоди для ідентифікованих варіантів, а варіації в багатьох добре відомих геномних областях, що містять важливі гени, узгоджуються більш ніж на 99%.