PowerEdge: Прискорення аналізу геномних даних за допомогою NVIDIA Clara Parabricks з сервером Dell EMC DSS 8440 і графічними процесорами NVIDIA T4

Summary: У цій статті представлена інформація про прискорення аналізу геномних даних за допомогою NVIDIA Parabricks на Dell EMC DSS 8440 з графічними процесорами NVIDIA T4.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Огляд

Перший крок для обробки даних секвенування наступного покоління (NGS) називається первинним аналізом. Цей крок є специфічним для інструменту секвенування та генерує кілька файлів FASTQ, що містять послідовне зчитування. На наступному етапі, відомому як вторинний аналіз, зчитування секвенування FASTQ зіставляються з еталонним геномом або еталонним транскриптомом. Додаткова обробка виявляє варіанти або відмінності між зразком, що цікавить, і еталонним. Варіанти анотуються та інтерпретуються на наступних етапах. Час вторинного аналізу для однієї вибірки коливається від годин до днів, залежно від розміру даних, доступних обчислювальних ресурсів, програмного забезпечення та аналітичного робочого процесу. 

Вторинний аналіз — це процес, що вимагає великих обчислень і зберігання, особливо при обробці сотень і тисяч геномів. Існує багато стратегій, щоб уникнути вузьких місць вторинного аналізу. До недавнього часу впровадження апаратного прискорення за допомогою графічних процесорів або FPGA залишалося низьким через спеціальне програмне забезпечення, необхідне для апаратних прискорювачів. Parabricks' Програмне забезпечення для геноміки, яке було придбано NVIDIA у 2019 році, стало піонером у програмному стеку для виконання різних робочих процесів геномного аналізу з графічними процесорами. Ми перевірили Parabricksблизько двох років тому. Dell представила багато технологічних досягнень у своїх серверах і рішеннях для зберігання даних, а NVIDIA Clara Parabricks Компанія випустила надійні версії з посиленим прискоренням і додаванням варіантних абонентів. Наприклад, конструкція сервера з кількома графічними процесорами на основі сервера Dell EMC DSS 8440 з графічними процесорами NVIDIA® Tesla® T4 виглядала багатообіцяючою для прискорення вторинного аналізу, пропонуючи при цьому привабливий баланс між ціною та продуктивністю. У цьому блозі повідомляється про нову еталонну архітектуру та результати бенчмарків для NVIDIA Clara Parabricks вторинний аналіз на графічному процесорі Tesla® T4, сервері DSS 8440 зі сховищем Dell Isilon F800Це гіперпосилання веде вас на веб-сайт за межами Dell Technologies.

Еталонна архітектура

Рисунок 1 ілюструє перевірену еталонну архітектуру. Архітектура модульна і проста в масштабуванні. Модель NVIDIA Clara Parabricks Прикладне програмне забезпечення використовує один або кілька графічних процесорів, що робить масштабування максимально простим. Апаратні будівельні блоки складаються з Dell PowerEdge R640 як вузла керування, сервера DSS 8440 для обчислень на GPU та сховища Dell EMC Isilon F800.  

Схема мережі, що показує з'єднання між серверами та комутаторами 
Рисунок 1: Перевірено еталонну архітектуру
 


DSS 8440, 2 роз'єми, сервер 4U може використовувати до 10 провідних у галузі графічних процесорів NVIDIA® Tesla® V100S Tensor Core, до 10 графічних процесорів NVIDIA® Quadro RTX™ або до 16 графічних процесорів NVIDIA Tesla T4, що забезпечують величезну потужність. Детальна конфігурація СППР 8440 наведена в таблиці 1.

 

Dell EMC DSS 8440
CPU 2x Xeon® Gold 6248R 24 cores 3.0 GHz
RAM 24x 64GB at 2933 MTps
Operating System Red Hat Enterprise Linux Server release 7.4 (Maipo)
BIOS System Profile Performance Optimized
Logical Processor Disabled
Virtualization Technology Disabled
Accelerators 16x NVIDIA® Tesla® T4 GPUs
Parabricks v3.0.0.05


Два перемикачі Z9100-ON забезпечили взаємозв'язок між обчислювальним вузлом і кластером зберігання даних Isilon F800. Для управління використовується додатковий перемикач N2248X-ON.
 

Дані NGS

Дані для порівняльного аналізу вторинного аналізу складалися з трьох наборів даних людського секвенування всього геному (WGS), ERR091571Це гіперпосилання веде вас на веб-сайт за межами Dell Technologies., SRR3124837Це гіперпосилання веде вас на веб-сайт за межами Dell Technologies. та ERR194161Це гіперпосилання веде вас на веб-сайт за межами Dell Technologies., що представляють 10x, 30x та 50x охоплення вибірки відповідно. Ці набори даних доступні в Європейському архіві нуклеотидів (ENA).Це гіперпосилання веде вас на веб-сайт за межами Dell Technologies.

 

Оцінка ефективності

Удосконалення програмного забезпечення скорочують час виконання.
NVIDIA продовжує впроваджувати програмні вдосконалення NVIDIA Clara Parabricks. На рисунку 2 показано скорочення часу виконання між двома версіями Parabricks запуск трубопроводу зародкової лінії за допомогою сервера Dell PowerEdge C4140 з тестовим середовищем 4 графічних процесорів V100. Перехід від версії 2.1.0 до версії 3.0.0 зменшив час виконання на 42%.

Гістограма Nvidia clara Parabricks, що показує дані WGS 
Малюнок 2: Остання версія варіанту зародкової лінії Parabricks, що викликає середовище виконання конвеєра.

 

Продуктивність DSS 8440 з 16x T4s

Час роботи NVIDIA Clara Parabricks вторинний аналіз з використанням одного графічного процесора T4 відбувається приблизно на 30% повільніше, ніж з використанням одного графічного процесора V100. Однак два (2) графічні процесори T4 забезпечують приблизно на 10% більше TFLOPS, ніж один (1) графічний процесор V100 приблизно вдвічі дешевше. DSS 8440 забезпечує до 16 слотів PCIe, що відкриває можливість спроектувати сервер на базі графічного процесора T4, який забезпечує таку ж продуктивність роботи, як і система C4140 з чотирма графічними процесорами V100, але за нижчою вартістю.
Об'єкт Parabricks Аналіз зародкової лінії проводився за допомогою PowerEdge DSS 8440 з 16 графічними процесорами T4. Для кожного набору даних зразка WGS, описаного раніше, час виконання було записано з використанням 1, 2, 4, 8 і 16 графічних процесорів T4 на вторинний аналіз. Результати відображені на малюнках з 3 по 5. Загалом, час виконання не масштабується лінійно, оскільки кількість графічних процесорів на аналіз збільшується. Картина масштабування схожа на збільшення кількості даних на вибірку від 10 до 50 разів охоплення. 
Хоча тут це не представлено, більш раннє розслідування Dell EMC щодо Parabricks Результати виконання з використанням восьми або більше графічних процесорів V100 на аналіз не масштабувалися так ефективно, як графічні процесори T4. Додаткові тестування показали, що 6 графічних процесорів T4 генерували результати роботи, майже ідентичні 4 графічним процесорам V100.

Гістограма порівняння продуктивності, що показує час роботи графічного процесора з 10x WGS 
Рисунок 3: Порівняння продуктивності з 10x WGS
 

Гістограма порівняння продуктивності, що показує час роботи графічного процесора з 30x WGS 
Рисунок 4 Порівняння продуктивності з 30x WGS

Гістограма порівняння продуктивності, що показує час роботи графічного процесора з 50x WGS 
Рисунок 5: Порівняння продуктивності з 50x WGS


Висновок

DSS 8440 з шістнадцятьма графічними процесорами T4 може обробляти тридцять 50-кратних геномів людини на день. Аналогічна щоденна пропускна здатність аналізу з використанням традиційної архітектури процесора x86 вимагає десяти обчислювальних вузлів PowerEdge C6420. Повна архітектура обговорюється в Dell Ready Solution for HPC Life Sciences: Тести пропускної здатності BWA-GATK Pipeline з процесором Cascade Lake і Lustre ME4 Refresh.  


Однак виділення всіх 16 графічних процесорів T4 для обробки одного зразка дає мало переваг, оскільки використання 16 графічних процесорів на аналіз у кращому випадку на 10% швидше, ніж використання 8 графічних процесорів. Конструкція DSS 8440 дозволяє проводити кілька вторинних аналізів паралельно. Призначаючи вісім графічних процесорів T4 на зразок, щоденна пропускна здатність аналізу збільшується до ~50 геномів на день. Використання чотирьох графічних процесорів на зразок збільшує пропускну здатність аналізу до ~70 геномів на день. Що ще важливіше, цей щоденний вихід із використанням графічних процесорів T4 становить менше половини вартості використання дизайну графічного процесора V100.
Крім швидкості, для порівнянності результатів важлива сумісність з іншими інструментами аналізу. Об'єкт Parabricks Результати аналізу зародкової лінії майже ідентичні добре відомому аналізу гаплотипу абонента BWA-GATK з попередніх тестів. Ми також хотіли порівняти результати виклику варіанту Parabricks з іншими наборами інструментів, такими як samtools/mpileup. Ці два різні інструменти досягають ~90% загальної згоди для ідентифікованих варіантів, а варіації в багатьох добре відомих геномних областях, що містять важливі гени, узгоджуються більш ніж на 99%.

Additional Information

Affected Products

DSS 8440, Isilon F800, Poweredge C4140, PowerEdge R640
Article Properties
Article Number: 000180441
Article Type: How To
Last Modified: 12 Nov 2025
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.