PowerEdge: Прискорення геномного секвенування за допомогою Falcon Accelerated Genomics Pipeline (FAGP) на Intel FPGA PAC

Summary: Falcon Accelerated Genomics Pipeline з однією програмованою картою прискорення Intel FPGA може обробляти 50 геномів людини менш ніж за 3 години через Alternative Variant Calling Pipeline. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Falcon Accelerated Genomics Pipeline з однією програмованою картою прискорення Intel FPGA може обробляти 50 геномів людини менш ніж за 3 години через Alternative Variant Calling Pipeline. 

 



Огляд, Market Challenge (потреба), рішення Falcon відповідає на потребу:

Прецизійна медицина, геноміка та епігенетика використовують геномне секвенування для проведення досліджень, покращення діагностики, розробки фармацевтичних препаратів, підвищення якості медичної допомоги для медичних працівників та оптимізації виробництва сільськогосподарських культур. Для наук про життя аналіз геному зараз є ключовим застосуванням, частково завдяки значному скороченню витрат на збір даних завдяки досягненням у галузі секвенування наступного покоління (NGS). На додаток до збільшення збору даних, також спостерігається значне зростання спектру геномних додатків, що використовуються в університетах, геномних дослідницьких центрах, фармацевтичних компаніях та організаціях охорони здоров'я. 
Кожні сім місяців обсяг даних про геном подвоюється (1). Ефективна та економічно вигідна обробка даних стала критично важливою. Обчислювальна потужність рішень, що працюють лише на процесорах, масштабується недостатньо швидко, щоб встигати за зростанням геномних даних. Це призвело до необхідності апаратного прискорення. Прискорювачі, такі як FPGA, стають ключовими у відповідності обчислювальним вимогам цього вибуху геномних даних. У порівнянні з іншими апаратно-прискореними рішеннями, Falcon Accelerated Genomics Pipeline (FAGP) пропонує гнучкість, високу пропускну здатність і нижчу вартість зразка.
 



Що таке FPGA, Intel PAC пропозиція та перевага:

FPGA — це кремнієві пристрої, які можна динамічно перепрограмувати за допомогою шляху даних, який точно відповідає вашим робочим навантаженням, наприклад, геномне секвенування, аналітика даних або стиснення, як показано на малюнку 1. Ця універсальність дає змогу забезпечувати швидшу обробку, енергоефективніші обчислення та послуги з меншою затримкою, знижуючи загальну вартість володіння та максимізуючи обчислювальну потужність у межах обмежень потужності, простору та охолодження ваших центрів обробки даних. 
Традиційно для програмування FPGA потрібні глибокі знання в предметній області. Щоб спростити процес розробки та забезпечити швидке розгортання в центрі обробки даних, Intel пропонує платформу прискорення, яка включає програмовані плати прискорення Intel FPGA (Intel FPGA PAC) на основі PCI Express* (PCIe*) та стек прискорення Intel® для процесорів Intel Xeon® з FPGA. Ці платформи Intel проходять кваліфікацію, перевіряються та розгортаються через Dell EMC. Разом із партнерами екосистеми, такими як Falcon Computing, Intel Acceleration Platform пропонує надійне та готове до роботи рішення з прозорим апаратним забезпеченням під капотом.

SLN319291_en_US__1image(12669)
Малюнок 1: Підвищена точність і швидкість на стандартному трубопроводі GATK
 



Деталі рішення Falcon:

Genome Analysis Toolkit (GATK) є золотим стандартом обробки геномних даних, прийнятим геномним співтовариством (2). Його найкращий робочий процес (BPW) добре відомий своєю повільністю в обчисленнях для отримання результатів для великих зразків, таких як цілісний геном (WGS). Щоб вирішити цю проблему, компанія Falcon Computing Solutions розробила гнучкий програмний пакет інструментів, який слідує BPW і може бути реалізований на різних платформах і архітектурах. Він швидкий на кілька порядків, якщо порівнювати з конвеєрами GATK на базі процесора.
FAGP надає комплексне рішення для економічно ефективного аналізу геномних даних за допомогою трубопроводу GATK з високою продуктивністю, точністю та відтворюваністю. Рішення забезпечує до 15-кратного прискорення з такою ж точністю, як і GATK (3). Це означає, що аналіз, який зазвичай займає від 50 до 60 годин, може бути проведений менш ніж за 4 години (3). FAGP забезпечує винятковий рівень прискорення та точності завдяки високопродуктивним, надійним процесорам Intel Arria 10 FPGA та Intel® Xeon®. 
FAGP слідує за GATK BPW. Він реалізує прискорення в багатьох компонентах конвеєрів від вирівнювання (BWA) до виклику варіантів (HaplotypeCaller) (4). На додаток до прискореного BWA, він також включає прискорену версію вирівнювача Minimap2, який є частиною Alternate Genomic Pipeline від Falcon (5). Альтернативний трубопровід забезпечує ще швидший вихід рішення. Він може завершити 50-кратне секвенування всього геному протягом 3 годин. Обидва вирівнювачі мають функцію генерації позначених дублікатів і відсортованих зчитувань без необхідності використання додаткових інструментів. 
FAGP досягає високої продуктивності/пропускної здатності за рахунок прискорення інтенсивних обчислень у конвеєрі GATK з використанням платформ Intel FPGA PAC. Це відрізняється від масштабованих рішень, які досягають високої пропускної здатності за рахунок додавання більшої кількості ресурсів процесора. Такі масштабовані рішення мають обмежену здатність знижувати витрати або затримку на вибірку.
Ще однією перевагою рішення Falcon є те, що воно є відкритим трубопроводом, як і GATK. Користувачі можуть контролювати окремі кроки в пайплайнах. Проміжні дані зберігаються і до них можна отримати доступ.


Таблиця 1: Переваги конвеєра прискореної геноміки Falcon

 

Переваги трубопроводу прискореної геноміки Falcon (FAGP)
Справжня ГАТК Підтримка декількох версій GATK, включаючи 4.0
Масштаб галузі Запустіть п'ять цілих геномів або 24 цілих екзома за один день.
Альтернативний варіант < 3-годинний час виконання на місці для WGS (50X)
Швидкість Виконуйте пайплайн найкращих практик GATK у >15 разів швидше.
Кредитне плече існуюче Не потрібно переписувати робочі алгоритми.
 



Конфігурація апаратного забезпечення Dell

Таблиця 2: Dell EMC PowerEdge R740xd як тестовий стенд

Dell EMC PowerEdge R740xd
Процесор 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz
Пам'ять 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank
Зберігання 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0
ПЛІС Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1)
Профіль системи Performance
Версія BIOS 2.1.3
Гіперпоточність Enabled
ОС Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64)



Оцінка ефективності

У нашому порівняльному тестуванні ми використовували дані секвенування всього геному людини з 10-кратною, 30-кратною та 50-кратною глибиною покриття.


Таблиця 3: Перевірені дані секвенування всього геному
 

Запустіть приєднання Глибина охоплення Посилання на дані
ERR091571 10x https://www.ebi.ac.uk/ena/data/view/ERR091571
SRR3124837 30x https://www.ebi.ac.uk/ena/data/view/SRR3124837
ERR194161 50x https://www.ebi.ac.uk/ena/data/view/ERR194161



 

Результати:

У таблиці 4 підсумовано час, витрачений на завершення конвеєра найкращих практик GATK 4.0 протягом трьох тестових циклів з використанням FAGP та Intel FPGA PAC, розміщених на сервері DELL EMC PowerEdge R740xd.


Таблиця 4: Загальна тривалість виконання Best Practice Pipeline версії 2.1.1

Зразка Глибина охоплення Тест 1 Час виконання (хвилини)
Тест 2
Тест 3
ERR091571 10x 75.63 76.67 76.38
SRR3124837 30x 160.00 162.77 161.38
ERR194161 50x 242.97 250.65 247.18


У таблиці 5 підсумовано час (у хвилинах), витрачений на завершення альтернативного трубопроводу: Falcon Germline протягом трьох циклів тестування з використанням FAGP і Intel FPGA PAC, розміщених на сервері DELL EMC PowerEdge R740xd.


Таблиця 5: Загальний час виконання з Alternative Variant Calling Pipeline

Зразка Глибина охоплення Тест 1 Час виконання (хвилини)
Тест 2
Тест 3
ERR091571 10x 62.70 58.21 59.80
SRR3124837 30x 130.38 129.90 129.95
ERR194161 50x 171.52 171.87 171.37

 



Резюме геномного рішення Falcon

Трубопровід прискореної геноміки Falcon пропонує високу пропускну здатність, низьку вартість/вигоду для зразка/день. Разом із картою програмованого прискорення Intel FPGA та сертифікованим сервером DELL, FAGP надає повне рішення, яке може бути прийняте для ваших додатків геномного секвенування».
У TCGB ми надаємо послуги секвенування геному нашим клієнтам по всій країні. Трубопровід прискореної геноміки Falcon* дозволив нам скоротити оборот з кількох днів до кількох годин, зберігаючи при цьому точність стандартних промислових трубопроводів GATK».
— Д-р Сіньмін Лі, директор Технологічного центру геноміки та біоінформатики (TCGB) Каліфорнійського університету в Лос-Анджелесі



Ресурси 

1. Секвенування геному створює стільки даних, що ми не знаємо, що з ними робити. [Електронний ресурс] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. ГАТК [Електронний ресурс] https://software.broadinstitute.org/gatk/
3. Прискорена геноміка [Електронний ресурс] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. БВА. [Електронний ресурс]
http://bio-bwa.sourceforge.net/bwa.shtml5. Міні-карта2. [Електронний ресурс] https://github.com/lh3/minimap2


 

Cause

Прискорте геномне секвенування за допомогою Falcon Accelerated Genomics Pipeline (FAGP) на Intel FPGA PAC.

Resolution

Falcon Accelerated Genomics Pipeline з однією програмованою картою прискорення Intel FPGA може обробляти 50 геномів людини менш ніж за 3 години через Alternative Variant Calling Pipeline.

Affected Products

Dell EMC Ready Solution Resources, OEMR R740xd, PowerEdge R740XD
Article Properties
Article Number: 000136278
Article Type: Solution
Last Modified: 08 Sep 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.