PowerEdge. Ускорение процесса геномного секвенирования с помощью пайплайна Falcon Accelerated Genomics Pipeline (FAGP) на базе Intel FPGA PAC
Summary: Falcon Accelerated Genomics Pipeline с одной программируемой платой ускорения Intel FPGA может обрабатывать в 50 раз больше целых геномов человека менее чем за 3 часа с помощью альтернативного конвейера вызова вариантов. ...
Symptoms
Falcon Accelerated Genomics Pipeline с одной программируемой платой ускорения Intel FPGA может обрабатывать в 50 раз больше целых геномов человека менее чем за 3 часа с помощью альтернативного конвейера вызова вариантов.
Обзор, Market Challenge (потребность), решение Falcon отвечает на потребность:
Точная медицина, геномика и эпигенетика используют геномное секвенирование для проведения исследований, улучшения диагностики, разработки фармацевтических препаратов, повышения качества медицинской помощи медицинским работникам и оптимизации растениеводства. В медико-биологических науках анализ генома в настоящее время является ключевым приложением, отчасти из-за значительного снижения затрат на сбор данных благодаря достижениям в области секвенирования нового поколения (NGS). В дополнение к увеличению сбора данных, также наблюдается значительный рост спектра геномных приложений, используемых в университетах, центрах геномных исследований, фармацевтических компаниях и организациях здравоохранения.
Каждые семь месяцев объем геномных данных удваивается (1). Эффективная и экономичная обработка данных стала критически важной. Вычислительная мощность решений на базе только процессора масштабируется недостаточно быстро, чтобы успевать за ростом объемов геномных данных. Это привело к необходимости аппаратного ускорения. Ускорители, такие как FPGA, играют ключевую роль в удовлетворении вычислительных потребностей в этом взрывном росте геномных данных. По сравнению с другими решениями с аппаратным ускорением, Falcon Accelerated Genomics Pipeline (FAGP) обеспечивает гибкость, высокую пропускную способность и более низкую стоимость образца.
Что такое FPGA, Intel PAC и его преимущества?
FPGA — это кремниевые устройства, которые могут быть динамически перепрограммированы с помощью пути прохождения данных, точно соответствующего вашим рабочим нагрузкам, таким как секвенирование генома, анализ данных или сжатие, как показано на рисунке 1. Такая универсальность позволяет выделять ресурсы для более быстрой обработки, более энергоэффективных вычислений и сервисов с меньшей задержкой, что снижает совокупную стоимость владения и максимально увеличивает вычислительные ресурсы в условиях ограничений по питанию, пространству и охлаждению центров обработки данных.
Традиционно FPGA требуют глубоких знаний в предметной области для программирования. Чтобы упростить процесс разработки и обеспечить быстрое развертывание в центре обработки данных, корпорация Intel предлагает платформу ускорения, которая включает программируемые платы ускорения Intel PLIA (PLIe*) на базе PCI Express* (Intel FPGA PAC) и стек ускорения Intel® Acceleration Stack для процессоров Intel Xeon® с FPGA. Эти платформы Intel квалифицированы, проверены и развернуты с помощью Dell EMC. Вместе с партнерами по экосистеме, такими как Falcon Computing, платформа Intel Acceleration Platform предлагает надежное и готовое к использованию решение с прозрачным аппаратным обеспечением.
Рисунок 1: Повышенная точность и скорость на стандартном конвейере GATK
Сведения о решении Falcon:
Genome Analysis Toolkit (GATK) является золотым стандартом обработки геномных данных, принятым геномным сообществом (2). Его Best Practice Workflow (BPW) хорошо известен своей медленностью в вычислениях для получения результатов для больших выборок, таких как Whole-Genome (WGS). Для решения этой проблемы компания Falcon Computing Solutions разработала гибкий программный пакет инструментов, который соответствует BPW и может быть реализован на нескольких платформах и архитектурах. Он быстр на несколько порядков по сравнению с конвейерами GATK на базе процессора.
FAGP предоставляет комплексное решение для экономически эффективного анализа геномных данных с использованием конвейера GATK с высокой производительностью, точностью и воспроизводимостью. Решение обеспечивает 15-кратное ускорение с той же точностью, что и GATK (3). Это означает, что анализ, который обычно занимает от 50 до 60 часов, может быть проведен менее чем за 4 часа (3). FAGP обеспечивает исключительный уровень ускорения и точности благодаря высокопроизводительным и надежным FPGA Intel Arria 10 и процессорам Intel® Xeon®.
FAGP следует за GATK BPW. Он реализует ускорение во многих компонентах конвейеров от выравнивания (BWA) до вызова варианта (HaplotypeCaller) (4). В дополнение к ускоренному BWA он также включает в себя ускоренную версию выравнивателя Minimap2, который является частью альтернативного геномного конвейера от Falcon (5). Альтернативный конвейер обеспечивает еще более быстрое решение. Он может выполнить 50-кратное секвенирование всего генома в течение 3 часов. Оба элайнера имеют функцию создания помеченных дубликатов и отсортированных считываний без необходимости использования дополнительных инструментов.
FAGP достигает высокой производительности и пропускной способности за счет ускорения интенсивных вычислений в конвейере GATK с помощью платформ Intel FPGA PAC. Это отличается от горизонтально масштабируемых решений, которые обеспечивают высокую пропускную способность за счет добавления дополнительных ресурсов ЦП. Такие горизонтально масштабируемые решения имеют ограниченные возможности по снижению затрат или задержки в расчете на единицу выборки.
Еще одним преимуществом решения Falcon является то, что он является открытым трубопроводом, как и GATK. Пользователи могут управлять отдельными шагами в конвейерах. Промежуточные данные сохраняются, и к ним можно получить доступ.
Таблица 1: Преимущества конвейера ускоренной геномики Falcon
| Преимущества конвейера ускоренной геномики Falcon (FAGP) | |
|---|---|
| Истинный ГАТК | Поддержка нескольких версий GATK, включая 4.0 |
| Отраслевой масштаб | Запустите пять целых геномов или 24 целых экзома за один день. |
| Альтернативный вариант | < Время выполнения заказа на месте установки WGS (50X) 3 часа |
| Скорость | Выполняйте конвейер лучших практик GATK до >15 раз быстрее. |
| Использование существующих | Не нужно переписывать рабочие алгоритмы. |
Конфигурация оборудования Dell
Таблица 2. Dell EMC PowerEdge R740xd в качестве тестовой среды
| Dell EMC PowerEdge R740xd | |
|---|---|
| Процессор | 2x Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz |
| Память | 384GB @ 32x 16GB RDIMM, 2666MT/s, Dual Rank |
| Хранилище | 4x 1.2TB 10K RPM SAS 12Gbps 512n 2.5in Hot-plug Hard Drive in RAID 0 2x INTEL SSDPEDMD020T4 DC P3700 1.8T in software RAID 0 |
| ПЛИС | Intel Programmable Acceleration Card with Intel Arria® 10 GX FPGA (Intel Acceleration Stack 1.1) |
| Профиль системы | Performance |
| Версия BIOS | 2.1.3 |
| Технология Hyper-Threading | Enabled |
| ОС | Red Hat Enterprise Linux Server release 7.4 (Maipo) (3.10.0-693.el7.x86_64) |
Оценка производительности
В нашем бенчмарк-тестировании мы использовали данные секвенирования всего генома человека на 10-, 30-кратной и 50-кратной глубине покрытия.
Таблица 3: Протестированные данные полногеномного секвенирования
| Выполнить присоединение | Глубина покрытия | Канал передачи данных |
|---|---|---|
| ERR091571 | В 10 раз | https://www.ebi.ac.uk/ena/data/view/ERR091571 |
| SRR3124837 | В 30 раз | https://www.ebi.ac.uk/ena/data/view/SRR3124837 |
| ERR194161 | В 50 раз | https://www.ebi.ac.uk/ena/data/view/ERR194161 |
Результаты:
В таблице 4 приведено время, затраченное на проверку GATK 4.0 Best Practices Pipeline в течение трех циклов тестирования с использованием FAGP и Intel FPGA PAC, размещенного в сервере DELL EMC PowerEdge R740xd.
Таблица 4: Общее время выполнения из Best Practice Pipeline версии 2.1.1
| Образец | Глубина покрытия | Тест 1 | Время выполнения (в минутах) Тест 2 |
Тест 3 |
|---|---|---|---|---|
ERR091571 |
10x |
75.63 |
76.67 |
76.38 |
SRR3124837 |
30x |
160.00 |
162.77 |
161.38 |
ERR194161 |
50x |
242.97 |
250.65 |
247.18 |
В таблице 5 приведено среднее время (в минутах), затраченное на создание альтернативного конвейера. Falcon Germline в течение трех циклов тестирования с использованием FAGP и Intel FPGA PAC, размещенного в сервере DELL EMC PowerEdge R740xd.
Таблица 5: Общее время выполнения из конвейера вызова альтернативных вариантов
| Образец | Глубина покрытия | Тест 1 | Время выполнения (в минутах) Тест 2 |
Тест 3 |
|---|---|---|---|---|
ERR091571 |
10x |
62.70 |
58.21 |
59.80 |
SRR3124837 |
30x |
130.38 |
129.90 |
129.95 |
ERR194161 |
50x |
171.52 |
171.87 |
171.37 |
Резюме Falcon Genomic Solution
Falcon Accelerated Genomics Pipeline обеспечивает высокую пропускную способность, низкую стоимость/выборочный/день. Вместе с программируемой платой ускорения Intel FPGA и сертифицированным сервером DELL FAGP представляет собой комплексное решение, которое можно адаптировать для ваших приложений геномного секвенирования».
В TCGB мы предоставляем услуги по секвенированию генома нашим клиентам по всей стране. Falcon Accelerated Genomics Pipeline* позволил нам сократить время выполнения работ с нескольких дней до нескольких часов, сохранив при этом точность стандартных конвейеров GATTK».
— Д-р Синьмин Ли, директор Технологического центра геномики и биоинформатики (TCGB) Калифорнийского университета в Лос-Анджелесе
Ресурсы
1. Секвенирование генома создает так много данных, что мы не знаем, что с ними делать. [Онлайн] https://www.washingtonpost.com/news/speaking-of-science/wp/2015/07/07/sequencing-the-genome-creates-so-much-data-we-don't-know-what-to-do-with-it.
2. ГАТК [Электронный ресурс] https://software.broadinstitute.org/gatk/
3. Ускоренная геномика [Онлайн] http://www.falconcomputing.com/falcon-accelerated-genomics-pipeline
4. ББД. [Онлайн]
http://bio-bwa.sourceforge.net/bwa.shtml5. Мини-карта2. [Онлайн] https://github.com/lh3/minimap2