PowerEdge. Ускорение анализа геномных данных с помощью NVIDIA Clara Parabricks на сервере Dell EMC DSS 8440 с графическими процессорами NVIDIA T4
Summary: В этой статье представлена информация об ускорении анализа геномных данных с помощью NVIDIA Parabricks на Dell EMC DSS 8440 с графическими процессорами NVIDIA T4.
Instructions
Обзор
Первый этап обработки данных последовательности следующего поколения (NGS) называется первичным анализом. Это действие для конкретного инструмента создания последовательности, и оно создает несколько файлов FASTQ, содержащих последовательность операций чтения. На следующем этапе, известном как вторичный анализ, операции чтения последовательности FASTQ сопоставляются с контрольным геномом или контрольным транскриптом. Дальнейшая обработка выявляет варианты или различия между интересующим нас образцом и эталоном. Варианты аннотируются и интерпретируются на последующих нисходящих этапах. Время вторичного анализа для одного образца варьируется от нескольких часов до нескольких дней в зависимости от размера данных, доступных вычислительных ресурсов, программного обеспечения и рабочего процесса аналитики.
Вторичный анализ — это процесс с интенсивным использованием вычислительных ресурсов и ресурсов хранения данных, особенно при обработке сотен и тысяч геномов. Существует множество стратегий, которые позволяют избежать узких мест при вторичном анализе. До недавнего времени аппаратное ускорение с использованием графических процессоров или FPGA не было сильно распространено из-за настраиваемого программного обеспечения, необходимого аппаратным ускорителям. Parabricks' Программное обеспечение для геномики, которое было приобретено NVIDIA в 2019 году, стало пионером в программном стеке, выполняющем различные рабочие процессы геномного анализа с помощью графических процессоров. Мы протестировали Parabricksоколо двух лет назад. Компания Dell представила множество технологических достижений в своих серверах и решениях для хранения данных, а NVIDIA Clara Parabricks выпустил надежные версии с улучшенным ускорением и добавлением вызывающих вариантов. Например, сервер с несколькими графическими процессорами, созданный на базе сервера Dell EMC DSS 8440 с графическими процессорами NVIDIA® Tesla® T4, выглядел многообещающе для ускорения вторичного анализа и при этом предлагал привлекательный баланс между ценой и производительностью. В этом блоге представлена новая эталонная архитектура и результаты эталонных тестов для NVIDIA Clara Parabricks Вторичный анализ на сервере DSS 8440 с несколькими графическими процессорами Tesla® T4 и системой хранения Dell Isilon F800 .
Эталонная архитектура
На Рис. 1 показана протестированная эталонная архитектура. Архитектура является модульной и простой в масштабировании. The NVIDIA Clara Parabricks Прикладное программное обеспечение использует один или несколько графических процессоров, что максимально упрощает горизонтальное масштабирование. Структурные элементы оборудования состоят из Dell PowerEdge R640 в качестве узла управления, сервера DSS 8440 для вычислений на базе графических процессоров и системы хранения Dell EMC Isilon F800.
Рис. 1. Протестированная эталонная архитектура
Сервер DSS 8440 с 2 процессорами в корпусе 4U может вмещать до 10 ведущих в отрасли графических процессоров NVIDIA® Tesla® V100S Tensor Core, до 10 графических процессоров NVIDIA® Quadro RTX™ или до 16 графических процессоров NVIDIA Tesla T4, обеспечивающих огромную мощность. Подробная конфигурация DSS 8440 приведена в таблице 1.
| Dell EMC DSS 8440 | |
|---|---|
CPU |
2x Xeon® Gold 6248R 24 cores 3.0 GHz |
RAM |
24x 64GB at 2933 MTps |
Operating System |
Red Hat Enterprise Linux Server release 7.4 (Maipo) |
BIOS System Profile |
Performance Optimized |
Logical Processor |
Disabled |
Virtualization Technology |
Disabled |
Accelerators |
16x NVIDIA® Tesla® T4 GPUs |
Parabricks |
v3.0.0.05 |
Два коммутатора Z9100-ON обеспечивают связь между вычислительным узлом и кластером хранения Isilon F800. Для управления используется дополнительный коммутатор N2248X-ON.
Данные NGS
Данные для сравнительного вторичного анализа состояли из трех наборов данных полногеномного секвенирования человека (WGS): ERR091571, SRR3124837
и ERR194161
, представляющих 10-кратный, 30-кратный и 50-кратный охват выборки соответственно. Эти наборы данных доступны в Европейском нуклеотидном архиве (ENA).
Оценка производительности
Усовершенствования программного обеспечения сокращают время выполнения.
NVIDIA продолжает внедрять улучшения ПО для NVIDIA Clara Parabricks. На рис. 2 показано сокращение времени выполнения между двумя версиями Parabricks запуск конвейера Germline с помощью сервера Dell PowerEdge C4140 с 4 графическими процессорами V100 в тестовой среде. Переход с версии 2.1.0 на версию 3.0.0 сократил время выполнения на 42%.
Рис. 2. Последняя версия варианта зародышевой линии Parabricks, вызывающего среду выполнения конвейера.
Производительность DSS 8440 с 16 процессорами T4S
Среда выполнения для NVIDIA Clara Parabricks Вторичный анализ с использованием одного графического процессора T4 примерно на 30% медленнее, чем с использованием одного графического процессора V100. Однако 2 (два) графических процессора T4 обеспечивают примерно на 10% больше TFLOPS, чем 1 (один) графический процессор V100 при примерно вдвое меньшей стоимости. DSS 8440 поддерживает до 16 слотов PCIe, что открывает возможность разработки сервера на базе графического процессора T4, который обеспечивает производительность, аналогичную производительности системы C4140 с четырьмя графическими процессорами V100, но при более низкой стоимости.
Тем Parabricks Анализ зародышевой линии был выполнен с использованием сервера PowerEdge DSS 8440 с 16 графическими процессорами T4. Для каждого примера набора данных WGS, описанного ранее, время выполнения было записано с использованием 1, 2, 4, 8 и 16 графических процессоров T4 для каждого вторичного анализа. Результаты представлены на рисунках с 3 по 5. В целом, время выполнения не масштабируется линейно по мере увеличения количества графических процессоров на анализ. Шаблон масштабирования аналогичен покрытию объема данных на образец, которое увеличивается с 10x до 50x.
Более раннее исследование Dell EMC, хотя и не представленное здесь, Parabricks Результаты выполнения с использованием восьми или более графических процессоров V100 на анализ масштабировались не так эффективно, как графические процессоры T4. Дополнительное тестирование показало, что 6 графических процессоров T4 обеспечивают практически идентичные результаты по времени работы 4 графических процессора V100.
Рис. 3. Сравнение производительности с 10x WGS
Рис. 4. Сравнение производительности с 30x WGS
Рис. 5. Сравнение производительности с 50x WGS
Заключение
DSS 8440 с шестнадцатью графическими процессорами T4 может обрабатывать тридцать 50-кратных человеческих геномов в день. Для выполнения аналогичного ежедневного анализа пропускной способности при использовании традиционной архитектуры ЦП x86 потребуется десять вычислительных узлов PowerEdge C6420. Полная архитектура рассматривается в документе Готовое решение Dell для высокопроизводительных вычислений в сфере медико-биологических наук. Тестирование пропускной способности конвейера BWA-GATK с процессором Cascade Lake и обновлением Lustre ME4.
Однако выделение всех 16 графических процессоров T4 на обработку одного образца дает мало преимуществ, поскольку использование 16 графических процессоров на анализ в лучшем случае на 10% быстрее, чем использование 8 графических процессоров. Конструкция DSS 8440 допускает параллельное выполнение нескольких вторичных анализов. За счет назначения восьми графических процессоров T4 на образец производительность ежедневного анализа увеличивается примерно до 50 геномов в день. Использование четырех графических процессоров на образец увеличивает пропускную способность анализа до ~70 геномов в день. Более важно то, что этот ежедневный вывод с использованием графических процессоров T4 дешевле, чем использование графического процессора V100.
Помимо ускорения, для обеспечения сопоставимости результатов необходимо обеспечить совместимость с другими инструментами анализа. Переменная Parabricks Результаты анализа зародышевой линии практически идентичны хорошо известному анализу гаплотипов BWA-GATK из предыдущего тестирования. Мы также хотели сравнить результаты вызова варианта Parabricks с другими наборами инструментов, такими как samtools/mpileup. Эти два различных инструмента достигают ~90% общего согласия для идентифицированных вариантов, а вариации во многих хорошо известных областях генома, содержащих важные гены, совпадают более чем на 99%.