Dell EMC Ready Solution для НРС в области медико-биологических наук. Тесты пропускной способности методики BWA–GATK с ЦП Cascade Lake и обновлением Lustre ME4

Summary: Архивирование в виде статьи основано на документации по HPC, которая больше не размещена в Интернете, и статью нельзя отредактировать, чтобы она соответствовала ожиданиям базы знаний Готовое решение Dell EMC для HPC медико-биологических наук: Тесты пропускной способности методики BWA–GATK с ЦП Cascade Lake и обновлением Lustre ME4 ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Конфигурация с 64 вычислительными узлами решений Dell EMC Ready Solutions для HPC медико-биологических наук может обрабатывать 194 генома в день (в 50 раз больше глубины покрытия).

Обзор

ВызовЭта гиперссылка позволяет перейти на сайт за пределами Dell Technologies. варианта — это процесс, с помощью которого мы идентифицируем варианты из данных последовательностей. Этот процесс помогает определить, существуют ли однонуклеотидные полиморфизмы (SNP), вставки и делеции (индели) и/или структурные варианты (SV) в данной позиции в отдельном геноме или транскриптоме. Основной целью выявления геномных вариаций является связь с заболеваниями человека. Несмотря на то, что не все заболевания человека связаны с генетическими вариациями, вызов вариантов может стать ценным ориентиром для генетиков, работающих над конкретным заболеванием, вызванным генетическими вариациями. BWA-GATK — это один из вычислительных инструментов секвенирования нового поколения (NGS), предназначенных для выявления зародышевых и соматических мутаций по данным NGS человека. Существует несколько инструментов идентификации вариантов, и мы понимаем, что нет ни одного инструмента, который работал бы идеально (1). Однако в качестве средства сравнительной оценки мы выбрали GATK, который является одним из самых популярных инструментов, чтобы продемонстрировать, насколько хорошо готовые решения Dell EMC для HPC медико-биологических наук могут обрабатывать сложные и масштабные рабочие нагрузки NGS. 
Цель этого блога — предоставить ценную информацию о производительности процессора Intel® Xeon® Gold 6248 для эталонного тестирования конвейера BWA-GATK с помощью решений Dell EMC Ready Solutions для хранилища данных HPC Lustre (обновление серии ME4) (2). Процессор Xeon® Gold 6248 имеет 20 физических ядер или 40 логических ядер при использовании технологии Hyper-Threading. Конфигурации тестовых кластеров приведены в Таблице 1.

Таблица 1. Протестированная конфигурация вычислительного узла
 
Dell EMC PowerEdge C6420
ЦП 2 процессора Xeon® Gold 6248, 20 ядер, 2,5 ГГц (Cascade Lake)
RAM 12 модулей памяти емкостью 16 Гбайт при 2933 млн транзакций в секунду
ОС RHEL 7.6
Соединение Intel® Omni-Path
Системный профиль BIOS Оптимизация производительности
Логический процессор Disabled
Технология виртуализации Disabled
БДЖ 0.7.15 — Р1140
Самтулс 1.6
ГАТК 3.6-0-Г89Б7209

Протестированные вычислительные узлы были подключены к готовым решениям Dell EMC для хранилища данных HPC Lustre с помощью технологии Intel® Omni-Path. Сводная конфигурация хранилища приведена в Таблице 2.
Таблица 2. Технические характеристики аппаратного и программного обеспечения решения
 
Готовое решение Dell EMC для хранилища Lustre
Количество узлов 1 сервер Dell EMC PowerEdge R640 в качестве интегрированного диспетчера для Lustre (IML)
2 сервера Dell EMC PowerEdge R740 в качестве сервера метаданных (MDS)
2 сервера Dell EMC PowerEdge R740 в качестве сервера объектного хранилища (OSS)
Процессоры Сервер IML. Два Intel Xeon Gold 5118 @ 2.3 ГГц
Серверы MDS и OSS: Два процессора Intel Xeon Gold 6136 на 3,00 ГГц
Память Сервер IML. 12 модулей
DDR4 RDIMM емкостью 8 Гбайт, 2666 млн транзакций в секунду Серверы MDS и OSS: 24 модуля DDR4 RDIMM 16 Гбайт, 2 666 млн транзакций в секунду
Внешние контроллеры системы хранения данных
2 адаптера главной шины Dell SAS 12 Гбит/с (в каждом MDS)
4 адаптера главной шины Dell SAS 12 Гбит/с (в каждом OSS)
Шасси объектных систем хранения
4 накопителя ME4084 с 336 жесткими дисками SAS NL емкостью 8 Тбайт, 7200 об/мин
Шасси хранилища
метаданных
1 накопитель ME4024 с 24 твердотельными накопителями SAS емкостью 960 Гбайт. Поддержка индексных дескрипторов до 4,68 млрд
RAID-контроллеры Дуплексные RAID-контроллеры SAS в полках ME4084 и ME4024
Операционная система CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Версия BIOS 1.4.5
Версия Intel Omni-Path
IFS
10.8.0.0
Версия файловой системы
Lustre
2.10.4
Версия IML 4.0.7.0

Тестовые данные были выбраны из одного из платиновых геномов Illumina. ERR194161 был обработан с помощью Illumina HiSeq 2000, представленного компанией Illumina, и может быть получен от EMBL-EBI. Идентификатором ДНК этого человека является NA12878. Описание данных с веб-сайта, на который дается ссылка, показывает, что этот образец имеет >30-кратную глубину покрытия.

Оценка производительности

Производительность одного образца нескольких узлов

На рисунке 1 показана сумма времени выполнения в различных образцах и вычислительных узлах с 50-кратным полногеномным секвенированием (WGS). Проводимые здесь тесты предназначены для демонстрации производительности на уровне сервера, а не для сравнения отдельных компонентов. Точки данных на рисунке 1 вычисляются на основе общего количества выборок, по одной выборке на вычислительный узел (ось X на рисунке), которые обрабатываются одновременно. Подробную информацию о трубопроводе BWA-GATK можно получить на веб-сайте Института Броуда (3). Максимальное количество вычислительных узлов, используемых для тестирования, составляет 64 x C6420. C6420 с Lustre ME4 демонстрируют лучшее поведение при масштабировании, чем Lustre MD3.

 Сравнение производительности Lustre MD3 и Lustre ME4
Рис. 1. Сравнение производительности Lustre MD3 и Lustre ME4

Производительность нескольких образцов нескольких узлов

Типичный способ запуска конвейера NGS заключается в выполнении нескольких выборок на вычислительном узле и использовании нескольких вычислительных узлов для максимального увеличения пропускной способности обработки данных NGS. Для тестов используется 64 вычислительных узла C6420, а количество выборок на узел — 5. До 320 образцов обрабатываются одновременно, чтобы оценить максимальное количество геномов в день без сбоев в работе.
Как показано на рис. 2, один вычислительный узел C6420 может обрабатывать 3,24 из 50 целых геномов человека в день при одновременной обработке 5 образцов. Для каждого образца выделяется 7 ядер и 30 ГБ памяти. 

 Тесты пропускной способности с использованием до 64 C6420 и Lustre ME4
Рис. 2 Тесты пропускной способности с использованием до 64 C6420 и Lustre ME4

320 из 50x целых геномов человека могут быть обработаны с помощью 64 вычислительных узлов C6420 за 40 часов.  Другими словами, производительность тестовой конфигурации составляет 194 генома в день для всего генома человека с 50-кратной глубиной покрытия.

Заключение

Поскольку объем данных WGS постоянно растет. Текущий средний размер WGS составляет 50x. Это в 5 раз больше, чем типичный WGS 4 года назад, когда мы начинали тестировать трубопровод BWA-GATK. Увеличение объема данных не приводит к увеличению емкости на стороне хранилища, поскольку большинство приложений в конвейере также ограничены тактовой частотой ЦП. Таким образом, с увеличением объема данных конвейер выполняется дольше, а не генерирует больше операций записи.
Однако в ходе процесса создается большее количество временных файлов из-за того, что больше данных нужно распараллелить, и это увеличение количества временных файлов, открываемых одновременно, исчерпывает лимит открытых файлов в операционной системе Linux. Одно из приложений не завершается без уведомления о сбое из-за достижения предельного количества открытых файлов. Простое решение — увеличить лимит до >150К. 
Тем не менее, Ready Solution с Lustre ME4 в качестве вспомогательного пространства имеет более высокую пропускную способность, чем предыдущая версия. Теперь 64 узла Ready Solution отмечают вычислительную мощность 194 генома в день для 50x WGS.

Ресурсы 

1. Обзор инструментов для вариантного анализа данных секвенирования генома нового поколения. Пабингер С., Дандер А., Фишер М., Снайдер Р., Шперк М., Ефремова М., Крабихлер Б., Шпайхер М.Р., Цшоке Й., Траяноски З. 2, с.л. . Бриф Биоинформ, март 2014, том 15 (2). 10.1093/нагрудник/bbs086.
2. Готовое решение Dell EMC для хранилищ НРС Lustre.  (Статья больше недоступна для справки, ее получила команда HPC)
3. Набор инструментов для анализа генома. https://software.broadinstitute.org/gatk/Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.

Cause

Архивирование в виде статьи основано на документации по HPC, которая больше не размещена в Интернете, и статью нельзя отредактировать, чтобы она соответствовала ожиданиям базы знаний

Resolution

Архивирование в виде статьи основано на документации по HPC, которая больше не размещена в Интернете, и статью нельзя отредактировать, чтобы она соответствовала ожиданиям базы знаний

Affected Products

Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7
Article Properties
Article Number: 000176939
Article Type: Solution
Last Modified: 25 Sep 2025
Version:  7
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.