Omitir para ir al contenido principal
  • Hacer pedidos rápida y fácilmente
  • Ver pedidos y realizar seguimiento al estado del envío
  • Cree y acceda a una lista de sus productos
  • Administre sus sitios, productos y contactos de nivel de producto de Dell EMC con Administración de la empresa.

Готовое решение Dell EMC для медико-биологических наук, в которые применяются технологии HPC: Тесты пропускной способности канала BWA-GATK с использованием ЦП Cascade Lake и обновления Lustre ME4

Resumen: Готовое решение Dell EMC для медико-биологических наук, в которые применяются технологии HPC: Тесты пропускной способности канала BWA-GATK с использованием ЦП Cascade Lake и обновления Lustre ME4 ...

Es posible que este artículo se traduzca automáticamente. Si tiene comentarios sobre su calidad, háganoslo saber mediante el formulario en la parte inferior de esta página.

Contenido del artículo


Síntomas

Конфигурация с 64 вычислительными узлами готовых решений Dell EMC для медико-биологических наук, в которые применяются технологии HPC, может обрабатывать 194 генома в день (глубина охвата в 50 раз).

Обзор

Вызов вариантовЭта гиперссылка позволяет перейти на сайт за пределами Dell Technologies. — это процесс, по которому мы определяем варианты из данных последовательности. Этот процесс помогает определить, существуют ли отдельные нуклеоцидные полиморфизмы (SNP), вставки и удаления (indels) и структурные варианты (SV) в заданном положении в индивидуальном геноме или трансивере. Основная цель выявления вариантов генома — это связь с заболеваниями человека. Хотя не все человеческие заболевания связаны с геномами, вызовы вариантов могут предоставить ценное руководство для специалистов по генетической диагностике, работающих с определенными заболеваниями, вызванными генетической изменениями. BWA-GATK — это один из вычислительных инструментов следующего поколения секвенирования (NGS), предназначенных для выявления геномных и соматических транзакций из данных ngS, созданных человеком. Существует несколько инструментов идентификации вариантов, и мы понимаем, что не существует одного идеального инструмента (1). Однако мы выбрали вариант GATK, который является одним из самых популярных инструментов для сравнительной оценки, чтобы продемонстрировать, насколько эффективно готовые решения Dell EMC для медико-биологических наук, в которых применяются технологии HPC, могут обрабатывать сложные и масштабные рабочие нагрузки NGS. 
Цель данного блога — предоставить ценную информацию о производительности процессора Intel® Xeon® Gold 6248 для эталонного теста конвейера BWA-GATK с готовыми решениями Dell EMC для СХД Lustre с применением HPC (обновление серии ME4) (2). При использовании технологии Hyper-Threading процессор Xeon® Gold 6248 имеет 20 физических или 40 логических ядер. Тестовая конфигурация кластера приведена в табл. 1.

Таблица 1. Протестированная конфигурация вычислительного узла
 
Dell EMC PowerEdge C6420
ЦП 2 20-ядерных процессора Xeon® Gold 6248, 2,5 ГГц (Cascade Lake)
ОЗУ 12 по 16 Гбайт при 2933 MTp
ОС RHEL 7.6
Соединение Путь Intel® Omni-Path
Системный профиль BIOS Оптимизация производительности
Логический процессор Disabled
Технология виртуализации Disabled
BWA 0,7.15-r1140
Самтулс (Samtools) 1.6
GATK 3.6-0-g89b7209

Протестированные вычислительные узлы были подключены к готовым решениям Dell EMC для хранилищ Lustre для высокопроизводительных вычислений с помощью intel® Omni-Path. Сводная конфигурация хранилища приведена в Табл. 2.
Таблица 2. Технические характеристики аппаратного и программного обеспечения решения
 
Готовое решение Dell EMC для СХД Lustre
Количество узлов 1 сервер Dell EMC PowerEdge R640 в качестве интегрированного диспетчера для Lustre (IML)
2 сервера Dell EMC PowerEdge R740 в качестве сервера метаданных (MDS),
2 сервера Dell EMC PowerEdge R740 в качестве сервера объектного хранения данных (OSS)
Процессоры Сервер IML: Два сервера Intel Xeon Gold 5118 с частотой 2,3
ГГц, MDS и OSS: Два процессора Intel Xeon Gold 6136, 3 ГГц
Модули Сервер IML: 12 серверов DDR4 RDIMM
MDS и OSS, 8 Гбайт, 2666 МТ/с: 24 модуля RDIMM DDR4, 16 ГиБ, 2666 МТ/с
Внешние контроллеры
СХД
2 HBA-адапта SAS Dell 12 Гбит/с (на каждом MDS)
4 HBA-адапта SAS Dell 12 Гбит/с (в каждой ОС)
Полки объектных
СХД
4 x ME4084 с 336 жесткими дисками SAS NL 8 Тбайт, 7200 об/мин
Шасси системы хранения метаданных
1 массив ME4024 с 24 твердотельных накопителями SAS емкостью 960 Гбайт. Поддержка до 4,68 индексных дескрипторов B
RAID-контроллеры Дуплексные RAID-контроллеры SAS в корпусах ME4084 и ME4024
Операционная система CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64
Версия BIOS 1.4.5
Версия Intel Omni-Path
IFS
10.8.0.0
Версия файловой системы
Lustre
2.10.4
Версия IML 4.0.7.0

Тестовые данные были выбраны из одного из геномов Platinum от Илюмины. ERR194161 2000 г. была обработана и получена от EmBL-EBI. Идентификатор ДНК этого человека — NA12878. Описание данных с связанного веб-сайта >показывает, что эта выборка имеет глубину охвата в 30 раз.

Оценка производительности

Производительность одного примера с несколькими узлами

На рис. 1 представлена сводка времени выполнения в различных образцах и вычислительных узлах с данными о секвенированием всего генома (WGS) в 50 раз. Тесты, которые выполняются здесь, призваны продемонстрировать производительность на уровне сервера, а не для сравнения отдельных компонентов. Точки данных на рис. 1 рассчитываются на основе общего количества выборок, по одной выборке на вычислительный узел (по оси X на рисунке), обрабатываемого параллельно. Подробные сведения о канале продаж BWA-GATK можно получить на веб-сайте Broad Institute (3). Максимальное количество вычислительных узлов, используемых для тестирования, составляет 64X C6420s. Системы C6420 с Lustre ME4 обеспечивают более эффективное масштабирование по сравнению с Lustre MD3.

  Сравнение производительности lustre MD3 и Lustre ME4
Рис. 1. Сравнение производительности lustre MD3 и Lustre ME4

Производительность нескольких примеров нескольких узлов

Типичный способ запуска канала NGS — запустить несколько выборок на вычислительном узле и использовать несколько вычислительных узлов для максимального увеличения пропускной способности процесса передачи данных NGS. Количество вычислительных узлов, используемых для тестирования, составляет 64 вычислительных узла C6420, а выборки на узел — пять выборок. До 320 выборок обрабатываются одновременно, чтобы оценить максимальное количество геномов в день без сбоя задания.
Как показано на рис. 2, один вычислительный узел C6420 может обрабатывать 3,24 из 50 геномов всего человека в день при параллельной обработке 5 образцов. Для каждого образца выделяются 7 ядер и 30 Гбайт памяти. 

  Тесты пропускной способности до 64 C6420 и Lustre ME4
Рис. 2. Тесты пропускной способности до 64 C6420 и Lustre ME4

320 из 50 геномов всего человека можно обрабатывать с помощью 64 вычислительных узлов C6420 за 40 часов.  Другими словами, производительность тестовой конфигурации определяется как 194 генома в день для всего генома человека с глубиной охвата в 50 раз.

Заключение

По мере постоянного увеличения объемов данных ВГГ. Текущий средний размер WGS составляет 50 раз. Это в 5 раз больше, чем в типичной WGS 4 года назад, когда мы начали эталонную оценку конвейера BWA-GATK. Увеличение объемов данных не приводит к увеличению емкости на стороне хранилища, поскольку большинство приложений в конвейере также привязаны к тактовой частоте ЦП. Таким образом, в связи с ростом объема данных канал работает дольше, чем создает больше операций записи.
Тем не менее, во время этого процесса создается больше временных файлов, поскольку требуется параллелизм большего количества данных, и это увеличенное количество временных файлов, открытых одновременно, ограничивает открытость файлов в операционной системе Linux. Одно из приложений не может завершиться автоматически, нажимая на ограничение количества открытых файлов. Простое решение — увеличить ограничение до >150 000. 
Тем не менее, ready solution with Lustre ME4 as a scratch space имеет более высокую пропускную способность, чем предыдущая версия. Теперь 64 узла Ready Solution отмечают 194 генома в день вычислительной мощности для 50 рабочих нагрузок WGS.

Ресурсы 

1. Исследование инструментов для анализа вариантов данных секвенации генома следующего поколения. Пбайбer S, Dock A, Fischer M, Snajder R, Sperk M, Efremova M, Krabichler B, Speicher MR, Zschocke J,Janjanoski Z. 2, s.l. : Краткий обзор bioinform, 15 марта 2014 г. (2). 10.1093/bib/bbs086.
2. Готовое решение Dell EMC для хранилищ Lustre для высокопроизводительных вычислений.  (Статья больше недоступна для справки, ее извлекли специалисты по HPC-решениям)
3. Набор инструментов для анализа генома. https://software.broadinstitute.org/gatk/ Эта гиперссылка позволяет перейти на сайт за пределами Dell Technologies.

Propiedades del artículo


Producto comprometido

ME Series, Dell EMC Ready Solution Resources, PowerEdge C6420, Dell EMC PowerVault ME4024, Dell EMC PowerVault ME4084, Red Hat Enterprise Linux Version 7

Fecha de la última publicación

11 ene 2024

Versión

6

Tipo de artículo

Solution