Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

Готовые решения Dell EMC для хранилищ большой емкости НРС BeeGFS

Summary: Dell EMC готовые решения для хранения данных с высокой емкостью HPC Бигфс — это полностью поддерживаемое решение для хранения данных на основе параллельных файловых систем с высокой пропускной способностью. Эта архитектура выделена производительность, и описанное здесь решение представляет собой решение для хранения данных с высокой емкостью. Эти два решения для Бигфс отличаются в зависимости от целей проектирования и сценариев использования. Высокопроизводительное решение разрабатывается как решение для хранения данных с возможностью «горячей» готовности. Промежуточная заземление для временных наборов данных, которые обычно не сохраняются дольше, чем время существования задачи. В решении для высокой емкости используются массивы Dell EMC PowerVault ME4084, полностью заполненные с общим количеством дисков 336, а также неформатированная емкость 4PB, если она оснащена дисками емкостью 12 ТБАЙТ SAS. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Symptoms

Эта статья была написана с помощью Нирмала Сундараражан, HPC и AI инновации, 2020 апреля

Cause


Содержание:

  1. Введение
  2. Эталонная архитектура решения
  3. Конфигурация аппаратного и программного обеспечения
  4. Сведения о конфигурации решения
  5. Оценка производительности
  6. Заключение и дальнейшие работы

 

Введение

Dell EMC готовые решения для хранения данных с высокой емкостью HPC Бигфс — это полностью поддерживаемое решение для хранения данных на основе параллельных файловых систем с высокой пропускной способностью. В этом блоге обсуждается архитектура решения, ее настройка для обеспечения производительности HPC и обеспечивается производительность ввода-вывода, используя как последовательные, так и случайные показатели производительности Иозоне. Бигфс высокопроизводительное решение для хранения данных, созданное на устройствах NVMe, было описано в этом блоге, опубликованном в ноя 2019. Эта архитектура выделена с учетом производительности, и в этом решении описано решение для хранения данных с высокой емкостью.  Эти два решения для Бигфс отличаются в зависимости от целей проектирования и сценариев использования.  Высокопроизводительное решение разрабатывается как решение для хранения данных с возможностью «горячей» готовности. Промежуточная заземление для временных наборов данных, которые обычно не сохраняются дольше, чем время существования задачи. В решении для высокой емкости используются массивы Dell EMC PowerVault ME4084, полностью заполненные с общим количеством дисков 336, а также неформатированная емкость 4PB, если она оснащена дисками емкостью 12 ТБАЙТ SAS. 


В начало


Resolution

Эталонная архитектура решения

Dell EMC готового решения для хранения данных с высокой емкостью HPC Бигфс состоит из сервера управления, пары серверов метаданных, пары серверов хранения данных и связанных с ними массивов хранения данных. Решение предоставляет ресурсы хранения, в которых используется одно пространство имен, доступ к которому можно получить с вычислительных узлов кластера. На следующем рисунке показана Эталонная архитектура решения с помощью следующих основных компонентов:

  • Сервер управления
  • Пара серверов метаданных с PowerVault ME4024 в качестве внутренних ресурсов хранения
  • Пара Storage Server с PowerVault ME4084 в качестве внутренних ресурсов хранения

На рис. 1 показана Эталонная архитектура решения.

SLN320833_en_US__1image001

Рис. 1. Dell EMC готового решения для системы хранения

HPC бигфс На рис. 1 сервер управления с запущенным демоном Бигфс мониторинга — это PowerEdgeный R640.   Два сервера метаданных (MDS) PowerEdge серверами R740 в активной конфигурации высокой доступности в режиме «активный-активный».  Пара MDS подключена к контроллеру 2U, PowerVault массив ME4024 на 12 Гбит/с SAS ссылок. В массиве хранения данных ME4024 размещаются целевые метаданные (МДТС). Еще одна пара PowerEdge серверов R740 в режиме высокой доступности в режиме «активный-активный» используется в качестве серверов хранения данных (SS).  Эта пара SS подключена к четырем массивам хранения PowerVault ME4084 с заполнением 12 Гбит/с, с использованием SAS ссылок. Массивы ME4084 поддерживают выбор: 4 ТБАЙТ, 8 ТБАЙТ, 10 ТБАЙТ или 12 ТБАЙТ SAS 7,2 RPM жестких дисков (жесткие диски и хосты для хранения данных (STs) для файловой системы Бигфс. В этом решении используется Mellanox InfiniBand HDR100 для сети Data. Клиенты и серверы подключаются к QM8790ному пограничным разъему высотой 1U Mellanox, который поддерживает до 80 портов HDR100 с помощью переходников с разделителями HDR.


В начало


 

Конфигурация аппаратного и программного обеспечения

 

В следующих таблицах описаны спефиЦиатионс оборудования и версии программного обеспечения, проверенные для решения.

Сервер управления 2 сервера Dell PowerEdge R640
Серверы метаданных (MDS) 2 сервера Dell PowerEdge R740
Серверы хранения данных (SS) 2 сервера Dell PowerEdge R740
Процессор Сервер управления: 2 x Intel Xeon Gold 5218 @ 2.3 ГГц, 16 ядер
MDS и SS: 2 процессора Intel Xeon Gold 6230 @ 2,10 ГГц, 20 ядер
Модули Сервер управления: 12 модулей DIMM DDR4 2666MT/с, 12 Гбайт — 96 Гбайт
MDS и SS: 12x 32 Гбайт DDR4 2933MT/с DIMM-384GB
InfiniBand HCA (слот 8) 1 адаптер HDR100 ConnectX-6 с одним портом для на MDS и SS Mellanox
Внешние контроллеры хранилища данных 2x Dell 12Gbps SAS HBA (на каждой из MDS)
Dell 12Gbps SAS HBA (на каждом SS)
Полка для хранения данных Dell EMC PowerVaultные полки ME4084 полностью заполнены дисками 336
2,69 Pb с неформатированной емкостью, если она оснащена 8 тбайт SASными дисками в 4X ME4084
Дисковая полка метаданных 1x Dell EMC PowerVault ME4024, полностью заполнен 24 дисками
RAID-контроллеры Дуплексные контроллеры RAID в корпусах ME4084 и ME4024
Жесткие диски 84-8 ТБАЙТ 7200 RPM NL SAS3 Drives в полке ME4084
24 — 960 Гбайт SAS3 твердотельных накопителей в ME4024 полке
Операционная система CentOS Linux Release 8.1.1911 (основные компоненты)
Версия ядра 4.18.0-147.5.1. EL8 _1. x86_64
Mellanox OFEDная версия 4.7-3.2.9.0
графана 6.6.2-1
инфлуксдб 1.7.10-1
ФАЙЛОВАЯ СИСТЕМА BeeGFS 7,2 бета

Таблица 1. Конфигурация опытного образца

Примечание. Для целей производительности использовался Бигфс версии 7,2 2.


В начало


 

Сведения о конфигурации решения

 

Архитектура бигфс состоит из четырех основных сервисов.

  1. Услуга по управлению
  2. Служба метаданных
  3. Услуга хранения
  4. Обслуживание клиентов

Кроме того, предоставляется дополнительная услуга мониторинга Бигфс.

За исключением обслуживания клиентов, которые являются модулем ядра, управление, метаданные и службы хранения являются процессами пространства пользователей. На одних и тех же компьютерах можно выполнить любую комбинацию сервисов Бигфс (для клиентских и серверных компонентов) одновременно. Кроме того, можно запустить несколько экземпляров любой службы Бигфс на одном и том же компьютере. В Dell EMC конфигурации высокой емкости Бигфс служба мониторинга работает на сервере управления, несколько экземпляров службы метаданных выполняются на серверах метаданных и один экземпляр службы хранения данных работает на серверах хранения данных. Служба управления установлена на серверах метаданных.  

Сервис мониторинга

Сервис Бигфс Monitoring Service (бигфс-пн. Услуга) собирает бигфс статистику и предоставляет их пользователю с помощью базы данных временных рядов инфлуксдб.   Для визуализации данных бигфс-Пн-графана предоставляет предопределенные панели управления графана , которые можно использовать в качестве заместителя. На рис. 2 приведен общий обзор кластера Бигфс, в котором показано количество сервисов хранения данных и служб метаданных в программе настройки (называемых узлами на панели управления). В нем также перечислены другие доступные представления панели управления и приведены общие сведения о целевых объектах системы хранения.

SLN320833_en_US__2image002 (1)

Рис. 2. Панель управления Графана — обзор Бигфс


В начало


 

Служба метаданных

Массив хранения данных ME4024, используемый для хранения метаданных, полностью заполняется твердотельными дисками емкостью 24X 960 Гбайт. Эти диски настраиваются в группах дисков 12x линейная RAID1 на двух дисках, как показано на рис. 3. Каждая группа RAID1 является целевым ресурсом метаданных.

SLN320833_en_US__3image003

Рис. 3 полностью заполняет массив ME4024 12 МДТС.

В Бигфс каждая служба метаданных обрабатывает только один MDT. Так как существует 12 МДТС, необходимо иметь 12 экземпляров службы метаданных. Каждый из двух серверов метаданных выполняет шесть экземпляров службы метаданных. Конечные объекты метаданных форматируются с помощью файловой системы ext4 (файловые системы ext4 также работают с малыми файлами и небольшими операциями с файлами). Кроме того, Бигфс хранит информацию в расширенных атрибутах и непосредственно в инодес файловой системы, чтобы оптимизировать производительность, обе из них хорошо работают с файловой системой ext4.

К началу статьи


 

Услуга по управлению

Сервис бигфс — это настройка на обоих серверах метаданных. Бигфс, предназначенный для управления в Active Directory, инициализируется в каталоге, который находится в целевом метаданных 1, как показано ниже.

/ОПТ/бигфс/сбин/бигфс-сетуп-мгмтд-p/beegfs/metaA-numa0-1/mgmtd-S бигфс-управление

Служба управления запускается на сервере метасети.
 

В начало


 

Услуга хранения

В этом решении с высокой емкостью Бигфс система хранения данных находится в четырех массивах хранения PowerVault ME4084. Линейные группы RAID-6 из 10 дисков (8 + 2), каждый из которых создается каждым массивом. Один том, использующий все пространство, создается для каждой группы дисков. Это приведет к тому, что для массива будут восемь групп дисков или томов. Каждый массив имеет 84 дисков и создает 8 дисковых групп RAID-6 дисков, которые могут быть настроены в качестве глобальных дисков «горячего» резерва в томах массива.

В соответствии с макетом, описанным выше, в базовой конфигурации, показанной на рис. 1, имеется 32 x RAID-6 томов по 4 x ME4084. Каждый из этих томов RAID-6 настроен в качестве целевого ресурса хранения данных для файловой системы Бигфс, что приводит к общему количеству STs 32 в файловой системе.

Каждый массив ME4084 имеет 84 накопителей, с дисками пронумерованы 0-41 в верхнем ящике и пронумерованными 42-84 в нижнем ящике.  На рис. 5 каждый набор из 10 дисков с пометкой от 1 до 8 представляет группу 8xRAID6. Создается один том из каждой группы RAID6. Диски, отмеченные символами «S», представляют собой глобальные резервные диски. На рис. 5 показан вид массива спереди после конфигурации 8 томов и 4 глобальных резервных копий.

SLN320833_en_US__4image004

Рис. 4 Разметка дисковой группы RAID 6 (8 + 2) на одном ME4084 


В начало


 

Обслуживание клиентов

Клиентский модуль Бигфс загружается для всех хостов, которым требуется доступ к файловой системе Бигфс. После загрузки модуля Бигфс и запуска службы бигфс-Client служба монтирует файловые системы, определенные в файле/etc/бигфс/бигфс-Маунтс. conf вместо обычного подхода, основанного на /ЕТК/фстаб.  Благодаря такому подходу бигфс-Client начинает действовать как любая другая услуга Linux в сценарии запуска службы и позволяет автоматически перекомпилировать клиентский модуль бигфс после обновления системы.


В начало


 

Оценка производительности

 

В этом разделе описываются характеристики производительности Dell EMC готовых решений для решения хранения данных HPC Бигфс с высокой емкостью, используя последовательные и случайные показатели производительности Иозоне.  Чтобы получить более подробную информацию о производительности, используя ИОР и Мдтест, а также подробную информацию о конфигурации высокой доступности, выполните поиск белого документа, который будет опубликован позже.

Производительность системы хранения данных была оценена с помощью Иозоне Performance (v 3.487). Измеряются последовательная пропускная способность при чтении и записи, а также измеренные случайные IOPS чтения и записи. В табл. 2 приведена PowerEdge конфигурация серверов R840, используемых в качестве клиентов Бигфс для этих исследований производительности.

Компьютеры 2 сервера Dell PowerEdge R840
Процессор 4 x Intel (R) Xeon (R) Platinum 8260 CPU @ 2,40 ГГц, 24 ядра
Модули 24 порта DIMM 16 Гбит/с, DDR4 2933MT/с — 384GB
Операционная система Red Hat Enterprise Linux Server выпуск 7.4 (Maipo)
Версия ядра 3.10.0-957.el7.x86_64
Соединение 1 адаптер HDR100 ConnectX-6 с одним портом Mellanox
Версия OFED 4.7-3.2.9.0

Таблица 2 Конфигурация клиента

Серверы и клиенты подключаются к сети HDR100 и сведения о сети, приведенные в табл. 3 ниже.  

Переключатель «InfiniBand» QM8790 Mellanoxного периметра для тактовой задержки-IU с портами 80x 100 100 Гбайт/с с помощью кабелей кабеля (с кабелями с разделением)
Коммутатор управления Dell Networking S3048-ON ToR Switch с 48x 1GbE, портами 4X SFP + 10GbE

Таблица 3. Сетевое оборудование
 

В начало

 


 

Последовательные операции чтения и записи N-N

Последовательные операции чтения и записи измерены, используя последовательный режим чтения и записи Иозоне. Эти тесты проводились на множестве потоков, начиная с 1 потока и далее по степеням числа 2, вплоть до 512 потоков. При каждом подсчете потоков было создано одинаковое количество файлов, поскольку этот тест работает с одним файлом на поток или с N-N. Процессы были распределены между 8 физическими клиентскими узлами в циклической нагрузке, благодаря чему запросы были настолько же распределены с балансировкой нагрузки.

Для подсчета количества потоков 16 и выше для минимизации воздействия кэширования с серверов и клиентов Бигфс было выбрано значение «количество потоков», равное 16, и размер агрегированных файлов. Для счетчиков ниже 16 Размер файла составляет 768 Гбайт на поток (т. е. 1,5 ТБАЙТ для 2 потоков, 3 ТБАЙТ для 4 потоков и 6 ТБАЙТ для 8 потоков). В любом заданном тесте использованный размер совокупного размера файлов был одинаковым для нескольких потоков. Размер записи 1MiB использовался для всех запусков. Ниже приведена команда, используемая для последовательных тестов N-N.

Последовательные операции записи и чтения: иозоне-i $test-c-e-w-r 1M-s $Size-t $Thread-+ n-+ m/Пас/то/среадлист


Кэш-память операционной системы также удалена на серверах между итерациями, а также между проверками записи и чтения путем выполнения команды.

# Sync & & Echo 3 >/прок/СИС/ВМ/drop_caches


Файловая система была отключена и повторно смонтирована на клиентах между итерациями и между проверками записи и чтения для очистки кэш-памяти.

 

SLN320833_en_US__5image005

Рис. 5. Производительность последовательного чтения N-N

На рис. 5 Пиковая пропускная способность 23,70 ГБИТ/с достигнута в потоках 256, а пиковая запись составляет 22,07 Гбайт/с, достигнутую в 512 потоки. Производительность записи в одном потоке составляет 623 МБАЙТ/с и Прочитано 717 МБ/с. Производительность увеличивается в линейном масштабировании до 32 потоков. После этого мы видим, что при масштабировании будут прочитаны и записаны насыщенные загрузки. Благодаря этому мы понимаем, что общая постоянная производительность этой конфигурации для операций чтения — ≈ 23GB/s, а для операций записи — ≈ 22GB/с с пиковыми нагрузками, как описано выше. Операции чтения очень близки или немного выше операций записи, независимо от количества используемых потоков.


В начало


 

Случайные операции чтения и записи N-N

Иозоне использовался в режиме Random для оценки произвольной производительности операций ввода-вывода.  Тесты выполнялись на количество потоков от 16 до 512.  Параметр Direct IO (-I) использовался для запуска Иозоне, чтобы все операции обходили буферную кэш-память и приходились непосредственно к диску. Используется количество полосок Бигфс и размер блока 1 МБАЙТ. Для параметра «размер запроса» было выбрано значение «4KiB». Производительность измеряется в операциях ввода-вывода в секунду (IOPS). Кэш-память операционной системы была удалена между запусками на серверах Бигфс. Файловая система была отключена и повторно смонтирована на клиентах между итерациями теста. Для произвольных тестов чтения и записи используется следующая команда:

иозоне-i 2-w-c-O-I-r 4000-s $Size-t $Thread-+ n-+ m/Пас/то/среадлист

SLN320833_en_US__6image006

Рис. 6n-N произвольная производительность

На рис. 6 показано, что производительность записи достигается вокруг 31K IOPS и остается стабильной от 32 потоков до 512. В отличие от этого, производительность при чтении увеличивается с увеличением количества запросов ввода-вывода с максимальной производительностью вокруг 47K 512 IOPS, что представляет собой максимальное количество потоков, протестированных для решения. Для ME4 требуется более высокая глубина очереди, чтобы обеспечить максимальную производительность чтения, и график указывает на то, что мы сможем повысить производительность при выполнении параллельных потоков 1024. Тем не менее, поскольку тесты выполнялись только с 8 клиентами, у нас недостаточно ядер для запуска числа потоков 1024.


К началу статьи


 

Используемые параметры настройки

При выполнении анализа производительности решения были выделены следующие параметры настройки.

Количество полосок по умолчанию для Бигфс — 4. Однако размер фрагмента и количество целевых объектов на файл (Стипе Count) можно настроить для каждого каталога или для каждого файла. Для всех этих тестов установлен размер блока Бигфс, равный 1 МБАЙТ, а для счетчика чередования было выбрано 1, как показано ниже:

$beegfs-CTL--жетентринфо--Mount =/МНТ/бигфс//МНТ/бигфс/бенчмарк/--verbose
Тип записи: идентификатор
EntryID каталога: 1-5E72FAD3-1
ParentID: корневой
узел метаданных: meta-numa0-1 [ID: 1]
сведения о схеме чередования:
+ Тип: RAID0
+ чунксизе: 1м
+ Количество целевых объектов хранения: требуется: 1
+ Пул хранения данных: 1 (по умолчанию)
: индексного узла хэш-путь: 61/4C/1-5E72FAD3-1

Прозрачные огромные страницы были отключены, и на серверах метаданных и хранения данных настроены следующие параметры виртуальной памяти:

  • vm.dirty_background_ratio = 5
  • vm.dirty_ratio = 20
  • vm.min_free_kbytes = 262144
  • vm.vfs_cache_pressure = 50

Для блочных устройств хранения данных на серверах хранения данных использовались следующие параметры настройки.

  • Срок действия планировщика операций ввода-вывода: крайний срок
  • Количество планируемых запросов: 2048.
  • Максимальный объем данных, прочитанных с опережением: 4096

В дополнение к вышеуказанным параметрам настройки использовались указанные ниже параметры Бигфс.
 
бигфс — meta. conf

коннмаксинтерноденум = 64
туненумворкерс = 12

тунеусеперусермсгкуеуес = true # Optional
тунетаржетчусер = раундробин (тестирование производительности)

бигфс — Storage. conf

Коннмаксинтерноденум = 64
туненумворкерс = 12
тунеусепертаржетворкерс = true
тунеусеперусермсгкуеуес = true # Optional
tuneBindToNumaZone = 0
tuneFileReadAheadSize = 2 МБ

бигфс-Client. conf

Коннмаксинтерноденум = 24
коннбуфсизе = 720896


В начало


 

Заключение и дальнейшие работы

 

Этот блог объявляет о выпуске решения для хранения Dell EMC Бигфс с высокой емкостью и выделяет его характеристики производительности. Это решение обеспечивает пиковую производительность 23,7 Гбайт/с для операций чтения и 22,1 Гбайт операций записи с помощью последовательных тестов Иозоне. Мы также видим Пиковый объем произвольных операций записи в 31.3 IOPS и произвольные операции чтения на 47,5 K IOPS.

В ходе следующих шагов мы планируем оценить производительность метаданных и N потоков в одном файле (с N до 1), ИОР производительность этого решения. В Белой книге описываются метаданные и производительность ИОР решения с дополнительными сведениями о требованиях к проектированию для этого решения с высокой емкостью с высокой доступностью, которые должны быть опубликованы после завершения процесса проверки и оценки.


В начало


Article Properties


Affected Product

High Performance Computing Solution Resources

Last Published Date

27 Apr 2021

Version

5

Article Type

Solution