Zu den Hauptinhalten
  • Bestellungen schnell und einfach aufgeben
  • Bestellungen anzeigen und den Versandstatus verfolgen
  • Profitieren Sie von exklusiven Prämien und Rabatten für Mitglieder
  • Erstellen Sie eine Liste Ihrer Produkte, auf die Sie jederzeit zugreifen können.
  • Verwalten Sie mit der Unternehmensverwaltung Ihre Dell EMC Seiten, Produkte und produktspezifischen Kontakte.

Готові рішення Dell EMC для високопродуктивного зберігання даних HPC BeeGFS

Zusammenfassung: PowerEdge R740xd, PowerEdge R640, PowerSwitch S3048-ON, Mellanox SB7890, BeeGFS v7.1.3, HPC та AI Innovation Lab, HPC, високопродуктивне рішення для зберігання даних BeeGFS, зона вводу-виводу, послідовне читання та запис, випадкове читання та запис ...

Dieser Artikel wurde möglicherweise automatisch übersetzt. Wenn Sie eine Rückmeldung bezüglich dessen Qualität geben möchten, teilen Sie uns diese über das Formular unten auf dieser Seite mit.

Artikelinhalt


Symptome

Стаття написана Нірмалою Сундарараджан з Dell EMC HPC та AI Innovation Lab у листопаді 2019 року

Ursache

Готові рішення Dell EMC для високопродуктивного зберігання даних HPC BeeGFS

Lösung

Зміст

  1. Введення
  2. Еталонна архітектура рішення
  3. Конфігурація апаратного та програмного забезпечення
  4. Деталі конфігурації рішення
  5. R740xd, 24 диски NVMe, подробиці про відображення процесора
  6. Характеристика продуктивності
  7. Висновок і подальша робота
     

Введення

Команда Dell EMC HPC з гордістю оголошує про випуск «Dell EMC Ready Solutions for HPC BeeGFS Storage», який є останнім доповненням до портфоліо сховищ HPC. У цьому рішенні використовуються сервери R740xd, кожен з яких має 24 флеш-накопичувачі Intel P4600 об'ємом 1,6 ТБ NVMe, Mixed Use Express Flash і два адаптери Mellanox ConnectX-5 InfiniBand EDR. У цій конфігурації з 24 NVMe-накопичувачами 12 твердотільних накопичувачів NVMe підключаються до комутатора PCIe, і кожен комутатор підключається до одного процесора через карту-розширювач x16 PCIe. При цьому кожен інтерфейс IB підключений до одного центрального процесора. Така збалансована конфігурація, коли кожен процесор підключений до одного адаптера InfiniBand і працює з 12 твердотільними накопичувачами NVMe, забезпечує максимальну продуктивність, гарантуючи, що процесори однаково зайняті обробкою запитів введення-виведення на диски NVMe і з них.

Основна увага рішення приділяється високопродуктивному вводу/виводу, і воно було розроблено як високошвидкісне рішення для видалення подряпин.  В основі рішення лежить використання високошвидкісних твердотільних накопичувачів NVMe, які пропонують дуже високу пропускну здатність і низьку затримку, усуваючи планувальник і вузькі місця в черзі з блокового рівня. Файлова система BeeGFS також підтримує високу сукупну пропускну здатність вводу/виводу

Еталонна архітектура рішення

На рисунку 1 показана еталонна архітектура розв'язку. Сервер керування підключається лише через Ethernet до серверів метаданих і зберігання даних. Кожен сервер метаданих і зберігання даних мають два канали InfiniBand і підключені до приватної мережі через Ethernet. Клієнти мають одне з'єднання InfiniBand і підключаються до приватного інтерфейсу через Ethernet.
Готові рішення Dell EMC для зберігання даних HPC BeeGFS - еталонна архітектура
Малюнок 1:  Готові рішення Dell EMC для зберігання даних HPC BeeGFS - еталонна архітектура

Конфігурація апаратного та програмного забезпечення

У таблицях 1 і 2 описано апаратні характеристики сервера керування та сервера метаданих/сховища відповідно. У таблиці 3 описані версії програмного забезпечення, що використовуються для рішення.

 

Таблиця 1 Конфігурація PowerEdge R640 (сервер керування)
Сервер Dell EMC PowerEdge R640
Процесор 2x Intel Xeon Gold 5218 з тактовою частотою 2,3 ГГц, 16 ядер
Пам'ять 12 модулів пам'яті DDR4 DDR4 зі швидкістю 2666 МТ/с - 96 ГБ
Локальні диски 6 жорстких дисків по 300 ГБ 15 К/ХВ SAS 2.5 дюйма
RAID-контролер Вбудований RAID-контролер PERC H740P
Поза управлінням діапазоном iDRAC9 Enterprise з контролером життєвого циклу
Живлення Два блоки живлення потужністю 1100 Вт
Версія BIOS 2.2.11
Операційна система CentOS™ 7.6
Версія ядра 3.10.0-957.27.2.el7.x86_64

 

Таблиця 2 Конфігурація PowerEdge R740xd (сервери метаданих і зберігання даних)
Сервер Dell EMC PowerEdge R740xd
Процесор 2x процесор Intel Xeon Platinum 8268 @ 2.90 ГГц, 24 ядра
Пам'ять 12 модулів пам'яті DDR4 по 32 ГБ пам'яті 2933 МТ/с - 384 ГБ
Картка BOSS 2 твердотільні накопичувачі M.2 SATA ємністю 240 ГБ у RAID 1 для ОС
Локальні диски 24x Dell Express Flash NVMe P4600 1,6 ТБ 2,5" U.2
Картка Mellanox EDR 2x Картка EDR Mellanox ConnectX-5 (слоти 1 і 8)
Поза управлінням діапазоном iDRAC9 Enterprise з контролером життєвого циклу
Живлення Два блоки живлення потужністю 2000 Вт

 

Таблиця 3 Конфігурація програмного забезпечення (сервери метаданих і сховища)
BIOS 2.2.11
CPLD 1.1.3
Операційна система CentOS™ 7.6
Версія ядра 3.10.0-957.el7.x86_64
iDRAC 3.34.34.34
Інструмент управління системами OpenManage Server Administrator 9.3.0-3407_A00
Мелланокс ОФЕД 4.5-1.0.1.0
Твердотільні накопичувачі NVMe QDV1DP13
* Інструмент Intel ® Data Center  3.0.19
BeeGFS 7.1.3
Графіна 6.3.2
InfluxDB 1.7.7
Бенчмарк IOzone 3.487
* Для керування та оновлення вбудованого програмного забезпечення твердотільних накопичувачів Intel P4600NVMe

Деталі конфігурації рішення

Архітектура BeeGFS складається з чотирьох основних сервісів:
  • Послуга управління
  • Сервіс метаданих
  • Послуга зберігання
  • Клієнтський сервіс
За винятком клієнтського сервісу, який є модулем ядра, служби керування, метаданих і зберігання даних є процесами простору користувача. На малюнку 2 показано, як еталонна архітектура Dell EMC Ready Solutions for HPC BeeGFS Storage зіставляється із загальною архітектурою файлової системи BeeGFS.
Файлова система BeeGFS на PowerEdge R740xd з твердотільними накопичувачами NVMe
Малюнок 2:  Файлова система BeeGFS на PowerEdge R740xd з твердотільними накопичувачами NVMe

Послуга управління

Кожна файлова система або простір імен BeeGFS має лише одну службу керування. Служба керування є першою службою, яку потрібно налаштувати, оскільки, коли ми налаштовуємо всі інші служби, їм потрібно зареєструватися у службі керування.  В якості сервера управління використовується PowerEdge R640. Крім розміщення сервісу управління (beegfs-mgmtd.service), на ньому також розміщується служба моніторингу (beegfs-mon.service), яка збирає статистику з системи і надає її користувачеві, використовуючи базу даних часових рядів InfluxDB. Для візуалізації даних beegfs-mon надає попередньо визначені панелі Grafana, які можна використовувати з коробки. Сервер управління має 6 жорстких дисків по 300 ГБ, налаштованих у RAID 10 для операційної системи та InfluxDB.

Сервіс метаданих

Служба метаданих є масштабованою службою, що означає, що у файловій системі BeeGFS може бути багато служб метаданих. Однак кожна служба метаданих має лише одну ціль метаданих для зберігання метаданих.  Для цільових метаданих BeeGFS створює один файл метаданих для кожного файлу, створеного користувачем. Метадані BeeGFS розповсюджуються на основі кожного каталогу. Сервіс метаданих надає клієнтам інформацію про чергування даних і не бере участі в доступі до даних між відкриттям і закриттям файлів.

Для зберігання метаданих використовуються накопичувачі PowerEdge R740xd з 24x Intel P4600 1.6TB NVMe. Оскільки вимоги до ємності сховища для метаданих BeeGFS дуже малі, замість використання виділеного сервера метаданих, лише 12 дисків у зоні NUMA 0 були використані для розміщення MetaData Targets (MDT), тоді як решта 12 дисків на хостах зони NUMA Storage Targets (ST).

На рисунку 3 показано сервер метаданих. 12 дисків, укладених у жовтий прямокутник, є MDT у зоні NUMA 0, тоді як 12 дисків, укладених у зелений прямокутник, є ST у зоні NUMA 1. Ця конфігурація не тільки дозволяє уникнути проблем з NUMA, але й забезпечує достатнє сховище метаданих для полегшення масштабування ємності та продуктивності за потреби.

Сервер метаданих

Малюнок 3:  Сервер метаданих На

рисунку 4 показано конфігурацію RAID сервера метаданих. Він підкреслює, як на сервері метаданих диски в зоні NUMA 0 розміщують MDT, а диски в зоні NUMA 1 розміщують дані зберігання, тоді як сервери зберігання розміщують STs в обох зонах NUMA.

Конфігурація дисків на сервері метаданих

Малюнок 4:  Конфігурація дисків на сервері

метаданих 12 дисків, які використовуються для метаданих, налаштовані як 6 дисків RAID 1 з 2 дисків, кожен з яких виконує функцію MDT. Існує 6 служб метаданих, кожна з яких обробляє один MDT. Решта 12 дисків сконфігуровані в 3 групи дисків RAID 0 по 4 диски в кожній. У зоні NUMA 1 працюють три служби зберігання, по одному сервісу для кожного ST. Таким чином, сервер, на якому розміщені метадані та цілі зберігання, має 6 MDT та 3 ST. Він також запускає 6 служб метаданих і три служби зберігання. Кожен MDT – це файлова система ext4, заснована на конфігурації RAID 1. ST-файли базуються на файловій системі XFS, налаштованій у RAID 0.
 

Послуга зберігання

Як і служба метаданих, служба зберігання даних також є масштабованою службою. У файловій системі BeeGFS може бути багато екземплярів служби зберігання. Однак, на відміну від сервісу метаданих, на одну службу зберігання може бути кілька цілей зберігання.  Служба зберігання зберігає вміст файлів користувача з чергуванням, також відомих як файли

фрагментів даних На малюнку 5 показані 5 серверів PowerEdge R740xd, які використовуються як сервери зберігання даних.
Виділені сервери зберігання даних
Малюнок 5:  Виділені сервери

зберігання даних Кожен сервер зберігання даних має 6 груп RAID 0, кожна з яких має по 4 диски, таким чином, розміщує 6 STs на сервер (3 на зону NUMA), як показано на рисунку 6, наведеному нижче:

Конфігурація дисків на серверах зберігання данихМалюнок 6:  Конфігурація дисків на серверах

зберігання даних Всього в конфігурації базової еталонної архітектури розміщено 6 MDT і 33 ST. Наявність п'яти виділених серверів зберігання даних забезпечує необроблену ємність 211 ТБ і корисну ємність 190 ТБ. Розрахункова корисна ємність у TiB = Кількість дисків x Місткість на диск у ТБ x 0,99 (накладні витрати на файлову систему) x (10^12/2^40). Це було б ідеальним скретч-рішенням середнього класу з достатньою кількістю сховища метаданих, щоб полегшити додавання більшої кількості серверів зберігання в міру зростання вимог до ємності.

З огляду на наступні фактори, конфігурація RAID 0 була обрана для цілей зберігання замість конфігурації RAID 10.
  1. Продуктивність запису вимірювалася за допомогою команди dd шляхом створення файлу розміром 10 Гб блоку 1 МіБ і прямого введення-виведення для даних, для пристроїв RAID 0 середнє значення становило близько 5,1 ГБ/с на кожен пристрій, тоді як для пристроїв RAID 10 середнє значення становило 3,4 ГБ/с на кожен пристрій.
  2. Тести StorageBench показали, що максимальна пропускна здатність становить 5,5 ГБ/с для конфігурації RAID 0, тоді як для конфігурації RAID 10 вона становить 3,4 ГБ/с. Ці результати схожі на ті, що були отримані за допомогою команд dd.
  3. RAID 10 забезпечує 50% використання ємності диска та аналогічне зниження продуктивності запису на 50%. Використання RAID 10 є дорогим способом резервування сховища.
  4. NVMe-диски коштують дорого і пропонують прискорення, яке найкраще використовувати в конфігурації RAID 0
 

Клієнтський сервіс

Клієнтський модуль BeeGFS повинен бути завантажений на всі хости, яким потрібен доступ до файлової системи BeeGFSs. Коли beegfs-client завантажено, він монтує файлові системи, визначені у файлі/etc/beegfs/beegfs-mounts.conf , замість звичайного підходу, заснованого на /etc/fstab.  Застосування цього підходу запускає beegfs-client, як і будь-яку іншу службу Linux, за допомогою сценарію запуску служби. Він також дозволяє автоматично перекомпілювати клієнтський модуль BeeGFS після оновлень системи. 

Коли клієнтський модуль завантажується, він монтує файлові системи, визначені в beegfs-mounts.conf. Можна змонтувати декілька екземплярів beegfs на одному клієнті, як показано нижче:

$ cat /etc/beegfs/beegfs-mounts.conf
/mnt/beegfs-medium /etc/beegfs/beegfs-client-medium.conf
/mnt/beegfs-small /etc/beegfs/beegfs-client-small.conf

У наведеному вище прикладі показані дві різні файлові системи, змонтовані на одному клієнті. Для цього тестування в якості клієнтів було використано 32 вузли C6420.

R740xd, 24 диски NVMe, подробиці про відображення процесора


У конфігурації 24xNVMe сервера PowerEdge R740xd є дві мостові карти x16 NVMe, що живлять комутатор PCIe на задній платі, який відключає вентилятор і живить накопичувачі (диски x4) спереду, як показано на малюнку 7 нижче:


R740xd, 24x NVMe Детальніше про відображення процесораМалюнок 7:  R740xd, 24x NVMe Подробиці про відображення

ЦП У системі нерівномірного доступу до пам'яті (NUMA) системна пам'ять поділяється на зони, які називаються вузлами, які розподіляються між центральними процесорами або сокетами. Доступ до пам'яті, яка є локальною для центрального процесора, швидший, ніж до пам'яті, підключеної до віддалених процесорів у системі. Потоковий застосунок зазвичай працює найкраще, коли потоки звертаються до пам'яті на одному вузлі NUMA. Вплив промахів NUMA на продуктивність є значним, як правило, починаючи з 10% зниження продуктивності або вище. Для підвищення продуктивності сервіси налаштовані на використання певних зон NUMA, щоб уникнути непотрібного використання крос-сокетів UPI, тим самим зменшуючи затримку. Кожна зона NUMA обробляє 12 дисків і використовує один з двох інтерфейсів InfiniBand EDR на серверах. Таке розділення NUMA досягається налаштовуванням балансування NUMA вручну шляхом створення нетипових файлів модулів systemd та налаштовування багатоадресності. Отже, автоматичне балансування NUMA вимкнено, як показано нижче:

# cat /proc/sys/kernel/numa_balancing
0

На малюнку 8 показаний тестовий стенд, де виділені підключення InfiniBand до зони NUMA.  Кожен сервер має два IP-канали, і трафік через зону NUMA 0 передається інтерфейсом IB0, а трафік через зону NUMA 1 обробляється інтерфейсом IB1.
Конфігурація тестового стенду
Малюнок 8:  Конфігурація тестового стенду
 

Характеристика продуктивності

У цьому розділі представлена оцінка продуктивності, яка допомагає охарактеризувати готове рішення Dell EMC для високопродуктивного рішення для зберігання даних HPC BeeGFS. Для отримання додаткової інформації та оновлень, будь ласка, шукайте офіційний документ, який буде опубліковано пізніше. Продуктивність системи оцінювалася за допомогою бенчмарку IOzone. Рішення тестується на послідовну пропускну здатність читання та запису, а також випадковий IOPS читання та запису. У таблиці 4 описана конфігурація серверів C6420, які використовувалися в якості клієнтів BeeGFS для досліджень продуктивності, представлених в цьому блозі.
 
Таблиця 4 Конфігурація клієнта
Клієнтів 32 обчислювальні вузли Dell EMC PowerEdge C6420
BIOS 2.2.9
Процесор 2x процесор Intel Xeon Gold 6148 @ 2.40 ГГц з 20 ядрами на процесор
Пам'ять  12 модулів пам'яті DDR4 DDR4 зі швидкістю 2666 МТ/с - 192 ГБ
Картка BOSS 2 завантажувальні диски M.2 об'ємом 120 ГБ у RAID 1 для ОС
Операційна система Red Hat Enterprise Linux Server випуск 7.6
Версія ядра 3.10.0-957.el7.x86_64
З'єднання 1x Картка EDR Mellanox ConnectX-4
Версія OFED 4.5-1.0.1.0

Послідовний запис і читання N-N

Для оцінки послідовних читань і записів використовувався бенчмарк IOzone в режимі послідовного читання і запису. Ці випробування проводилися на кількох потоках, починаючи з 1 потоку і збільшуючи степені 2, до 1024 потоків. При кожному підрахунку потоків було згенеровано однакову кількість файлів, оскільки цей тест працює з одним файлом на потік або з N клієнтів на N файл (N-N). Процеси були розподілені між 32 фізичними клієнтськими вузлами за круговою або циклічною системою, щоб запити були рівномірно розподілені та відбувалося балансування навантаження. Було обрано сукупний розмір файлу 8 ТБ, який був порівну розподілений між кількістю потоків у кожному тесті. Сукупний розмір файлу був обраний досить великим, щоб мінімізувати наслідки кешування як з серверів, так і з клієнтів BeeGFS. IOzone було запущено в комбінованому режимі запису з подальшим читанням (-i 0, -i 1), щоб дозволити йому координувати межі між операціями. Для цього тестування та результатів ми використовували розмір запису 1 МіБ для кожного запуску. Команди, що використовуються для послідовних N-N тестів, наведені нижче:

Послідовний запис і читання: iozone -i 0 -i 1 -c -e -w -r 1m -i -s $Size -t $Thread -+n -+m /шлях/до/списку ниток

Кеші ОС також скидалися або очищалися на клієнтських вузлах між ітераціями, а також між тестами запису та читання, виконуючи команду:

# sync && echo 3 > /proc/sys/vm/drop_caches

Кількість страйпів за замовчуванням для Beegfs дорівнює 4. Однак розмір фрагмента та кількість цілей у файлі можна налаштувати для кожного каталогу. Для всіх цих тестів розмір страйпу BeeGFS був обраний як 2 МБ, а кількість страйпів - 3, оскільки у нас є три цілі для кожної зони NUMA, як показано нижче:

$ beegfs-ctl --getentryinfo --mount=/mnt/beegfs /mnt/beegfs/benchmark --verbose
EntryID: 0-5D9BA1BC-1
Ідентифікатор батьків: корінь
Вузол метаданих: node001-numa0-4 [ID: 4]
Деталі візерунка смуги:
+ Тип: Розмір фрагмента RAID0
+: 2M
+ Кількість об'єктів зберігання: бажано:

3+ Накопичувальний басейн: 1 (За замовчуванням)
Шлях до хешу inode: 7/5E/0-5D9BA1BC-1

Прозорі величезні сторінки були відключені, а на серверах метаданих і сховищ діють наступні параметри налаштування:

  • vm.dirty_background_ratio = 5 
  • vm.dirty_ratio = 20 
  • vm.min_free_kbytes = 262144 
  • vm.vfs_cache_pressure = 50
  • vm.zone_reclaim_mode = 2 
  • kernel.numa_balancing = 0

Крім перерахованого вище, використовувалися наступні варіанти тюнінгу BeeGFS: 

  • tuneTargetChooser було встановлено на "roundrobin" у файлі конфігурації метаданих 
  • Параметр tuneNumWorkers було встановлено на 24 для метаданих і 32 для сховища 
  • Для параметра connMaxInternodeNum було встановлено значення 32 для метаданих, 12 для сховища та 24 для клієнтів

Послідовний розмір файлу IOzone 8 ТБ
Малюнок 9:  Послідовний розмір файлу IOzone 8 ТБ


На рисунку 9 ми бачимо, що пікова продуктивність читання становить 132 ГБ/с при 1024 потоках, а пікова швидкість запису становить 121 ГБ/с при 256 потоках. Кожен накопичувач може забезпечити пікову продуктивність читання 3,2 ГБ/с і пікову продуктивність запису 1,3 ГБ/с, що дозволяє теоретично досягти піку 422 ГБ/с для читання та 172 ГБ/с для запису. Однак тут обмежуючим фактором є мережа. Загалом у нас є 11 посилань InfiniBand EDR для серверів зберігання даних у налаштуваннях. Кожен канал може забезпечити теоретичну пікову продуктивність 12,4 ГБ/с, що дозволяє теоретично досягти пікової продуктивності 136,4 ГБ/с. Досягнута пікова продуктивність читання та запису становить 97% та 89% відповідно від теоретичної пікової продуктивності.

Продуктивність однопотокового запису становить ~3 ГБ/с, а читання – ~3 ГБ/с. Ми спостерігаємо, що продуктивність запису масштабується лінійно, досягає піку в 256 потоків, а потім починає знижуватися. При меншій кількості потоків продуктивність читання та запису однакова. Тому що до 8 потоків у нас є 8 клієнтів, які пишуть по 8 файлів у 24 цілях, а це означає, що не всі цілі сховища використовуються повністю. У нас є 33 цілі зберігання даних у системі, і, отже, для повного використання всіх серверів потрібно щонайменше 11 потоків. Продуктивність зчитування реєструє стійке лінійне зростання зі збільшенням кількості паралельних потоків, і ми спостерігаємо майже однакову продуктивність на 512 і 1024 потоках.

Ми також спостерігаємо, що продуктивність читання нижча, ніж при записі для кількості потоків від 16 до 128, а потім продуктивність читання починає масштабуватися. Це пов'язано з тим, що в той час як операція читання PCIe є операцією без проводки, що вимагає як запиту, так і завершення, операція запису PCIe є операцією «вистрілив і забув». Після того, як пакет рівня транзакцій передається канальному рівню даних, операція завершується. Операція запису — це операція «Розміщено», яка складається лише із запиту.

Пропускна здатність зчитування зазвичай нижча, ніж пропускна здатність запису, оскільки для читання потрібно дві транзакції замість одного запису для того самого обсягу даних. PCI Express використовує модель розділених транзакцій для зчитування. Зчитувана транзакція включає в себе наступні етапи:

  • Запитувач надсилає запит на читання пам'яті (MRR).
  • Заповнювач надсилає підтвердження до МРР.
  • Завершувач повертає Доповнення даними.

Пропускна здатність зчитування залежить від затримки між моментом видачі запиту на зчитування та часом, необхідним заповнювачу для повернення даних. Однак, коли програма видає достатню кількість запитів на читання, щоб покрити цю затримку, то пропускна здатність максимізується. Ось чому, хоча продуктивність читання менша, ніж у записів від 16 до 128 потоків, ми вимірюємо збільшену пропускну здатність, коли кількість запитів збільшується.  Нижча пропускна здатність вимірюється, коли запитувач чекає завершення, перш ніж видавати наступні запити. Більш висока пропускна здатність реєструється, коли видається кілька запитів на амортизацію затримки після повернення перших даних.


Випадковий запис і читання N-N

Для оцінки випадкової продуктивності вводу-виводу використовувався IOzone у випадковому режимі. Тести проводилися на кількості потоків від 4 до 1024 потоків. Опція прямого вводу-виводу (-I) використовувалася для запуску IOzone, щоб всі операції обходили буферний кеш і потрапляли безпосередньо на диск. Було використано кількість страйпів BeeGFS 3 та розмір фрагмента 2 МБ. Розмір запиту 4KiB використовується в IOzone. Продуктивність вимірюється в операціях введення-виведення в секунду (IOPS). Кеш ОС скидався між запусками на серверах BeeGFS, а також клієнтах BeeGFS. Команда, яка використовується для виконання випадкових записів і читань, наведена нижче:

Випадкове читання і запис: iozone -i 2 -w -c -O -I -r 4K -s $Size -t $Thread -+n -+m /шлях/до/списку ниток


Продуктивність випадкового читання та запису за допомогою IOzone із сукупним розміром файлу 8 ТБ
Малюнок 10:  Продуктивність випадкового читання та запису за допомогою IOzone із сукупним розміром

файлу 8 ТБ Випадковий запис досягає піку ~3,6 мільйона IOPS при 512 потоках, а випадковий запис досягає піку ~3,5 мільйона IOPS при 1024 потоках, як показано на малюнку 10. Як продуктивність запису, так і читання показують вищу продуктивність, коли є більша кількість запитів вводу-виводу. Це пов'язано з тим, що стандарт NVMe підтримує до 64K черги вводу/виводу та до 64K команд на чергу. Цей великий пул черг NVMe забезпечує більш високий рівень паралельності введення-виведення, і тому ми спостерігаємо IOPS, що перевищує 3 мільйони.


Висновок і подальша робота

У цьому блозі оголошується про випуск рішення Dell EMC High Performance BeeGFS Storage Solution і висвітлюються його експлуатаційні характеристики. Рішення має пікову продуктивність послідовного читання та запису ~132 ГБ/с та ~121 ГБ/с відповідно, а випадкові записи досягають піку при ~3,6 мільйона IOPS, а випадкові зчитування – ~3,5 мільйона IOPS.

Цей блог є першою частиною "BeeGFS Storage Solution", який був розроблений з акцентом на скретч-простір з високою продуктивністю. Слідкуйте за оновленнями 2 частини серії блогів, в якій буде описано, як можна масштабувати рішення, збільшуючи кількість серверів для збільшення продуктивності та потужності. У частині 3 серії блогів будуть обговорюватися додаткові можливості BeeGFS і висвітлюватися використання "StorageBench", бенчмарку вбудованих цілей зберігання даних BeeGFS.

У рамках наступних кроків пізніше ми опублікуємо офіційний документ із продуктивністю метаданих і продуктивністю IOR від N потоків до 1 файлу, а також з додатковими подробицями щодо міркувань дизайну, налаштування та конфігурації.


Посилання

[1] Документація BeeGFS: 
https://www.beegfs.io/wiki/[2] Як з'єднати два інтерфейси в одній підмережі:  https://access.redhat.com/solutions/30564

Artikeleigenschaften


Betroffenes Produkt

PowerSwitch S3048-ON, Mellanox SB7800 Series, PowerEdge R640, PowerEdge R740XD

Letztes Veröffentlichungsdatum

25 März 2024

Version

7

Artikeltyp

Solution