PowerScale | Розуміння стратегій кешу та метаданих L3
Summary: PowerScale пропонує гнучкість у використанні твердотільних накопичувачів (SSD) у пулі вузлів для підвищення продуктивності. Дві основні стратегії – це прискорення кешу L3 та метаданих. Кеш L3 призначений для кешування часто використовуваних даних і метаданих з метою підвищення продуктивності читання. Прискорення метаданих виділяє твердотільні накопичувачі для зберігання та прискорення операцій з метаданими, що може бути корисним для робочих навантажень з інтенсивним використанням метаданих. ...
Instructions
Розуміння кешу L3:
Кеш L3: Кеш L3 – це вторинний рівень кеш-пам'яті, який знаходиться на твердотільних накопичувачах, доповнюючи основний кеш пам'яті (L1 і L2). Він працює як кеш виселення, зберігаючи часто доступні дані та метадані для зменшення затримки читання. Кеш L3 найбільш вигідний для робочих процесів, пов'язаних з випадковим доступом до файлів. Він може працювати в режимі лише метаданих для вузлів зберігання архівних серій. Увімкнення кешу L3 у пулі вузлів із наявними даними на твердотільних накопичувачах вимагає, щоб диски евакуювали ці дані на жорсткі диски, перш ніж SSD можна буде використовувати для кешування. Відключення кешу L3 в цілому є більш швидкою операцією.
Робочі процеси, які отримують вигоду від кешу L3:
-
- Кеш L3 корисний для робочих процесів з наступними характеристиками:
- Випадковий доступ до файлів: Робочі навантаження, які передбачають часте читання різних, непослідовних частин файлів, можуть значно скоротити затримку за допомогою кешу L3.
- Високе співвідношення читання та запису: Оскільки кеш L3 в першу чергу прискорює читання, робочий процес з домінуючим компонентом читання отримує найбільшу вигоду.
- Кешування часто доступних "гарячих" даних: Кеш L3 автоматично визначає та зберігає дані, до яких часто звертаються, покращуючи продуктивність при повторному доступі.
- Потокове передавання та одночасний доступ до файлів (певною мірою): У той час як довільний доступ отримує найбільшу вигоду, робочі процеси з потоковим і паралельним доступом також можуть дещо покращити продуктивність завдяки кешу L3.
Коли вибирати кеш L3:
-
- Коли основним вузьким місцем продуктивності є випадкова затримка зчитування як даних, так і метаданих.
- Для збільшення ефективної ємності пам'яті вузлів без витрат на збільшення обсягу оперативної пам'яті.
- Для робочих навантажень, які демонструють значну кількість повторного зчитування даних і метаданих, які нещодавно були виселені з L2.
- Для вузлів архівного класу, де продуктивність метаданих для обходу файлової системи є критичною.
- Коли потрібне простіше читання за принципом «встановив і забув», потрібне підвищення продуктивності без значних накладних витрат на конфігурацію.
Коли слід вибирати прискорення метаданих: - Коли операції з метаданими (пошук, доступ, модифікації) є основним вузьким місцем продуктивності.
- Для робочих навантажень із великим обсягом читання метаданих (прискорення читання метаданих) або одночасно читання та запису (прискорення читання/запису метаданих).
- У таких сценаріях, як сейсмічна інтерпретація, коли швидкий доступ до метаданих має першорядне значення, навіть якщо базові дані знаходяться на повільнішому зберіганні.
- Коли потрібен детальний контроль за місцем зберігання метаданих.
- При поширенні переваг читання метаданих на вузли без локальних SSD необхідно (використання GNA з прискоренням зчитування метаданих на інших вузлах).
- Робочі навантаження, такі як домашні каталоги, робочі процеси з важким нумерацією файлів і дії, що вимагають численних порівнянь, часто демонструють високу активність читання метаданих. У таких випадках прискорення безпосереднього доступу до метаданих може призвести до значного підвищення продуктивності
Розуміння стратегій метаданих:
Стратегія метаданих: Замість кешування даних, твердотільні накопичувачі можна налаштувати на зберігання та прискорення операцій з метаданими. Ця стратегія може бути корисною для робочих навантажень із великим обсягом доступу до метаданих, таких як багато невеликих файлів, частий пошук у каталогах і завдання з інтенсивним використанням метаданих. OneFS підтримує різні стратегії SSD метаданих, включаючи читання метаданих і запис метаданих.
Читання метаданих: Твердотільні накопичувачі в основному використовуються для прискорення операцій зчитування метаданих.
Запис метаданих: Твердотільні накопичувачі використовуються для прискорення операцій запису метаданих.
- Переваги стратегії метаданих над кешем L3:
- Прискорення метаданих забезпечує більш цілеспрямований і детальний контроль над тим, як твердотільні накопичувачі використовуються для підвищення продуктивності метаданих для конкретних наборів даних і робочих процесів. Кеш L3, з іншого боку, є більш загальним рівнем кешування, який приносить користь більш широкому спектру робочих навантажень, особливо тим, хто має повторюваний доступ до випадкового читання як даних, так і метаданих. У той час як кеш L3 чудово покращує продуктивність читання даних, до яких часто звертаються, спеціальна стратегія метаданих може запропонувати конкретні переваги:
- Покращена продуктивність метаданих: Для робочих навантажень, де операції з метаданими є вузьким місцем (наприклад, відкриття, закриття, перейменування, список великої кількості файлів), виділення твердотільних накопичувачів для метаданих може значно зменшити затримку та покращити загальну пропускну здатність.
- Покращена продуктивність двигуна роботи: Деякі завдання движка завдань OneFS вимагають великого обсягу метаданих. Прискорення доступу до метаданих може призвести до швидшого виконання цих завдань.
- Передбачувана продуктивність для робочих навантажень з великою кількістю метаданих: У середовищах із послідовною моделлю високої активності метаданих спеціальна стратегія метаданих може забезпечити більш передбачуване та стійке покращення продуктивності порівняно з кешем на основі виселення.
- Деякі програми та робочі процеси генерують непропорційно велику кількість операцій з метаданими порівняно з фактичним зчитуванням і записом даних. Приклади включають архівування файлів, управління медіа-активами, автоматизацію електронного проектування (EDA), середовища розробки програмного забезпечення з частими компіляціями та конвеєри геноміки, які включають численні невеликі доступ до файлів та аналіз. У цих випадках затримка, пов'язана з доступом до метаданих і маніпулюванням ними, може стати значним вузьким місцем у продуктивності
- Операції, які передбачають навігацію складними структурами каталогів або список вмісту багатьох каталогів, значною мірою залежать від продуктивності метаданих. Прискорення метаданих гарантує, що система може швидко отримати доступ до інформації про індексні дескриптори та записів каталогів, що значно прискорює ці операції порівняно з використанням навіть кешу L3, який міг би витіснити цю інформацію через обмеження ємності або менш частий доступ
- Резервне копіювання, реплікація та міграція: Ці завдання з управління даними часто включають ретельне сканування та обробку метаданих. Швидший доступ до метаданих за допомогою прискорення може значно скоротити час, необхідний для виконання цих завдань, мінімізуючи збої в основних робочих навантаженнях і підвищуючи операційну ефективність.
- Пошук та індексація: Коли користувачам або автоматизованим процесам потрібно шукати конкретні файли на основі їхніх атрибутів метаданих (наприклад, імені, розміру, дати зміни), прискорений доступ до метаданих забезпечує швидший виконання запиту. Це актуально для таких рішень, як MetadataIQ, який індексує метадані файлової системи для ефективного запиту та виявлення даних у кількох кластерах
- Коли вибирати метадані:
- Інтенсивний перегляд каталогів, операції з пошуку файлів або даних, індексація.
- Операції з файлами, такі як відкриття, закриття, видалення, створення каталогів (mkdir).
- Пошук, отримання та операції доступу.
- Домашні каталоги, особливо ті, що мають багато об'єктів.
- Робочі процеси, що включають важкий перебір або порівняння.
- Інтерпретація сейсмічних даних, де своєчасність метаданих має вирішальне значення.
- Прискорення метаданих може призвести до значного покращення продуктивності цих типів діяльності, збільшуючи пропускну здатність і зменшуючи затримку
Зведення: Коли вибирати
-
- Виберіть стратегію прискорення метаданих (читання метаданих або читання/запис метаданих), якщо ваше робоче навантаження сильно упереджене щодо операцій, які отримують доступ до метаданих файлу або змінюють їх (перегляд, пошук, індексація, створення, видалення, зміна атрибутів).
- Виберіть «Прискорення читання метаданих », якщо ваше робоче навантаження в основному інтенсивне читання метаданих, і ви хочете використовувати менше ємності SSD.
- Виберіть «Прискорення читання/запису метаданих », якщо ваше робоче навантаження передбачає значну кількість запису метаданих, вимагає швидшого видалення знімків або чи є невелике робоче навантаження HPC файлів, як-от EDA, яке виграє від вбудованих невеликих файлів на флеш-пам'яті. Переконайтеся, що у вас достатньо ємності SSD.
- Розгляньте GNA , якщо у вас змішаний кластер (вузли з SSD та без них) і вам потрібно прискорити читання метаданих для даних, що знаходяться на вузлах, відмінних від SSD, по всьому кластеру. Це актуально для робочих навантажень з інтенсивним використанням метаданих, які розкидані.
- Глобальне прискорення простору імен (GNA): GNA — це старіший механізм (призначений для заміни кешем L3, коли всі вузли мають SSD), який дозволяє пулам вузлів без SSD використовувати SSD в інших місцях кластера, зберігаючи додаткові дзеркала метаданих на цих SSD. Це прискорює операції зчитування метаданих для даних, що зберігаються в пулах лише на жорстких дисках. Кеш L3 і GNA можуть співіснувати в одному кластері, але зазвичай працюють на різних пулах вузлів.
- Розгляньте L3 Cache , якщо ваше робоче навантаження передбачає значне випадкове читання, отримує вигоду від розширеного кешування для великого робочого набору або потребує покращеної продуктивності Job Engine, за умови, що ваші вузли мають SSD.
Інструменти та команди:
- Моніторинг продуктивності: Використовуйте такі інструменти, як InsightIQ, CloudIQ і MetadataIQ, для моніторингу стану кластера, показників продуктивності та прогнозування використання. InsightIQ може відстежувати тенденції продуктивності, виявляти закономірності та виконувати аналітику файлів. Це також може допомогти оцінити, коли кластер досягає максимальної місткості. CloudIQ надає статистику про продуктивність кластера. MetadataIQ полегшує індексацію даних і запити між кластерами і може використовуватися для управління життєвим циклом даних і розуміння розподілу даних.
- Утиліта isi_cache_stats може допомогти визначити робочий розмір набору даних, що актуально для розмірів SSD під кеш L2 і L3. Загальне правило передбачає, що ємність L2 + ємність L3 повинна становити >= 150% від розміру робочого набору.
- MetadataIQ (OneFS 9.10+): Розгортайте та налаштовуйте MetadataIQ для індексації та створення глобального каталогу метаданих у різних кластерах. Використовуйте інформаційну панель Kibana, щоб візуалізувати розподіл даних, кількість файлів і атрибути метаданих. Це допомагає зрозуміти склад ваших даних і те, як зростають метадані. Періодичні синхронізації підтримують актуальність бази даних метаданих
- InsightIQ надає звіти про ємність кластера, включаючи загальну, надану та використану ємність, що дозволяє прогнозувати потреби в сховищі на основі історичних тенденцій. Він може відстежувати продуктивність робочого навантаження, затримку, IOPS і пропускну здатність, дозволяючи виявляти потенційні вузькі місця в міру зростання даних. Звіти InsightIQ про аналітику файлової системи можуть показувати кількість файлів і розподіл розміру, що дає вам уявлення про масштаб і склад ваших даних, що безпосередньо пов'язано зі зростанням кількості LIN.