PowerScale OneFS 9.10: Рідкісні проблеми з продуктивністю під час виконання завдання SnapshotDelete
Summary: На кластерах, оновлених до OneFS 9.10 або 9.11, можуть виникнути проблеми з продуктивністю під час виконання завдання SnapshotDelete, якщо є кілька пулів зберігання.
Symptoms
Кластери з двома або більше пулами вузлів, які були оновлені до OneFS 9.10 або пізніше, можуть зіткнутися з проблемами продуктивності, коли SnapshotDelete Робота виконується. Призупинення SnapshotDelete Робота приносить негайне полегшення, але проблема повертається, як тільки робота поновлюється.
На кластерах зі знімками з тривалим терміном дії проблема може бути очевидною лише через кілька тижнів або місяців після завершення оновлення OneFS.
Журнали та Hangdumps Показати двигун завдання (isi_job_d) SnapshotDelete нитка завдання, що тримає замок LIN з трасуванням стека, аналогічно цьому прикладу:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 вводить нелогічні логічні iNodes (LIN) у файли відстеження знімків (STF). Це було додано для підтримки нової функції, MetadataIQ. STF – це особливий тип файлу з кількома унікальними характеристиками, який бере участь у повному життєвому циклі знімків, включаючи створення, зберігання, зміну та видалення знімків.
Коли дані мігруються між різними пулами, нелогічні LIN додаються до STF і можуть поступово накопичуватися. Проблеми з продуктивністю виникають, коли знімки прострочені та видаляються, а в STF знімка занадто багато нелогічних LIN.
Як визначити, чи є кластер у групі ризику з цього питання?
Кластери, які відповідають наведеним нижче критеріям, мають вищий ризик зіткнутися з цією проблемою, якщо їх оновлено до OneFS 9.10 або 9.11.
- SnapshotIQ ліцензовано та увімкнено. На кластері створюються та закінчуються знімки.
- Кластер містить кілька пулів вузлів.
Resolution
Постійне рішення:
Оновіть систему до однієї з цих версій OneFS або пізнішої, яка містить такі виправлення:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Кілька виправлень простору користувача та ядра](жовтень 2025 р.)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Кілька виправлень простору користувача та ядра](вересень 2025 р.)
Спосіб вирішення:
Поки не буде нанесено постійне рішення, слід використовувати наступний обхідний шлях:
Застосуйте наведену нижче зміну налаштувань, щоб вимкнути нелогічні LINs у всьому кластері.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
На кластерах, які оновилися до OneFS 9.10 і мають проблеми з продуктивністю:
Скасуйте та вимкніть
SnapshotDelete завдання, щоб уникнути ситуації недоступності даних (DU). Потім зверніться до служби технічної підтримки Dell за допомогою у видаленні знімків, що містять нелогічні LIN.
Скасування бігу
SnapshotDelete йов:
isi job cancel snapshotdelete
Щоб відключити SnapshotDelete йов:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Занадто тривале вимкнення роботи може спричинити проблеми з недостатнім обсягом дискового простору. Необхідно якомога швидше зв'язатися зі службою технічної підтримки Dell, щоб допомогти з видаленням знімків, що містять нелогічні LIN, вручну, перш ніж SnapshotDelete job буде знову включено.