PowerScale OneFS 9.10. Редкие проблемы с производительностью при выполнении задания SnapshotDelete
Summary: В кластерах, модернизированных до OneFS 9.10 или 9.11, при выполнении задания SnapshotDelete при наличии нескольких пулов хранения данных могут возникать проблемы с производительностью. ...
Symptoms
В кластерах с двумя или более пулами узлов, которые были модернизированы до OneFS 9.10 или более поздней версии, могут возникать проблемы производительности всякий раз, когда SnapshotDelete Задание выполняется. Приостановка работы SnapshotDelete Задание приносит немедленное облегчение, но проблема возникает после возобновления работы.
В кластерах с моментальными снимками с длительным сроком действия проблема может проявиться только через несколько недель или месяцев после завершения модернизации OneFS.
Журналы и Hangdumps Отобразить движок заданий (isi_job_d) SnapshotDelete потока задания, удерживающего блокировку LIN с трассировкой стека, как показано в этом примере:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 добавляет нелогичные логические узлы iNode (LIN) в файлы отслеживания снимков (STF). Это было добавлено для поддержки новой функции, MetadataIQ. STF — это особый тип файлов с несколькими уникальными характеристиками, который участвует в полном жизненном цикле моментальных снимков, включая создание, хранение, изменение и удаление моментальных снимков.
При переносе данных между разными пулами нелогичные LAN добавляются в STF и могут постепенно накапливаться. Проблемы с производительностью возникают, когда срок действия моментальных снимков истекает и они удаляются, а в STF моментального снимка слишком много нелогичных LIN.
Как определить, подвержен ли кластер риску возникновения этой проблемы?
Кластеры, которые соответствуют следующим критериям, подвергаются более высокому риску возникновения этой проблемы при модернизации до OneFS 9.10 или 9.11.
- SnapshotIQ лицензирован и активирован. В кластере создаются моментальные снимки, срок действия которых истекает.
- Кластер содержит несколько пулов узлов.
Resolution
Постоянное решение.
Выполните модернизацию до одной из следующих версий OneFS или более поздней, которая включает исправление:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Несколько исправлений пользовательского пространства и ядра](октябрь 2025 г.)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][несколько исправлений для пользовательского пространства и ядра](сентябрь 2025 г.)
Временное решение.
До тех пор, пока не будет применено постоянное решение, следует использовать следующее временное решение:
Чтобы отключить нелогичные LAN на уровне кластера, примените следующее изменение настроек.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
В кластерах, которые модернизировались до OneFS 9.10 и испытывают проблемы с производительностью:
Отмените и отключите
SnapshotDelete чтобы избежать ситуации недоступности данных (DU). Затем обратитесь в службу технической поддержки Dell за помощью в удалении моментальных снимков, содержащих нелогичные LIN.
Чтобы отменить запуск, выполните следующие действия:
SnapshotDelete работа:
isi job cancel snapshotdelete
Чтобы отключить функцию SnapshotDelete работа:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Если задание отключено слишком долгое время, это может привести к проблемам нехватки дискового пространства. Необходимо как можно скорее обратиться в службу технической поддержки Dell, чтобы получить помощь в удалении моментальных снимков, содержащих нелогичные LIN, вручную перед началом SnapshotDelete Задание включено повторно.