PowerScale OneFS 9.10: Vzácné problémy s výkonem při spuštění úlohy SnapshotDelete
Summary: U clusterů upgradovaných na OneFS 9.10 nebo 9.11 může při spuštění úlohy SnapshotDelete dojít k problémům s výkonem, pokud existuje více fondů úložiště.
Symptoms
U clusterů se dvěma nebo více fondy uzlů, které byly upgradovány na OneFS 9.10 nebo novější, může docházet k problémům s výkonem, kdykoli SnapshotDelete Úloha je spuštěna. Pozastavení SnapshotDelete Úloha přináší okamžitou úlevu, ale problém se vrátí, jakmile je úloha obnovena.
U clusterů se snapshoty s dlouhou dobou platnosti se problém může projevit až několik týdnů nebo měsíců po dokončení upgradu systému OneFS.
Protokoly a Hangdumps zobrazit modul úloh (isi_job_d) SnapshotDelete vlákno úlohy obsahující zámek LIN s trasováním zásobníku podobným tomuto příkladu:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
Systém OneFS 9.10 zavádí nelogické logické uzly iNode (LIN) do souborů sledování snímků (STF). Ta byla přidána kvůli podpoře nové funkce MetadataIQ. STF je speciální typ souboru s několika jedinečnými vlastnostmi, který se podílí na celém životním cyklu snapshotů, včetně vytváření, ukládání, změn a mazání snapshotů.
Při migraci dat mezi různými fondy se do STF přidají nelogické linky LIN, které se můžou postupně nahromadit. K problémům s výkonem dochází, když vyprší platnost a odstraní se snapshoty a v STF snapshotu je příliš mnoho nelogických linek.
Jak zjistit, zda je cluster ohrožen tímto problémem?
Clustery, které splňují následující kritéria, jsou vystaveny vyššímu riziku výskytu tohoto problému, pokud jsou upgradovány na OneFS 9.10 nebo 9.11.
- Software SnapshotIQ je licencován a povolen. V clusteru se vytvářejí snapshoty a jejich platnost vyprší.
- Cluster obsahuje více fondů uzlů.
Resolution
Trvalé řešení:
Proveďte upgrade na jednu z těchto verzí OneFS nebo novější, která obsahuje opravu:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Více oprav uživatelského prostoru a jádra](říjen 2025)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Několik oprav uživatelského prostoru a jádra](září 2025)
Alternativní řešení:
Dokud nebude aplikováno trvalé řešení, je třeba použít následující zástupné řešení:
Pomocí následující změny nastavení zakažte nelogické linky LINs v celém clusteru.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
V clusterech, které byly upgradovány na OneFS 9.10 a dochází k problémům s výkonem:
Zrušte a zakažte
SnapshotDelete , abyste se vyhnuli situaci nedostupnosti dat (DU). Poté se obraťte na technickou podporu společnosti Dell a požádejte o pomoc s odebráním snapshotů obsahujících nelogické soubory LIN.
Zrušení běhu
SnapshotDelete práce:
isi job cancel snapshotdelete
Chcete-li zakázat SnapshotDelete práce:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Úloha zakázaná na příliš dlouhou dobu může způsobit problémy s nedostatkem místa na disku. Je nutné co nejdříve kontaktovat technickou podporu společnosti Dell a pomoci s ručním odebráním snapshotů obsahujících nelogické kódy LIN, než SnapshotDelete Úloha je znovu povolena.