PowerScale OneFS 9.10: Rzadkie problemy z wydajnością podczas uruchamiania zadania SnapshotDelete
Summary: W klastrach uaktualnionych do OneFS 9.10 lub 9.11 mogą wystąpić problemy z wydajnością podczas wykonywania zadania SnapshotDelete, jeśli istnieje wiele pul pamięci masowej.
Symptoms
W klastrach z co najmniej dwiema pulami węzłów, które zostały uaktualnione do OneFS 9.10 lub nowszego, mogą wystąpić problemy z wydajnością za każdym razem, gdy SnapshotDelete Zadanie jest uruchomione. Wstrzymywanie SnapshotDelete Zadanie przynosi natychmiastową ulgę, ale problem powraca po wznowieniu zadania.
W klastrach z migawkami z długimi datami wygaśnięcia problem może być widoczny dopiero po kilku tygodniach lub miesiącach od zakończenia uaktualnienia OneFS.
Dzienniki i Hangdumps pokaż mechanizm zadań (isi_job_d) SnapshotDelete Wątek zadania z blokadą LIN ze śladem stosu podobnym do tego przykładu:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 wprowadza nielogiczne logiczne węzły iNode (LIN) do plików śledzenia migawek (STF). Zostało ono dodane w celu obsługi nowej funkcji, MetadataIQ. STF to specjalny typ pliku o kilku unikatowych cechach, który bierze udział w pełnym cyklu życia migawki, w tym w tworzeniu, przechowywaniu, zmienianiu i usuwaniu migawek.
Podczas migracji danych między różnymi pulami nielogiczne linie LIN są dodawane do STF i mogą się stopniowo gromadzić. Problemy z wydajnością występują, gdy migawki wygasły i są usuwane, a w STF migawki znajduje się zbyt wiele nielogicznych linii LIN.
Jak ustalić, czy klaster jest zagrożony tym problemem?
Klastry spełniające poniższe kryteria są bardziej narażone na wystąpienie tego problemu w przypadku aktualizacji systemu OneFS do wersji 9.10 lub 9.11.
- Usługa SnapshotIQ jest licencjonowana i włączona. Migawki w klastrze są tworzone, które wygasły.
- Klaster zawiera wiele pul węzłów.
Resolution
Trwałe rozwiązanie:
Uaktualnij system OneFS do jednej z tych wersji lub nowszej, która zawiera poprawkę:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Wiele poprawek przestrzeni użytkownika i jądra] (październik 2025 r.)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Wiele poprawek przestrzeni użytkownika i jądra] (wrzesień 2025 r.)
Obejście problemu:
Dopóki nie zostanie zastosowane trwałe rozwiązanie, należy zastosować następujące obejście:
Zastosuj następującą zmianę ustawienia, aby wyłączyć nielogiczne linie LIN w całym klastrze.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
W klastrach, które zostały uaktualnione do OneFS 9.10 i występują problemy z wydajnością:
Anuluj i wyłącz
SnapshotDelete w celu uniknięcia sytuacji niedostępności danych (DU). Następnie skontaktuj się z działem pomocy technicznej firmy Dell , aby uzyskać pomoc w usunięciu migawek zawierających nielogiczne linie LIN.
Aby anulować bieg
SnapshotDelete zadanie:
isi job cancel snapshotdelete
Aby wyłączyć funkcję SnapshotDelete zadanie:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Zbyt długie wyłączenie zadania może spowodować problemy z małą ilością miejsca na dysku. Należy jak najszybciej skontaktować się z działem pomocy technicznej firmy Dell w celu uzyskania pomocy w ręcznym usunięciu migawek zawierających nielogiczne karty sieciowe SnapshotDelete Zadanie zostało ponownie włączone.