PowerScale OneFS 9.10: Sällsynta prestandaproblem när du kör ett SnapshotDelete-jobb
Summary: På kluster som uppgraderats till OneFS 9.10 eller 9.11 kan prestandaproblem uppstå när ett SnapshotDelete-jobb körs om det finns flera lagringspooler.
Symptoms
Kluster med två eller flera nodpooler som har uppgraderats till OneFS 9.10 eller senare kan få prestandaproblem när en SnapshotDelete Jobbet körs. Pausa SnapshotDelete Jobbet ger omedelbar lindring, men problemet återkommer när jobbet återupptas.
På kluster med snapshots med långa utgångsdatum kanske problemet inte blir uppenbart förrän flera veckor eller månader efter att OneFS-uppgraderingen slutfördes.
Loggar och Hangdumps Visa jobbmotorn (isi_job_d) SnapshotDelete jobbtråd som innehåller ett LIN-lås med en stackspårning som liknar det här exemplet:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 introducerar ologiska logiska noder (LIN) för snapshotspårningsfiler (STF). Detta har lagts till för att stödja en ny funktion, MetadataIQ. En STF är en speciell filtyp med flera unika egenskaper och är involverad i hela livscykeln för ögonblicksbilder, inklusive skapande, lagring, ändring och radering av ögonblicksbilder.
När data migreras mellan olika pooler läggs de ologiska LIN:erna till i STF och kan gradvis byggas upp. Prestandaproblem uppstår när ögonblicksbilder har upphört att gälla och tas bort, och det finns för många ologiska LIN:er i STF för en ögonblicksbild.
Hur tar jag reda på om ett kluster är i riskzonen för det här problemet?
Kluster som uppfyller följande kriterier löper större risk att drabbas av det här problemet om de uppgraderas till OneFS 9.10 eller 9.11.
- SnapshotIQ är licensierat och aktiverat. Ögonblicksbilder skapas och har upphört att gälla i klustret.
- Klustret innehåller flera nodpooler.
Resolution
Permanent lösning:
Uppgradera till en av dessa OneFS-versioner eller senare som innehåller korrigeringen:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Flera korrigeringar av användarrymden och kärnan](oktober 2025)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Flera korrigeringar av användarrymden och kärnan](september2025)
Lösning:
Fram till dess att en permanent lösning tillämpas bör följande lösning användas:
Tillämpa följande inställningsändring för att inaktivera ologiska LIN i hela klustret.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
På kluster som har uppgraderat till OneFS 9.10 och har prestandaproblem:
Avbryt och inaktivera
SnapshotDelete jobb för att undvika en situation med dataotillgänglighet (DU). Kontakta sedan Dells tekniska support för att få hjälp med att ta bort snapshots som innehåller ologiska LIN.
Så här avbryter du en körning
SnapshotDelete jobb:
isi job cancel snapshotdelete
Om du vill inaktivera SnapshotDelete jobb:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Jobb inaktiverat för länge kan orsaka problem med brist på diskutrymme. Dells tekniska support måste kontaktas så snart som möjligt för att få hjälp med att ta bort snapshots som innehåller ologiska LIN:er manuellt innan SnapshotDelete Jobbet har återaktiverats.