PowerScale OneFS 9.10: Sjeldne ytelsesproblemer ved kjøring av en SnapshotDelete-jobb
Summary: På klynger som er oppgradert til OneFS 9.10 eller 9.11, kan det oppstå ytelsesproblemer når du kjører en SnapshotDelete-jobb hvis det finnes flere lagringsgrupper.
Symptoms
Klynger med to eller flere nodeutvalg som ble oppgradert til OneFS 9.10 eller nyere, kan oppleve ytelsesproblemer når en SnapshotDelete Jobben er i gang. Sette på pause SnapshotDelete Jobben gir umiddelbar lettelse, men problemet kommer tilbake når jobben er gjenopptatt.
På klynger med øyeblikksbilder med lange utløpsdatoer kan det hende at problemet ikke oppstår før flere uker eller måneder etter at OneFS-oppgraderingen ble fullført.
Logger og Hangdumps vise jobbmotoren (isi_job_d) SnapshotDelete jobbtråd som holder en LIN-lås med en stakksporing som ligner på dette eksemplet:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 introduserer ulogiske logiske iNodes (LIN-er) i STF (Snapshot Tracking Files). Dette ble lagt til for å støtte en ny funksjon, MetadataIQ. En STF er en spesiell filtype med flere unike egenskaper og er involvert i hele livssyklusen for øyeblikksbilder, inkludert oppretting, lagring, endring og sletting av øyeblikksbilder.
Når data migreres mellom forskjellige utvalg, legges de ulogiske LIN-ene til STF og kan gradvis bygges opp. Ytelsesproblemer oppstår når øyeblikksbilder er utløpt og slettet, og det er for mange ulogiske LIN-er i STF for et øyeblikksbilde.
Hvordan finne ut om en klynge er i faresonen for dette problemet?
Klynger som oppfyller følgende kriterier, har høyere risiko for å oppleve dette problemet hvis de oppgraderes til OneFS 9.10 eller 9.11.
- SnapshotIQ er lisensiert og aktivert. Øyeblikksbilder opprettes og utløper på klyngen.
- Klyngen inneholder flere nodegrupper.
Resolution
Permanent løsning:
Oppgrader til en av disse OneFS-versjonene eller nyere som inkluderer reparasjonen:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Flere brukerområder og kjernereparasjoner] (oktober 2025)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Flere brukerområder og kjernefeilrettinger] (september 2025)
Løsning:
Inntil en permanent løsning er tatt i bruk, bør følgende midlertidige løsning brukes:
Bruk følgende innstillingsendring for å deaktivere klyngebredde for ulogiske LIN-er.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
På klynger som har oppgradert til OneFS 9.10 og har ytelsesproblemer:
Avbryt og deaktiver
SnapshotDelete jobb for å unngå en situasjon med utilgjengelighet av data (DU). Ta deretter kontakt med Dells tekniske kundestøtte for å få hjelp med å fjerne øyeblikksbildene som inneholder ulogiske LIN-nettverk.
Slik avbryter du en kjøring
SnapshotDelete jobb:
isi job cancel snapshotdelete
Slik deaktiverer du SnapshotDelete jobb:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Hvis jobben er deaktivert for lenge, kan det føre til problemer med lite diskplasskapasitet. Dells tekniske støtte må kontaktes så snart som mulig for å få hjelp til å fjerne øyeblikksbildene som inneholder ulogiske LIN-nettverk manuelt, før SnapshotDelete Jobben aktiveres på nytt.