PowerScale OneFS 9.10: Sjældne problemer med ydeevnen, når du kører et SnapshotDelete-job
Summary: På klynger, der er opgraderet til OneFS 9.10 eller 9.11, kan der opstå problemer med ydeevnen, når du kører et SnapshotDelete-job, hvis der er flere lagerpuljer.
Symptoms
Klynger med to eller flere nodepuljer, der er blevet opgraderet til OneFS 9.10 eller nyere, kan opleve problemer med ydeevnen, når en SnapshotDelete Jobbet kører. Sæt SnapshotDelete Job giver øjeblikkelig lindring, men problemet vender tilbage, når jobbet genoptages.
På klynger med snapshots med lange udløbsdatoer viser problemet sig muligvis først flere uger eller måneder efter, at OneFS-opgraderingen blev fuldført.
Logfiler og Hangdumps Vis jobprogrammet (isi_job_d) SnapshotDelete jobtråd, der holder en LIN-lås med en staksporing, der ligner dette eksempel:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 introducerer ulogiske logiske iNodes (LIN'er) til STF (Snapshot Tracking Files). Dette blev tilføjet for at understøtte en ny funktion, MetadataIQ. En STF er en speciel filtype med flere unikke egenskaber og er involveret i hele snapshotets livscyklus, herunder oprettelse, lagring, ændring og sletning af snapshots.
Når data migreres mellem forskellige puljer, føjes de ulogiske LIN'er til STF og kan gradvist opbygges. Problemer med ydeevnen opstår, når snapshots udløber og slettes, og der er for mange ulogiske LIN'er i et snapshots STF.
Hvordan finder man ud af, om en klynge er i fare for dette problem?
Klynger, der opfylder følgende kriterier, har større risiko for at opleve dette problem, hvis de opgraderes til OneFS 9.10 eller 9.11.
- SnapshotIQ er licenseret og aktiveret. Der oprettes snapshots, og de udløber på klyngen.
- Klyngen indeholder flere nodepuljer.
Resolution
Permanent løsning:
Opgrader til en af disse OneFS-versioner eller nyere, som indeholder rettelsen:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Flere brugerområder og kernerettelser](oktober 2025)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Flere Userspace- og kernerettelser](september 2025)
Løsning:
Indtil en permanent løsning anvendes, skal følgende løsning anvendes:
Anvend følgende indstillingsændring for at deaktivere ulogiske LIN-klynger på hele klyngen.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
På klynger, der har opgraderet til OneFS 9.10 og oplever problemer med ydeevnen:
Annuller og deaktiver
SnapshotDelete job for at undgå en DU-situation (Data Unavailability). Kontakt derefter Dells tekniske support for at få hjælp til at fjerne snapshots, der indeholder ulogiske LIN'er.
Sådan aflyser du en kørsel
SnapshotDelete job:
isi job cancel snapshotdelete
Sådan deaktiveres ikonet SnapshotDelete job:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Job, der er deaktiveret for længe, kan forårsage problemer med lav diskpladskapacitet. Dells tekniske support skal kontaktes så hurtigt som muligt for at få hjælp til at fjerne snapshots, der indeholder ulogiske LIN'er, manuelt inden SnapshotDelete job genaktiveres.