PowerScale OneFS 9.10: Zeldzame prestatieproblemen bij het uitvoeren van een SnapshotDelete-taak
Summary: Op clusters die zijn geüpgraded naar OneFS 9.10 of 9.11, kunnen prestatieproblemen optreden bij het uitvoeren van een SnapshotDelete-taak als er meerdere storagepools zijn.
Symptoms
Clusters met twee of meer knooppuntgroepen die zijn geüpgraded naar OneFS 9.10 of hoger kunnen prestatieproblemen ondervinden wanneer een SnapshotDelete De taak wordt uitgevoerd. Het pauzeren van de SnapshotDelete De taak biedt onmiddellijke verlichting, maar het probleem keert terug zodra de taak wordt hervat.
Op clusters met snapshots met een lange vervaldatum wordt het probleem mogelijk pas enkele weken of maanden nadat de OneFS-upgrade is voltooid duidelijk.
Logboeken en Hangdumps De Job Engine weergeven (isi_job_d) SnapshotDelete job thread met een LIN lock met een stack trace vergelijkbaar met dit voorbeeld:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 introduceert onlogische logische iNodes (LIN's) in de Snapshot Tracking Files (STF). Dit is toegevoegd ter ondersteuning van een nieuwe functie, MetadataIQ. Een STF is een speciaal bestandstype met verschillende unieke kenmerken en is betrokken bij de volledige levenscyclus van snapshots, inclusief het maken, opslaan, wijzigen en verwijderen van snapshots.
Wanneer gegevens tussen verschillende pools worden gemigreerd, worden de onlogische LIN's toegevoegd aan de STF en kunnen deze geleidelijk worden opgebouwd. Prestatieproblemen treden op wanneer snapshots verlopen en worden verwijderd, en er te veel onlogische LIN's in de STF van een snapshot zitten.
Hoe bepaal ik of een cluster risico loopt op dit probleem?
Clusters die aan de volgende criteria voldoen, lopen een groter risico op dit probleem als ze worden geüpgraded naar OneFS 9.10 of 9.11.
- SnapshotIQ is gelicentieerd en ingeschakeld. Snapshots worden gemaakt en verlopen op het cluster.
- Het cluster bevat meerdere knooppuntgroepen.
Resolution
Permanente oplossing:
Upgrade naar een van deze OneFS versies of hoger met de volgende oplossing:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Meerdere oplossingen voor gebruikersruimte en kernel](oktober 2025)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Meerdere oplossingen voor gebruikersruimte en kernel](september2025)
Tijdelijke oplossing:
Totdat een permanente oplossing is toegepast, moet de volgende tijdelijke oplossing worden gebruikt:
Pas de volgende instellingswijziging toe om onlogische LIN's in het hele cluster uit te schakelen.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
Op clusters die zijn geüpgraded naar OneFS 9.10 en prestatieproblemen ondervinden:
Annuleer en schakel de
SnapshotDelete taak om een situatie met niet-beschikbaarheid van gegevens (DU) te voorkomen. Neem vervolgens contact op met Dell Technische Support voor hulp bij het verwijderen van de snapshots met onlogische LIN's.
Een actieve actie annuleren
SnapshotDelete baan:
isi job cancel snapshotdelete
Als u de SnapshotDelete baan:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Als de taak te lang is uitgeschakeld, kan dit leiden tot problemen met de capaciteit van de schijfruimte. Er moet zo snel mogelijk contact worden opgenomen met Dell Technische Support om u te helpen de snapshots met onlogische LIN's handmatig te verwijderen voordat het SnapshotDelete Taak is opnieuw ingeschakeld.