PowerScale OneFS 9.10: Seltene Leistungsprobleme beim Ausführen eines SnapshotDelete-Jobs
Summary: Auf Clustern, die auf OneFS 9.10 oder 9.11 aktualisiert wurden, können beim Ausführen eines SnapshotDelete-Jobs Performanceprobleme auftreten, wenn mehrere Storage-Pools vorhanden sind. ...
Symptoms
Bei Clustern mit zwei oder mehr Node-Pools, die auf OneFS 9.10 oder höher aktualisiert wurden, können Performanceprobleme auftreten, wenn ein SnapshotDelete Der Job wird ausgeführt. Anhalten der SnapshotDelete Der Job bringt sofortige Lösung, aber das Problem kehrt zurück, sobald der Job fortgesetzt wird.
Auf Clustern mit Snapshots mit langen Ablaufdaten wird das Problem möglicherweise erst einige Wochen oder Monate nach Abschluss des OneFS-Upgrades sichtbar.
Protokolle und Hangdumps Zeigen Sie die Job-Engine an (isi_job_d) SnapshotDelete Job-Thread mit einer LIN-Sperre mit einer Stapelablaufverfolgung ähnlich wie in diesem Beispiel:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 führt unlogische logische iNodes (LINs) für die Snapshot Tracking Files (STF) ein. Dies wurde hinzugefügt, um eine neue Funktion, MetadataIQ, zu unterstützen. Eine STF ist ein spezieller Dateityp mit mehreren einzigartigen Merkmalen und ist am gesamten Lebenszyklus von Snapshots beteiligt, einschließlich der Erstellung, Speicherung, Änderung und Löschung von Snapshots.
Wenn Daten zwischen verschiedenen Pools migriert werden, werden die unlogischen LINs zum STF hinzugefügt und können sich allmählich aufbauen. Performanceprobleme treten auf, wenn Snapshots abgelaufen sind und gelöscht werden und zu viele unlogische LINs im STF eines Snapshots vorhanden sind.
Wie kann festgestellt werden, ob ein Cluster durch dieses Problem gefährdet ist?
Bei Clustern, die die folgenden Kriterien erfüllen, ist dieses Problem bei einem Upgrade auf OneFS 9.10 oder 9.11 einem höheren Risiko ausgesetzt.
- SnapshotIQ ist lizenziert und aktiviert. Snapshots werden auf dem Cluster erstellt und laufen ab.
- Der Cluster enthält mehrere Node-Pools.
Resolution
Dauerhafte Lösung:
Führen Sie ein Upgrade auf eine dieser OneFS-Versionen oder höher durch, die folgende Korrektur enthalten:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Mehrere Userspace- und Kernel-Korrekturen](Oktober 2025)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Mehrere Userspace- und Kernel-Korrekturen](September 2025)
Problemumgehung:
Bis eine dauerhafte Lösung angewendet wird, sollte die folgende Problemumgehung verwendet werden:
Wenden Sie die folgende Einstellungsänderung an, um clusterweit unlogische LINs zu deaktivieren.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
Auf Clustern, die auf OneFS 9.10 aktualisiert wurden und bei denen Performanceprobleme auftreten:
Brechen Sie den Vorgang ab und deaktivieren Sie die
SnapshotDelete zur Vermeidung der Nichtverfügbarkeit von Daten (DU). Wenden Sie sich dann an den technischen Support von Dell , um Unterstützung beim Entfernen der Snapshots zu erhalten, die unlogische LINs enthalten.
So brechen Sie ein laufendes
SnapshotDelete Arbeit:
isi job cancel snapshotdelete
So deaktivieren Sie die Option SnapshotDelete Arbeit:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Ein zu lange deaktivierter Job kann zu Kapazitätsproblemen bei geringem Speicherplatz führen. Der technische Support von Dell muss so schnell wie möglich kontaktiert werden, um die Snapshots mit unlogischen LINs manuell zu entfernen, bevor die SnapshotDelete Der Job wird erneut aktiviert.