PowerScale OneFS 9.10: Rari problemi di prestazioni durante l'esecuzione di un lavoro SnapshotDelete
Summary: Nei cluster aggiornati a OneFS 9.10 o 9.11, potrebbero verificarsi problemi di prestazioni durante l'esecuzione di un processo SnapshotDelete se sono presenti più pool di storage.
Symptoms
I cluster con due o più pool di nodi che sono stati aggiornati a OneFS 9.10 o versione successiva potrebbero riscontrare problemi di prestazioni ogni volta che un SnapshotDelete Il lavoro è in esecuzione. Sospensione di SnapshotDelete Il lavoro offre un sollievo immediato, ma il problema si ripresenta una volta ripreso il lavoro.
Nei cluster con snapshot con date di scadenza lunghe, il problema potrebbe non essere evidente fino a diverse settimane o mesi dopo il completamento dell'aggiornamento di OneFS.
Registri e Hangdumps Visualizzare l'engine dei processi (isi_job_d) SnapshotDelete thread di lavoro che mantiene un blocco LIN con un'analisi dello stack simile a questo esempio:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10 introduce iNodi logici illogici (LIN) nei file di tracciamento delle istantanee (STF). Questa funzione è stata aggiunta per supportare una nuova funzione, MetadataIQ. Un STF è un tipo di file speciale con diverse caratteristiche esclusive ed è coinvolto nell'intero ciclo di vita delle istantanee, tra cui la creazione, l'archiviazione, la modifica e l'eliminazione delle istantanee.
Quando i dati vengono migrati tra pool diversi, i LIN illogici vengono aggiunti all STF e possono accumularsi gradualmente. Quando le istantanee sono scadute e in fase di eliminazione si verificano problemi di prestazioni e sono presenti troppi LIN illogici nell'STF di un'istantanea.
Come determinare se un cluster è a rischio di questo problema?
I cluster che soddisfano i seguenti criteri sono maggiormente esposti al rischio di riscontrare questo problema se vengono aggiornati a OneFS 9.10 o 9.11.
- SnapshotIQ è concesso in licenza e abilitato. Le snapshot sono in fase di creazione e scadute nel cluster.
- Il cluster contiene più pool di nodi.
Resolution
Soluzione definitiva:
Eseguire l'aggiornamento a una di queste versioni di OneFS o a una successiva che includa la correzione:
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][Più correzioni di userspace e kernel](ottobre 2025)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][Più correzioni di userspace e kernel](settembre 2025)
Soluzione alternativa:
Fino a quando non viene applicata una soluzione permanente, è necessario utilizzare la seguente soluzione alternativa:
Applicare la seguente modifica all'impostazione per disabilitare le LIN illogiche a livello di cluster.
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
Nei cluster che hanno eseguito l'upgrade a OneFS 9.10 e riscontrano problemi di prestazioni:
Annulla e disabilita
SnapshotDelete per evitare una situazione di non disponibilità dei dati (DU). Quindi, contattare il supporto tecnico Dell per assistenza con la rimozione delle istantanee contenenti LIN illogiche.
Per annullare un'esecuzione
SnapshotDelete lavoro:
isi job cancel snapshotdelete
Per disabilitare l'opzione SnapshotDelete lavoro:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete Il lavoro disabilitato per troppo tempo può causare problemi di capacità di spazio su disco insufficiente. Il supporto tecnico Dell deve essere contattato il prima possibile per assistenza nella rimozione manuale delle istantanee contenenti LIN illogiche prima che il SnapshotDelete Il lavoro viene riabilitato.