PowerScale OneFS 9.10: SnapshotDeleteジョブの実行時のまれなパフォーマンスの問題
Summary: OneFS 9.10または9.11にアップグレードされたクラスターで、複数のストレージ プールがある場合に、SnapshotDeleteジョブを実行するとパフォーマンスの問題が発生する可能性があります。
Symptoms
OneFS 9.10以降にアップグレードされた2つ以上のノード プールを持つクラスターでは、 SnapshotDelete ジョブは実行中です。の一時停止 SnapshotDelete ジョブはすぐに解決されますが、ジョブが再開されると問題が再発します。
有効期限の長いスナップショットを持つクラスターでは、OneFSのアップグレードが完了してから数週間または数か月後になるまで、問題が明らかにならない場合があります。
ログと Hangdumps ジョブ エンジンを表示する (isi_job_d)を作成します。 SnapshotDelete 次の例のようなスタックトレースを持つ LIN ロックを保持しているジョブスレッド:
77886 isi_job_d:
...
thread 100637: je_worker_main at 0xfffffe8b55ea95c0 in state "running":
On cpu 5 for 3 ticks
Stack: --------------------------------------------------
kernel:btree_leaf_check_prefetch+0xde
kernel:btree_leaf_get_entry+0x349
kernel:stf_is_fake_entry+0x41
kernel:stf_iterate_block+0x66
kernel:ifs_snap_get_lins_helper+0xac
kernel:_sys_ifs_snap_get_lins+0x279
kernel:amd64_syscall+0x7b0
--------------------------------------------------
Cause
OneFS 9.10では、スナップショット追跡ファイル(STF)に 非論理 論理iNode(LIN)が導入されています。これは、新機能であるMetadataIQをサポートするために追加されました。STFは、いくつかの固有の特性を持つ特殊なファイルタイプであり、スナップショットの作成、保存、変更、削除など、スナップショットのライフサイクル全体に関与します
異なるプール間でデータを移行すると、非論理LINがSTFに追加され、徐々に蓄積されます。パフォーマンスの問題は、スナップショットの有効期限が切れて削除され、スナップショットのSTFに非論理LINが多すぎると発生します。
クラスターがこの問題のリスクにさらされているかどうかを確認するには、どうすればよいですか
次の基準を満たすクラスターをOneFS 9.10または9.11にアップグレードすると、この問題が発生するリスクが高くなります。
- SnapshotIQがライセンスされ、有効になっています。スナップショットがクラスターで作成され、期限切れになっています。
- クラスターには複数のノード プールが含まれています。
Resolution
恒久的な解決策:
修正を含む次のいずれかのOneFSバージョン以降にアップグレードします。
- OneFS 9.10.1.4 PSP-4686 MR:[9.10.1.4_GA-MR][複数のユーザースペースおよびカーネルの修正](2025年10月)
- OneFS 9.11.0.5 PSP-4681 MR:[9.11.0.5_GA-MR][複数のユーザースペースおよびカーネルの修正](2025年9月)
回避策:
恒久的な解決策が適用されるまでは、次の回避策を使用する必要があります。
クラスター全体で非論理LINを無効にするには、次の設定変更を適用します。
isi_sysctl_cluster efs.snapshot.stf_populate_illogical_lin_enabled=0
OneFS 9.10にアップグレードされ、パフォーマンスの問題が発生しているクラスターの場合:
キャンセルし、無効にします
SnapshotDelete ジョブを使用して、データ使用不可(DU)状態を回避します。次に、 Dellテクニカル サポート に連絡して、非論理LINを含むスナップショットの削除についてサポートを受けてください。
実行をキャンセルするには
SnapshotDelete 仕事:
isi job cancel snapshotdelete
無効にするには SnapshotDelete 仕事:
isi job types modify snapshotdelete --enabled=false
SnapshotDelete ジョブが無効になっている時間が長すぎると、ディスク領域容量不足の問題が発生する可能性があります。不正なLINを含むスナップショットを手動で削除できるようサポートを受けるには、できるだけ早くDellテクニカル サポートに連絡する必要があります。 SnapshotDelete ジョブが再有効化されました。